字符串匹配

字符串匹配

1.樸素的串匹配算法(暴力解法)

1.1 分析

image

設(shè)t是目標(biāo)串(母串)觅捆,p是模式串(待匹配串)先舷,i , j 分別指向 模式串 和 目標(biāo)串,m途乃、n分別是模式串p和目標(biāo)串t的長(zhǎng)度俩功。

  • 從目標(biāo)串的第0個(gè)字符幻枉,挨個(gè)進(jìn)行比較,遇到不相等的字符就停止诡蜓。
  • 模式串與目標(biāo)串的下一個(gè)字符進(jìn)行比較熬甫,重復(fù)上一個(gè)步驟。
  • 一個(gè)一個(gè)字符遍歷目標(biāo)串直到找到為止万牺。

1.2 Python實(shí)現(xiàn):

def match(t:str, p:str):  
    '''  
 t:目標(biāo)串(母串)  
 p:模式串(要匹配的字符串)  
 返回與模式串在目標(biāo)串中第一次出現(xiàn)時(shí)的下標(biāo)
 ''' m, n = len(p), len(t) # m 和 n分別是字符串 p 和 t的長(zhǎng)度  
 i, j = 0, 0  
 while i < m and j < n:  
        if p[i] == t[j]:  
            i, j = i+1, j+1  
 else:  
            i, j = 0, j-i+1 # j-i得到當(dāng)前j的下標(biāo)罗珍,+1指向目標(biāo)串的下一個(gè)元素  
 if i == m:  
        return j-i             # 返回此時(shí)母串中j的下標(biāo)  
 return -1

res = match("ababcabcacbab", "abcac")  
print(res)

程序運(yùn)行結(jié)果是5;

1.3 時(shí)間復(fù)雜度分析

暴力匹配最壞的情況下脚粟,每一次都進(jìn)行比較覆旱,最后一趟才匹配上,共n-m+1趟核无,每次模式串都進(jìn)行了匹配為m次扣唱,故這個(gè)算法的時(shí)間復(fù)雜度為:O(m x n)

樸素算法(暴力匹配)的缺點(diǎn):

  • 把每次字符都看做完全獨(dú)立的操作,沒(méi)有利用字符串本身的特點(diǎn)噪沙,字符串只有有窮多個(gè)字符炼彪。
  • 沒(méi)有利用前面已經(jīng)比較的字符串得到的信息。

匹配字符串的特點(diǎn):

  • 模式串不太長(zhǎng)
  • 目標(biāo)串的每一個(gè)字符來(lái)源于一個(gè)又窮集合正歼,不是無(wú)窮多種取值
  • 每個(gè)串有固定的長(zhǎng)度

2.無(wú)回溯串匹配算法(KMP算法)

KMP算法是由3個(gè)外國(guó)人最先發(fā)現(xiàn)的辐马,并以他們的名字首字母命名,該算法是一個(gè)高效的串匹配算法局义,該算法比較難理解喜爷,但是時(shí)間復(fù)雜度大大降低。該算法主要優(yōu)化了樸素算法里把模式串里的字符看做單獨(dú)隨機(jī)字符的做法萄唇。具體如下:

  • 每一次比較之后檩帐,找到不同的元素
  • 然后通過(guò)next數(shù)組找到模式串下一次匹配的字符下標(biāo)
  • 構(gòu)造next數(shù)組

2.1 KMP算法主函數(shù)

例:使用KMP算法把下圖中的模式串在目標(biāo)串進(jìn)行進(jìn)行查找,返回第一次出現(xiàn)時(shí)的下標(biāo):


image
def match_KMP(t, p, gen_pnext):  
    """:arg  
 t : 目標(biāo)串  
 p : 模式串  
 next : 模式串的next數(shù)組  
 """ i, j = 0, 0  
 n, m = len(t), len(p)   # m 另萤、 n 分別是模式串 和 目標(biāo)串的長(zhǎng)度  
 while i < m and j < n:  
        if i == -1 or t[j] == p[i]:  
            i, j = i+1, j+1  
        else:  
            i = gen_pnext[i]  
    if i == m:              # 找到匹配的子字符串湃密,返回其下標(biāo)  
       return j-i  
    return -1

2.2 next數(shù)組

首先我們介紹一下前綴和后綴的概念:
給出一個(gè)字符串 abcacab 該字符串相等的最長(zhǎng)的前綴和后綴是ab
練習(xí):
1.求字符串 abbcabb四敞,該字符串相等的前后綴為abb泛源。
2.求字符串acgcca ,該字符串相等的前后綴為 a。
通過(guò)找到相等的前后綴目养,我們主要用來(lái)在KMP匹配一次之后俩由,目標(biāo)串和模式串遇到不同的字符時(shí)毒嫡,在該位置目標(biāo)串下次匹配的模式串字符的位置癌蚁。如上圖所示:目標(biāo)串的a字符和模式串的c字符不一致,這時(shí)候需要構(gòu)造next數(shù)組找到下次模式串匹配的字符位置a,這里的計(jì)算方法是:在模式串的不同字符的前的子字符串里找到相等的最大的前后綴的下一個(gè)字符的下標(biāo)作為下次模式串匹配的位置兜畸。這里 ab 字符努释,沒(méi)有相等的前后綴,返回下標(biāo)0,對(duì)應(yīng)的字符是a咬摇。

第二次匹配時(shí):遇到目標(biāo)串里的字符 b 和 模式串里的 c 不一致伐蒂,我們找 子字符串:abca 里 最長(zhǎng)相等前后綴a,則取下標(biāo)1對(duì)應(yīng)的 b 字符與第一次匹配失敗時(shí)的 目標(biāo)串的 'b' 字符進(jìn)行匹配肛鹏。

image
def gen_pnext(p):  
    i, k, m = 0, -1, len(p)  
    pnext = [-1] * m  
    while i < m-1:  
        if p[i] == p[k] or k == -1:  
            i, k = i+1, k+1  
             pnext[i] = k  
        else:  
            k = pnext[k]  
    return pnext

這里的 gen_pnext() 函數(shù)就是我們上面解釋的生成 next 數(shù)組的函數(shù)逸邦。下面稍微容易理解一點(diǎn)。

def p_next(patttern:str):  
    """:arg  
 pattern:傳入的是待匹配字符串  
 """ i, k = 0, -1 # i 指向 pattern 字符串在扰, k 初值為 -1 pnext = [-1] * len(patttern) # 生成一個(gè)長(zhǎng)度和 pattern 一致的數(shù)組缕减,初始值都為-1  
 while i < len(patttern)-1:  
        if k == -1:  
            i, k = i + 1, k + 1  
            pnext[i] = k  
        elif patttern[k] == patttern[i]:  
            i, k = i + 1, k + 1  
 pnext[i] = k  
        else:  
            k = pnext[k]  # 不相等 k 的值就會(huì)一直指向 pnext[k] return pnext

上面的求next的函數(shù)很不好理解,可以結(jié)合圖片理解芒珠。

2.3 時(shí)間復(fù)雜度

一次KMP算法的完整執(zhí)行包括構(gòu)造 pnext 表 和 實(shí)際匹配桥狡,設(shè)模式串和目標(biāo)串長(zhǎng)度分別為 m 和 n, KMP算法的時(shí)間復(fù)雜度是 O(m+n)。多數(shù)情況下 m<<n,可以認(rèn)為這個(gè)算法的時(shí)間復(fù)雜度是 O(n)裹芝。

碼字不易部逮,感覺(jué)對(duì)你有幫助可以加個(gè)關(guān)注哈。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嫂易,一起剝皮案震驚了整個(gè)濱河市兄朋,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌怜械,老刑警劉巖蜈漓,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異宫盔,居然都是意外死亡融虽,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門灼芭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)有额,“玉大人,你說(shuō)我怎么就攤上這事彼绷∥∮樱” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵寄悯,是天一觀的道長(zhǎng)萤衰。 經(jīng)常有香客問(wèn)我,道長(zhǎng)猜旬,這世上最難降的妖魔是什么脆栋? 我笑而不...
    開(kāi)封第一講書人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮洒擦,結(jié)果婚禮上椿争,老公的妹妹穿的比我還像新娘。我一直安慰自己熟嫩,他們只是感情好秦踪,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著掸茅,像睡著了一般椅邓。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上昧狮,一...
    開(kāi)封第一講書人閱讀 51,754評(píng)論 1 307
  • 那天景馁,我揣著相機(jī)與錄音,去河邊找鬼陵且。 笑死裁僧,一個(gè)胖子當(dāng)著我的面吹牛个束,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播聊疲,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼茬底,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了获洲?” 一聲冷哼從身側(cè)響起阱表,我...
    開(kāi)封第一講書人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎贡珊,沒(méi)想到半個(gè)月后最爬,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡门岔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年爱致,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寒随。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡糠悯,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出妻往,到底是詐尸還是另有隱情互艾,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布讯泣,位于F島的核電站纫普,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏好渠。R本人自食惡果不足惜昨稼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望晦墙。 院中可真熱鬧悦昵,春花似錦、人聲如沸晌畅。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)抗楔。三九已至,卻和暖如春拦坠,著一層夾襖步出監(jiān)牢的瞬間连躏,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工贞滨, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留入热,地道東北人拍棕。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像勺良,于是被迫代替她去往敵國(guó)和親绰播。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容