Python字符串匹配

假設(shè)有兩個字符串：t(目標串啰扛，長度n)和p(模式串嚎京，長度m)嗡贺，通常m<<n。

樸素串匹配算法

優(yōu)點
簡單易懂
缺點
效率低
時間復(fù)雜度分析：最壞的情況是每一趟都在模式串的最后遇到不匹配鞍帝，那么每一趟比較的次數(shù)是n-m+1, 總的比較次數(shù)是 mx(n-m+1), 因為m<<n, 所以時間復(fù)雜度為O(mxn)

代碼實現(xiàn)：

def naive_match(t,p):
    m, n = len(p), len(t)
    i, j = 0, 0
    while i < m and j < n:
        if p[i] == t[j]:
            i, j = i+1, j+1
        else:    #字符不匹配诫睬，考慮t串的下一個位置
            i, j = 0, j-i+1 # j-i+1為相對位置加1
    if i == m:  # p串完全匹配后（i++）i的值變?yōu)閙
        return j-i  #此時j的值減去p串的長度（i或者m）就是所在下標
    return 'No Match!' #無匹配則返回'No Match'
#實例化
t = ' abc  de'
p = 'de'
print naive_match(t, p)
#輸出 6

#換一種想法去實現(xiàn)
def naive_match1(p,t):
    m, n, i = len(p), len(t), 0
    for i in range(n-m+1):
        if t[i:i+n-1] == p:
            return i
    return 'No match!'
p = 'abc'
t = 'abdabc'
print naive_match1(p,t)

KMP算法（無回溯串匹配算法）

分析：算法的關(guān)鍵在于構(gòu)建一個跳轉(zhuǎn)表(pnext表)，當?shù)趇個字符匹配失敗時不是重新從頭開始匹配（例如樸素串匹配算法）帕涌，而是通過構(gòu)建好的跳轉(zhuǎn)表跳轉(zhuǎn)到第j個字符摄凡。例如：

0 1 2 3 4 5 6 7 # 字符串的位置
a b c a b c d a # p串
0 0 0 0 1 2 3 0 # pnext表，如果匹配不成功跳轉(zhuǎn)的位置

解釋：當?shù)?位的字符d匹配失敗后可以直接跳轉(zhuǎn)到第3位的a蚓曼，因為它們之前的abc是相同的亲澡，不需要再匹配一遍了。

更近一步分析：如果p串i位置與t串的j位置匹配失敗了纫版，先去查找p串i位置之前的從0開始的串（假設(shè)[0,k], k<i）與t串j位置之前的串（[j-k,j]）是否有相同的片段床绪，如果有找出那個k值，若木有則按照樸素匹配算法進行其弊。

移動的位數(shù) = 已匹配的字符數(shù) - 對應(yīng)的部分匹配值（查表）

如何得到p串每個字符的部分匹配值（如何生成next表）癞己？
對于每個p串的字符，前綴與后綴共有字符的個數(shù)就是該字符的部分匹配值梭伐。詳細解釋

那么如何構(gòu)造部分匹配表（next表）呢痹雅，python代碼如下：

Next表 （部分匹配表，跳轉(zhuǎn)表）
def partial_table(p):
    prefix = set() #集合
    postfix = set()
    ret = [0]  #存放p串匹配值糊识，因為第一個字符的匹配值肯定為0绩社，先把0存進去
    for i in range(1,len(p)): #從第二個字符開始
        #獲取前i+1個字符串的前綴（例如對于abc，前綴有a,ab）
        #Note:切片[0:3]-->索引0,1,2（第一個索引是0可以省略-->[:3]-->取前三個數(shù)）
        #Note:range函數(shù)也一樣取不到后面的數(shù)-->rang(1,3)-->>1,2
        prefix.add(p[:i]) #因為對于不同的字符前綴都有相同的部分赂苗，這里只需要添加就行了
        #獲取前i+1個字符串的后綴(例如對于abc愉耙，后綴有bc,c)
        postfix = {p[j:i+1] for j in range(1,i+1)} #對于不同的字符后綴總是不一樣
        ret.append(len(prefix&postfix))
    return ret

KMP算法實現(xiàn)

#-*-coding=utf-8-*-
#KMP
def kmp_match(t, p):
    m,n = len(t),len(p)
    cur = 0  #起始指針cur
    table = partial_table(p)
    while cur <= m-n: #最多做m-n趟匹配
        for i in range(n): #在每一趟比較中
            if s[i+cur]!=p[i]: #匹配不成功時
                cur += max(i - table[i-1], 1) #移動的位數(shù) = 以匹配的字符數(shù) - 匹配值
                break
        else:
            return True
    return False

# 測試
p = 'ABCDABD'
s = 'BBC ABCDAB ABCDABCDABDE'
print partial_table(p)
print kmp_match(s, p)

最后編輯于：2017.12.11 07:16:10

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市哑梳，隨后出現(xiàn)的幾起案子劲阎，更是在濱河造成了極大的恐慌，老刑警劉巖鸠真，帶你破解...
沈念sama閱讀 217,277評論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件悯仙，死亡現(xiàn)場離奇詭異龄毡，居然都是意外死亡，警方通過查閱死者的電腦和手機锡垄，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門沦零，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人货岭，你說我怎么就攤上這事路操。” “怎么了千贯？”我有些...
開封第一講書人閱讀 163,624評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵屯仗，是天一觀的道長。經(jīng)常有香客問我搔谴，道長魁袜，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,356評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任敦第，我火速辦了婚禮峰弹，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘芜果。我一直安慰自己鞠呈，他們只是感情好，可當我...
茶點故事閱讀 67,402評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布右钾。她就那樣靜靜地躺著蚁吝，像睡著了一般。火紅的嫁衣襯著肌膚如雪霹粥。梳的紋絲不亂的頭發(fā)上灭将，一...
開封第一講書人閱讀 51,292評論 1贊 301
城市分裂傳說
那天，我揣著相機與錄音后控，去河邊找鬼庙曙。笑死，一個胖子當著我的面吹牛浩淘，可吹牛的內(nèi)容都是我干的捌朴。我是一名探鬼主播，決...
沈念sama閱讀 40,135評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼张抄，長吁一口氣：“原來是場噩夢啊……” “哼砂蔽！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起署惯，我...
開封第一講書人閱讀 38,992評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤左驾，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诡右，經(jīng)...
沈念sama閱讀 45,429評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡安岂，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,636評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了帆吻。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片域那。...
茶點故事閱讀 39,785評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖猜煮，靈堂內(nèi)的尸體忽然破棺而出次员，到底是詐尸還是另有隱情，我是刑警寧澤王带，帶...
沈念sama閱讀 35,492評論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布淑蔚，位于F島的核電站，受9級特大地震影響辫秧，放射性物質(zhì)發(fā)生泄漏束倍。R本人自食惡果不足惜被丧，卻給世界環(huán)境...
茶點故事閱讀 41,092評論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一盟戏、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧甥桂，春花似錦柿究、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評論 0贊 22
一樁弒父案蝇摸，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至办陷，卻和暖如春貌夕，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背民镜。一陣腳步聲響...
開封第一講書人閱讀 32,858評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工啡专，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人制圈。一個月前我還...
沈念sama閱讀 47,891評論 2贊 370
代替公主和親
正文我出身青樓们童，卻偏偏與公主長得像，于是被迫代替她去往敵國和親鲸鹦。傳聞我的和親對象是個殘疾皇子慧库，可洞房花燭夜當晚...
茶點故事閱讀 44,713評論 2贊 354

Python字符串匹配

樸素串匹配算法

KMP算法（無回溯串匹配算法）

推薦閱讀更多精彩內(nèi)容