最長重復(fù)子串

前言

據(jù)統(tǒng)計，在所有程序中刑峡，關(guān)于字符串處理的程序占到了百分之八十以上肉渴，所以關(guān)于字符串處理的算法十分多，而且關(guān)于數(shù)字處理的很多算法同樣可以用于字符串中叔遂，包括本文提到的快速排序，除此之外關(guān)于字符串還有很多其他的算法争剿，比如回文串已艰，重復(fù)子串等等，這些問題還可以組合成為更復(fù)雜的問題蚕苇，在字符串處理中哩掺，有一些較復(fù)雜或者說適用性不廣的算法，即這個算法只對這類題目適用涩笤，但是他確實很巧妙嚼吞。當(dāng)然這些都不是重點盒件，重點是將算法當(dāng)作藝術(shù)去品，看見其魅力便可舱禽。閑話少說炒刁，開始正文。

問題

這個問題有很多版本誊稚，下面的便是一種經(jīng)典的出題方式（題目來自于網(wǎng)上）：
給定一個文本文件作為輸入翔始，查找其中最長的重復(fù)子字符串。例如里伯，"Ask not what your country can do for you, but what you can do for your country"中最長的重復(fù)字符串是“can do for you”城瞎，第二長的是"your country"。

講解

看完這個題目俏脊，片刻思忖全谤，相信大多數(shù)人會和我一樣得到最naive的解法，暴力解決辦法爷贫，枚舉遍歷等等认然，因為這個題目本身給人一種重復(fù)性很強(qiáng)的感覺，所以算法的時間復(fù)雜度不會太低漫萄，想在O(N)時間內(nèi)解決基本不大可能卷员。naive的解法有我經(jīng)過思考和參考列舉下面兩種，不附代碼了腾务，只用文字描述毕骡。

第一種方法，時間復(fù)雜度：O(N^3)

如下圖：有一個字符串“abacdbacf”岩瘦，我們用兩個指針未巫，p1從頭開始，p2從p1+1開始启昧，進(jìn)行兩層循環(huán)叙凡，在每層循環(huán)內(nèi)部，尋找p1和p2所指的字符串的最長公共子串密末，這個思路比較簡單握爷，時間復(fù)雜度也容易求得，偽代碼如下：

def find_longest_repeating_strings(string):
    for p1 in range(len(string)):
        for p2 in range(p1+1, len(string)):
            max = find_common_string()
    return max

第二種方法严里，時間復(fù)雜度：O(N^3)

和第一種方法十分類似新啼，都是遍歷的思想，這次從長度開始刹碾，同樣用兩個指針燥撞，只是外層循環(huán)從1到字符串長度來控制p1和p2所指的要比較子串的長度，時間復(fù)雜度也十分容易分析，偽代碼如下：

def find_longest_repeating_strings(string):
    for i in range(1, len(string)):
        for p1 in range(len(string)-i):
            for p2 in range(p1+1, len(string)-i):
                max = find_common_string()
    return max

第三種方法物舒，時間復(fù)雜度：O(N^2logN)
這種方法用到了后綴數(shù)組辆布，后綴數(shù)組是什么呢？用我自己理解來說茶鉴，后綴是相對于前綴來說锋玲，前綴就是一個字符串的左子集，那后綴就是字符串的右子集涵叮，字符串的所有右子集的集合便組成了后綴數(shù)組惭蹂。比如字符串“abc”的后綴數(shù)組就是["abc","bc","c"]，很好理解吧割粮。接下來先講解第三種方法盾碗，以“abacdbacf”為例，然后再講為什么這樣可以舀瓢，我想像我這種見識少的人會吃驚的廷雅。

求字符串的后綴數(shù)組
求解方法剛才已經(jīng)說過，得到的后綴數(shù)組為：[abacdbacf,bacdbacf,acdbacf,cdbacf,dbacf,bacf,acf,acf,cf,f]
將字符串的后綴數(shù)組按照字典序進(jìn)行排序
可以使用任何方法將后綴數(shù)組進(jìn)行排序京髓，排序是按照字符的ASCII排序航缀，我這里選擇的是快速排序。排序后的結(jié)果為：['abacdbacf', 'acdbacf', 'acf', 'bacdbacf', 'bacf', 'cdbacf', 'cf', 'dbacf', 'f']
兩兩從頭比較比較排序后的后綴數(shù)組相鄰的兩個字符串的公共子串
分別比較后綴數(shù)組里面相鄰的兩個字符串的公共子串堰怨，得到的最長公共子串即為題目所求芥玉，比如“abacdbacf”和“acdbacf”的最長公共子串為“a”，注意這里只需要從頭比較备图，比如“banana”和“ana”的最長公共子串為“”灿巧，而不是“ana”，至于原因揽涮，接下來解釋抠藕。

操作的步驟講解完畢，由于在快速排序中我們的時間復(fù)雜度可以達(dá)到O(NlogN)蒋困，所以最終的時間復(fù)雜度減少了盾似，為O(N^2logN)，為什么可以這樣做呢家破？考慮第一種用兩個指針的方法颜说，不失一般性购岗，假設(shè)現(xiàn)在指針指向了任意兩個字符x,y,接下來需要的便是比較其指向的字符串的公共子串汰聋，這和先求后綴子串其實是一個道理，那求后綴子串的優(yōu)勢在哪里呢喊积？不用挨個重復(fù)遍歷烹困，在得到了后綴數(shù)組之后，我們按照字典序進(jìn)行排序乾吻，所有具有最長公共子串的肯定會相鄰髓梅，所以在得到排好序的后綴數(shù)組之后拟蜻，只需要O(N)的時間復(fù)雜度便可得到結(jié)果，但是要注意這里的最長公共子串是從第一個字符串開始比較枯饿，一旦不同酝锅，立馬返回，比如“banana”和“ana”的最長公共子串為“”奢方，而不是“ana”搔扁，因為您只要稍微想一下，就會發(fā)現(xiàn)蟋字，“anana”也是后綴數(shù)組中的一元素稿蹲。最后附上代碼如下，或者直接從github下載：

def partition(suffix_array, start, end):
    if end <= start:
        return
    index1, index2 = start, end
    base = suffix_array[start]
    while index1 < index2 and suffix_array[index2] >= base:
        index2 -= 1
    suffix_array[index1] = suffix_array[index2]
    while index1 < index2 and suffix_array[index1] <= base:
        index1 += 1
    suffix_array[index2] = suffix_array[index1]
    suffix_array[index1] = base
    partition(suffix_array, start, index1 -  1)
    partition(suffix_array, index1 + 1, end)

def find_common_string(str1, str2):
    if not str1 or not str2:
        return 0, ''
    index1, index2 = 0, 0
    length, comm_substr = 0, ''
    while index1 < len(str1) and index2 < len(str2):
        if str1[index1] == str2[index2]:
            length += 1
            comm_substr += str1[index1]
        else:
            break
        index1 += 1
        index2 += 1
    return length, comm_substr

def find_longest_repeating_strings(string):
    if not string:
        return None, None
    suffix_array = []
    # first, get the suffix arrays
    length = len(string)
    for i in range(length):
        suffix_array.append(string[i:])
    # second, sort suffix array
    start, end = 0, len(suffix_array) - 1
    partition(suffix_array, start, end)
    # third, get the longest repeating substring
    max_length,  repeat_substring = 0, ''
    for i in range(len(suffix_array) - 1):
        common_len, common_substring = find_common_string(suffix_array[i], suffix_array[i+1])
        if common_len > max_length:
            max_length, repeat_substring = common_len, common_substring
    return max_length, repeat_substring

if __name__ == "__main__":
    string = "Ask not what your country can do for you, but what you can do for your country"
    length, substr = find_longest_repeating_strings(string)
    print length, substr

總結(jié)

關(guān)于字符串的處理有太多的巧招妙招鹊奖，本文只是其中的一種苛聘，總之自己看完這種解法之后，大呼美妙~

不向靜中參妙理,縱然穎悟也虛浮立乎其大和而不同古之成大事者忠聚，不惟有超世之才设哗，亦必有堅韌不拔之志

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市两蟀，隨后出現(xiàn)的幾起案子熬拒，更是在濱河造成了極大的恐慌，老刑警劉巖垫竞，帶你破解...
沈念sama閱讀 212,383評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件澎粟，死亡現(xiàn)場離奇詭異，居然都是意外死亡欢瞪，警方通過查閱死者的電腦和手機(jī)活烙，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,522評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來遣鼓，“玉大人啸盏，你說我怎么就攤上這事∑锼睿” “怎么了回懦？”我有些...
開封第一講書人閱讀 157,852評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長次企。經(jīng)常有香客問我怯晕，道長，這世上最難降的妖魔是什么缸棵？我笑而不...
開封第一講書人閱讀 56,621評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任舟茶，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘吧凉。我一直安慰自己隧出，他們只是感情好，可當(dāng)我...
茶點故事閱讀 65,741評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布阀捅。她就那樣靜靜地躺著胀瞪，像睡著了一般。火紅的嫁衣襯著肌膚如雪饲鄙。梳的紋絲不亂的頭發(fā)上赏廓，一...
開封第一講書人閱讀 49,929評論 1贊 290
城市分裂傳說
那天，我揣著相機(jī)與錄音傍妒，去河邊找鬼幔摸。笑死，一個胖子當(dāng)著我的面吹牛颤练，可吹牛的內(nèi)容都是我干的既忆。我是一名探鬼主播，決...
沈念sama閱讀 39,076評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼嗦玖，長吁一口氣：“原來是場噩夢啊……” “哼患雇！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起宇挫，我...
開封第一講書人閱讀 37,803評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤苛吱，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后器瘪，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翠储，經(jīng)...
沈念sama閱讀 44,265評論 1贊 303
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,582評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年橡疼，在試婚紗的時候發(fā)現(xiàn)自己被綠了援所。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,716評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡欣除，死狀恐怖住拭，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情历帚，我是刑警寧澤滔岳，帶...
沈念sama閱讀 34,395評論 4贊 333
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站挽牢，受9級特大地震影響谱煤，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卓研，卻給世界環(huán)境...
茶點故事閱讀 40,039評論 3贊 316
男人毒藥：我在死后第九天來索命
文/蒙蒙一趴俘、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧奏赘，春花似錦寥闪、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,798評論 0贊 21
一樁弒父案疲憋，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至梁只，卻和暖如春缚柳，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背搪锣。一陣腳步聲響...
開封第一講書人閱讀 32,027評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工秋忙，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人构舟。一個月前我還...
沈念sama閱讀 46,488評論 2贊 361
代替公主和親
正文我出身青樓灰追，卻偏偏與公主長得像，于是被迫代替她去往敵國和親狗超。傳聞我的和親對象是個殘疾皇子弹澎，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,612評論 2贊 350

最長重復(fù)子串

前言

問題

講解

總結(jié)

推薦閱讀更多精彩內(nèi)容