最長重復(fù)子串

前言

據(jù)統(tǒng)計,在所有程序中刑峡,關(guān)于字符串處理的程序占到了百分之八十以上肉渴,所以關(guān)于字符串處理的算法十分多,而且關(guān)于數(shù)字處理的很多算法同樣可以用于字符串中叔遂,包括本文提到的快速排序,除此之外關(guān)于字符串還有很多其他的算法争剿,比如回文串已艰,重復(fù)子串等等,這些問題還可以組合成為更復(fù)雜的問題蚕苇,在字符串處理中哩掺,有一些較復(fù)雜或者說適用性不廣的算法,即這個算法只對這類題目適用涩笤,但是他確實很巧妙嚼吞。當(dāng)然這些都不是重點盒件,重點是將算法當(dāng)作藝術(shù)去品,看見其魅力便可舱禽。閑話少說炒刁,開始正文。

問題

這個問題有很多版本誊稚,下面的便是一種經(jīng)典的出題方式(題目來自于網(wǎng)上):
給定一個文本文件作為輸入翔始,查找其中最長的重復(fù)子字符串。例如里伯,"Ask not what your country can do for you, but what you can do for your country"中最長的重復(fù)字符串是“can do for you”城瞎,第二長的是"your country"。

講解

看完這個題目俏脊,片刻思忖全谤,相信大多數(shù)人會和我一樣得到最naive的解法,暴力解決辦法爷贫,枚舉遍歷等等认然,因為這個題目本身給人一種重復(fù)性很強(qiáng)的感覺,所以算法的時間復(fù)雜度不會太低漫萄,想在O(N)時間內(nèi)解決基本不大可能卷员。naive的解法有我經(jīng)過思考和參考列舉下面兩種,不附代碼了腾务,只用文字描述毕骡。

  • 第一種方法,時間復(fù)雜度:O(N^3)

如下圖:有一個字符串“abacdbacf”岩瘦,我們用兩個指針未巫,p1從頭開始,p2從p1+1開始启昧,進(jìn)行兩層循環(huán)叙凡,在每層循環(huán)內(nèi)部,尋找p1和p2所指的字符串的最長公共子串密末,這個思路比較簡單握爷,時間復(fù)雜度也容易求得,偽代碼如下:


def find_longest_repeating_strings(string):
    for p1 in range(len(string)):
        for p2 in range(p1+1, len(string)):
            max = find_common_string()
    return max
  • 第二種方法严里,時間復(fù)雜度:O(N^3)

和第一種方法十分類似新啼,都是遍歷的思想,這次從長度開始刹碾,同樣用兩個指針燥撞,只是外層循環(huán)從1到字符串長度來控制p1和p2所指的要比較子串的長度,時間復(fù)雜度也十分容易分析,偽代碼如下:

def find_longest_repeating_strings(string):
    for i in range(1, len(string)):
        for p1 in range(len(string)-i):
            for p2 in range(p1+1, len(string)-i):
                max = find_common_string()
    return max
  • 第三種方法物舒,時間復(fù)雜度:O(N^2logN)
    這種方法用到了后綴數(shù)組辆布,后綴數(shù)組是什么呢?用我自己理解來說茶鉴,后綴是相對于前綴來說锋玲,前綴就是一個字符串的左子集,那后綴就是字符串的右子集涵叮,字符串的所有右子集的集合便組成了后綴數(shù)組惭蹂。比如字符串“abc”的后綴數(shù)組就是["abc","bc","c"],很好理解吧割粮。接下來先講解第三種方法盾碗,以“abacdbacf”為例,然后再講為什么這樣可以舀瓢,我想像我這種見識少的人會吃驚的廷雅。
  1. 求字符串的后綴數(shù)組
    求解方法剛才已經(jīng)說過,得到的后綴數(shù)組為:[abacdbacf,bacdbacf,acdbacf,cdbacf,dbacf,bacf,acf,acf,cf,f]
  2. 將字符串的后綴數(shù)組按照字典序進(jìn)行排序
    可以使用任何方法將后綴數(shù)組進(jìn)行排序京髓,排序是按照字符的ASCII排序航缀,我這里選擇的是快速排序。排序后的結(jié)果為:['abacdbacf', 'acdbacf', 'acf', 'bacdbacf', 'bacf', 'cdbacf', 'cf', 'dbacf', 'f']
  3. 兩兩從頭比較比較排序后的后綴數(shù)組相鄰的兩個字符串的公共子串
    分別比較后綴數(shù)組里面相鄰的兩個字符串的公共子串堰怨,得到的最長公共子串即為題目所求芥玉,比如“abacdbacf”和“acdbacf”的最長公共子串為“a”,注意這里只需要從頭比較备图,比如“banana”和“ana”的最長公共子串為“”灿巧,而不是“ana”,至于原因揽涮,接下來解釋抠藕。

操作的步驟講解完畢,由于在快速排序中我們的時間復(fù)雜度可以達(dá)到O(NlogN)蒋困,所以最終的時間復(fù)雜度減少了盾似,為O(N^2logN),為什么可以這樣做呢家破?考慮第一種用兩個指針的方法颜说,不失一般性购岗,假設(shè)現(xiàn)在指針指向了任意兩個字符x,y,接下來需要的便是比較其指向的字符串的公共子串汰聋,這和先求后綴子串其實是一個道理,那求后綴子串的優(yōu)勢在哪里呢喊积?不用挨個重復(fù)遍歷烹困,在得到了后綴數(shù)組之后,我們按照字典序進(jìn)行排序乾吻,所有具有最長公共子串的肯定會相鄰髓梅,所以在得到排好序的后綴數(shù)組之后拟蜻,只需要O(N)的時間復(fù)雜度便可得到結(jié)果,但是要注意這里的最長公共子串是從第一個字符串開始比較枯饿,一旦不同酝锅,立馬返回,比如“banana”和“ana”的最長公共子串為“”奢方,而不是“ana”搔扁,因為您只要稍微想一下,就會發(fā)現(xiàn)蟋字,“anana”也是后綴數(shù)組中的一元素稿蹲。最后附上代碼如下,或者直接從github下載:

def partition(suffix_array, start, end):
    if end <= start:
        return
    index1, index2 = start, end
    base = suffix_array[start]
    while index1 < index2 and suffix_array[index2] >= base:
        index2 -= 1
    suffix_array[index1] = suffix_array[index2]
    while index1 < index2 and suffix_array[index1] <= base:
        index1 += 1
    suffix_array[index2] = suffix_array[index1]
    suffix_array[index1] = base
    partition(suffix_array, start, index1 -  1)
    partition(suffix_array, index1 + 1, end)

def find_common_string(str1, str2):
    if not str1 or not str2:
        return 0, ''
    index1, index2 = 0, 0
    length, comm_substr = 0, ''
    while index1 < len(str1) and index2 < len(str2):
        if str1[index1] == str2[index2]:
            length += 1
            comm_substr += str1[index1]
        else:
            break
        index1 += 1
        index2 += 1
    return length, comm_substr

def find_longest_repeating_strings(string):
    if not string:
        return None, None
    suffix_array = []
    # first, get the suffix arrays
    length = len(string)
    for i in range(length):
        suffix_array.append(string[i:])
    # second, sort suffix array
    start, end = 0, len(suffix_array) - 1
    partition(suffix_array, start, end)
    # third, get the longest repeating substring
    max_length,  repeat_substring = 0, ''
    for i in range(len(suffix_array) - 1):
        common_len, common_substring = find_common_string(suffix_array[i], suffix_array[i+1])
        if common_len > max_length:
            max_length, repeat_substring = common_len, common_substring
    return max_length, repeat_substring

if __name__ == "__main__":
    string = "Ask not what your country can do for you, but what you can do for your country"
    length, substr = find_longest_repeating_strings(string)
    print length, substr

總結(jié)

關(guān)于字符串的處理有太多的巧招妙招鹊奖,本文只是其中的一種苛聘,總之自己看完這種解法之后,大呼美妙~

不向靜中參妙理,縱然穎悟也虛浮 立乎其大 和而不同 古之成大事者忠聚,不惟有超世之才设哗,亦必有堅韌不拔之志

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市两蟀,隨后出現(xiàn)的幾起案子熬拒,更是在濱河造成了極大的恐慌,老刑警劉巖垫竞,帶你破解...
    沈念sama閱讀 212,383評論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件澎粟,死亡現(xiàn)場離奇詭異,居然都是意外死亡欢瞪,警方通過查閱死者的電腦和手機(jī)活烙,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來遣鼓,“玉大人啸盏,你說我怎么就攤上這事∑锼睿” “怎么了回懦?”我有些...
    開封第一講書人閱讀 157,852評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長次企。 經(jīng)常有香客問我怯晕,道長,這世上最難降的妖魔是什么缸棵? 我笑而不...
    開封第一講書人閱讀 56,621評論 1 284
  • 正文 為了忘掉前任舟茶,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘吧凉。我一直安慰自己隧出,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,741評論 6 386
  • 文/花漫 我一把揭開白布阀捅。 她就那樣靜靜地躺著胀瞪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪饲鄙。 梳的紋絲不亂的頭發(fā)上赏廓,一...
    開封第一講書人閱讀 49,929評論 1 290
  • 那天,我揣著相機(jī)與錄音傍妒,去河邊找鬼幔摸。 笑死,一個胖子當(dāng)著我的面吹牛颤练,可吹牛的內(nèi)容都是我干的既忆。 我是一名探鬼主播,決...
    沈念sama閱讀 39,076評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼嗦玖,長吁一口氣:“原來是場噩夢啊……” “哼患雇!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起宇挫,我...
    開封第一講書人閱讀 37,803評論 0 268
  • 序言:老撾萬榮一對情侶失蹤苛吱,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后器瘪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體翠储,經(jīng)...
    沈念sama閱讀 44,265評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,582評論 2 327
  • 正文 我和宋清朗相戀三年橡疼,在試婚紗的時候發(fā)現(xiàn)自己被綠了援所。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,716評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡欣除,死狀恐怖住拭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情历帚,我是刑警寧澤滔岳,帶...
    沈念sama閱讀 34,395評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站挽牢,受9級特大地震影響谱煤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜卓研,卻給世界環(huán)境...
    茶點故事閱讀 40,039評論 3 316
  • 文/蒙蒙 一趴俘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧奏赘,春花似錦寥闪、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,798評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至梁只,卻和暖如春缚柳,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背搪锣。 一陣腳步聲響...
    開封第一講書人閱讀 32,027評論 1 266
  • 我被黑心中介騙來泰國打工秋忙, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人构舟。 一個月前我還...
    沈念sama閱讀 46,488評論 2 361
  • 正文 我出身青樓灰追,卻偏偏與公主長得像,于是被迫代替她去往敵國和親狗超。 傳聞我的和親對象是個殘疾皇子弹澎,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,612評論 2 350

推薦閱讀更多精彩內(nèi)容