最長(zhǎng)公共子序列/串問(wèn)題

基礎(chǔ)概念

  • 字符串:S[0..n]婆咸,S是一個(gè)字符串谈截,長(zhǎng)度為n筷屡。S本質(zhì)上是一個(gè)字符數(shù)組,數(shù)組的每個(gè)元素都是一個(gè)字符簸喂;
  • 子序列:設(shè)T為S的一個(gè)子序列毙死,則如果T[ti]和T[tj]為T(mén)的兩個(gè)字符,ti<tj喻鳄,那么T[ti]和T[tj]也都是S的字符扼倘,且對(duì)應(yīng)的下標(biāo)si<sj。舉個(gè)例子除呵,S為adbfhgs再菊,那么abfg就是S的一個(gè)子序列爪喘,abcfg就不是S的子序列;
  • 子串:子串是一種特殊的子序列袄简,它要求tj - ti = sj - si腥放,即子串的字符要在S中連續(xù)。還是設(shè)S為adbfhgs绿语,那么adbf是S的一個(gè)子串秃症,abfg就不是。
  • 后綴:S[0..n]吕粹,那么S[i..n] (i>=0)都是S的后綴种柑;
  • 公共子序列/串:如果R既是S的子序列/串,又是T 的子序列/串匹耕,那么R就是S和T 的公共子序列/串聚请。

最長(zhǎng)公共子序列

問(wèn)題描述

有兩個(gè)字符串S[0...m]和T[0...n],求S和T的所有最長(zhǎng)公共子序列的長(zhǎng)度稳其。

例子

設(shè)S=adbfhgs驶赏,T=hadeubgs,那么S和T的最長(zhǎng)公共子序列為R=adbgs既鞠,長(zhǎng)度為5煤傍。

分析

首先考慮暴力求解。枚舉S的所有子序列嘱蛋,總共有2m個(gè)蚯姆;然后再枚舉T的所有子序列,總共有2n個(gè)洒敏;最后一一匹配龄恋,總的時(shí)間復(fù)雜度為O(2^(m+n))。顯然是不可行的凶伙。

考慮一種動(dòng)態(tài)規(guī)劃的方法郭毕。

  • 狀態(tài)表####

dp[i][j],i和j分別是S和T的下標(biāo)函荣,dp[i][j]為當(dāng)前狀態(tài)下的最長(zhǎng)公共子序列的長(zhǎng)度铣卡。其中i和j分別從0開(kāi)始遞增,即狀態(tài)表是從左往右偏竟,從上往下依次被填滿的(假設(shè)左上方的i和j都是0)煮落。

  • 基礎(chǔ)狀態(tài)####

dp[0][j]=0,dp[i][0]=0踊谋。顯然當(dāng)一個(gè)字符串為空時(shí)蝉仇,兩字符串的最長(zhǎng)公共子序列就是空字符串,長(zhǎng)度為0

  • 狀態(tài)轉(zhuǎn)移方程####

dp[i][j]=dp[i-1][j-1]+1, S[i]=T[j];
dp[i][j]=max(dp[i-1][j],dp[i][j-1]), S[i]!=T[j].
當(dāng)S[i]=T[j]時(shí),如果i-1和j-1狀態(tài)下的最長(zhǎng)公共子序列為R轿衔,那么i和j狀態(tài)下的最長(zhǎng)公共子序列就為R+S[i] (T[j])沉迹,所以長(zhǎng)度會(huì)加1;
當(dāng)S[i]!=T[j]害驹,i和j狀態(tài)下的最長(zhǎng)公共子序列要么是i-1和j狀態(tài)下的最長(zhǎng)公共子序列鞭呕,要么是i和j-1狀態(tài)下的最長(zhǎng)公共子序列,所以長(zhǎng)度取這兩個(gè)最長(zhǎng)公共子序列的長(zhǎng)度的最大值宛官。

打印

到目前為止葫松,我們已經(jīng)得到了一張?zhí)詈玫臓顟B(tài)表。那么怎么通過(guò)這張狀態(tài)表打印出對(duì)應(yīng)的最長(zhǎng)公共子序列呢底洗?

回溯打印最長(zhǎng)公共子序列

從狀態(tài)表的右下方開(kāi)始腋么,向上回溯。具體算法詳見(jiàn)代碼亥揖。

代碼

#include <iostream>
#include <string>
#include <vector>
#include <algorithm>

using namespace std;

int main()
{
    string s, t;
    cin >> s >> t;

    int slen = s.length();
    int tlen = t.length();

    vector<vector<int>> dp(slen + 1, vector<int>(tlen + 1, 0));

    for (int i = 1; i <= slen; i++)
        for (int j = 1; j <= tlen; j++)
            if (s[i - 1] == t[j - 1])
                dp[i][j] = dp[i - 1][j - 1] + 1;
            else
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]);

    int lcslen = dp[slen][tlen]; // 最長(zhǎng)公共子序列長(zhǎng)度

    string lcs; // 最長(zhǎng)公共子序列
    lcs.resize(lcslen);
    
    // 從右下向左上遍歷狀態(tài)表
    int i = slen, j = tlen, k = lcslen;
    while (i > 0 && j > 0)
    {
        if (s[i - 1] == t[j - 1])
        {
            lcs[--k] = s[i - 1];
            i--; j--;
        }
        else if (dp[i - 1][j] < dp[i][j - 1])
            j--;
        else
            i--;
    }

    cout << "longest common subsequence length: " << lcslen << endl;
    cout << "longest common subsequence: " << lcs << endl;

    return 0;
}

最長(zhǎng)公共子串

問(wèn)題描述

有兩個(gè)字符串S[0...m]和T[0...n]珊擂,求S和T的所有最長(zhǎng)公共子串的長(zhǎng)度。

例子

設(shè)S=adbfhgs费变,T=hadeubgs摧扇,那么S和T的最長(zhǎng)公共子串為R=ad或者gs,長(zhǎng)度為2挚歧。

分析

首先考慮暴力求解扳剿。枚舉S的所有子串,總共有(m2+m)/2個(gè)昼激;然后再枚舉T的所有子序列,總共有(n2+n)/2個(gè)锡搜;最后一一匹配橙困,總的時(shí)間復(fù)雜度為O(m2*n2),也是不可行的耕餐》哺担可以使用KMP算法把匹配的復(fù)雜度降到O(n),但是總的復(fù)雜度O(m^2*n)還是太高肠缔。

考慮一種動(dòng)態(tài)規(guī)劃的方法夏跷。

  • 狀態(tài)表####

dp[i][j],i和j分別是S和T的下標(biāo)明未。注意槽华,這里的dp[i][j]并不是當(dāng)前狀態(tài)下的最長(zhǎng)公共子串的長(zhǎng)度,而是最長(zhǎng)公共后綴的長(zhǎng)度趟妥。舉個(gè)例子猫态,S為abxcdef,T為frcdef,當(dāng)i=4亲雪,j=3勇凭,即i指向d,j指向也是d义辕,則當(dāng)前字符串a(chǎn)bxcd和frcd的最長(zhǎng)公共后綴為cd虾标。要明確后綴就是從后往前看,依次進(jìn)行匹配就行了灌砖。其中i和j分別從0開(kāi)始遞增璧函,即狀態(tài)表是從左往右,從上往下依次被填滿的(假設(shè)左上方的i和j都是0)周崭。

  • 基礎(chǔ)狀態(tài)####

dp[0][j]=0柳譬,dp[i][0]=0。顯然當(dāng)一個(gè)字符串為空時(shí)续镇,兩字符串的最長(zhǎng)公共子串就是空字符串美澳,長(zhǎng)度為0

  • 狀態(tài)轉(zhuǎn)移方程####

dp[i][j]=dp[i-1][j-1]+1, S[i]=T[j];
dp[i][j]=0, S[i]!=T[j];
lcslen=max(lcslen, dp[i][j]).
當(dāng)S[i]=T[j]時(shí),如果i-1和j-1狀態(tài)下的最長(zhǎng)公共后綴為R摸航,那么i和j狀態(tài)下的最長(zhǎng)公共后綴就為R+S[i] (T[j])制跟,所以長(zhǎng)度會(huì)加1;設(shè)S為abxcdef酱虎,T為frcdef雨膨,i=4(指向d),j=3(指向d)读串,i-1和j-1狀態(tài)下的最長(zhǎng)公共后綴為c聊记,i和j狀態(tài)下的最長(zhǎng)公共后綴就是cd,長(zhǎng)度為2恢暖;
當(dāng)S[i]!=T[j]排监,設(shè)S為abxcdef,T為frcdef杰捂,i=4(指向d)舆床,j=4(指向e),則當(dāng)前字符串a(chǎn)bxcd和frcde的最長(zhǎng)公共后綴為空嫁佳,長(zhǎng)度為0挨队。
lcslen是最長(zhǎng)公共子串的長(zhǎng)度,每次更新?tīng)顟B(tài)的時(shí)候更新蒿往。

打印

構(gòu)建狀態(tài)表的時(shí)候盛垦,保存每次檢測(cè)到的最長(zhǎng)公共子串的尾下標(biāo),最后從尾下標(biāo)開(kāi)始往前查找字符串瓤漏,直到找到兩個(gè)不相同的字符為止情臭。

代碼

#include <iostream>
#include <string>
#include <vector>
#include <algorithm>

using namespace std;

int main()
{
    string s, t;
    cin >> s >> t;

    int slen = s.length();
    int tlen = t.length();

    vector<vector<int>> dp(slen + 1, vector<int>(tlen + 1, 0));

    int lcsi, lcsj; // 最長(zhǎng)公共子串的尾下標(biāo)
    int lcslen = 0; // 最長(zhǎng)公共子串長(zhǎng)度
    for (int i = 1; i <= slen; i++)
        for (int j = 1; j <= tlen; j++)
            if (s[i - 1] == t[j - 1])
            {
                dp[i][j] = dp[i - 1][j - 1] + 1;
                if (dp[i][j] > lcslen)
                {
                    lcslen = dp[i][j];
                    lcsi = i;
                    lcsj = j;
                }
            }
                
    string lcs;// 最長(zhǎng)公共子串
    lcs.resize(lcslen);

    for (int i = lcsi - 1, j = lcsj - 1, k = lcslen; 
        i >= 0 && j >= 0; )
    {
        if (s[i] == t[j])
        {
            lcs[--k] = s[i];
            i--; j--;
        }
        else
            break;
    }

    cout << "longest common substring length: " << lcslen << endl;
    cout << "longest common substring: " << lcs << endl;

    return 0;
}
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末省撑,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子俯在,更是在濱河造成了極大的恐慌竟秫,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,383評(píng)論 6 493
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件跷乐,死亡現(xiàn)場(chǎng)離奇詭異肥败,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)愕提,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,522評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén)馒稍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人浅侨,你說(shuō)我怎么就攤上這事纽谒。” “怎么了如输?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,852評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵鼓黔,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我不见,道長(zhǎng)澳化,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,621評(píng)論 1 284
  • 正文 為了忘掉前任稳吮,我火速辦了婚禮缎谷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘灶似。我一直安慰自己列林,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,741評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布酪惭。 她就那樣靜靜地躺著希痴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪撞蚕。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,929評(píng)論 1 290
  • 那天过牙,我揣著相機(jī)與錄音甥厦,去河邊找鬼。 笑死寇钉,一個(gè)胖子當(dāng)著我的面吹牛刀疙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播扫倡,決...
    沈念sama閱讀 39,076評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼谦秧,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼竟纳!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起疚鲤,我...
    開(kāi)封第一講書(shū)人閱讀 37,803評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤锥累,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后集歇,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體桶略,經(jīng)...
    沈念sama閱讀 44,265評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,582評(píng)論 2 327
  • 正文 我和宋清朗相戀三年诲宇,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了际歼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,716評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡姑蓝,死狀恐怖鹅心,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情纺荧,我是刑警寧澤旭愧,帶...
    沈念sama閱讀 34,395評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站虐秋,受9級(jí)特大地震影響榕茧,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜客给,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,039評(píng)論 3 316
  • 文/蒙蒙 一用押、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧靶剑,春花似錦蜻拨、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,798評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至坑匠,卻和暖如春血崭,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背厘灼。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,027評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工夹纫, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人设凹。 一個(gè)月前我還...
    沈念sama閱讀 46,488評(píng)論 2 361
  • 正文 我出身青樓舰讹,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親闪朱。 傳聞我的和親對(duì)象是個(gè)殘疾皇子月匣,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,612評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容