CTC上集(Connectionist Temporal Classification)

任務(wù)定義和概念解釋
CTC是一種損失函數(shù),解決的是未分段的序列數(shù)據(jù)的轉(zhuǎn)換任務(wù)的訓(xùn)練問題演怎。
序列數(shù)據(jù):比如說一段語音牺六;
標(biāo)注:語音的內(nèi)容是“我愛你”三個字
未分段:比如說采樣率是16000Hz,音頻的時間長度是1S畏纲,那么數(shù)據(jù)有16000幀春缕,未分段就是沒有告訴你哪些幀是哪個字。
轉(zhuǎn)換任務(wù):把A序列轉(zhuǎn)換成B序列票灰,比如把音頻文件轉(zhuǎn)換成字符串序列宅荤。

Temporal Classification
S——樣本集合,其中一個樣本就是一個(x惹盼,z)對組合
x——樣本中轉(zhuǎn)換前的原序列惫确,x是一個由m維向量組成的序列,其所屬的集合X叫做輸入空間(例如經(jīng)過MFCC后的音頻序列)
z——樣本中轉(zhuǎn)換后的序列掩蛤,z是一個其所屬的集合L叫做目標(biāo)空間陈肛,L是由有限的元素組成的序列的集合燥爷,并且z的長度一定小于x的長度(例如L可以是所有漢字的任意排序的集合懦窘,香農(nóng)采樣定理告訴我們一句話里能解析出來的字?jǐn)?shù)不可能比音頻幀數(shù)還多)
Temporal Classification就是訓(xùn)練一個從X到L的映射h(x,z)稚配,來滿足下面的標(biāo)準(zhǔn)

Label Error Rate(衡量Temporal Classification任務(wù)的標(biāo)準(zhǔn))
這個值越小,說明任務(wù)完成得越準(zhǔn)確午衰。

Label Error Rate

S`是S的一個子集臊岸,這里就是測試集
ED:編輯距離——用來衡量兩個序列之間的差異大小
the minimum number of insertions, substitutions and deletions required to change p into q.

From Network Outputs to Labellings
x序列(假設(shè)長度是T)首先通過RNN網(wǎng)絡(luò)+softmax(或者FC+softmax也可以尊流?)轉(zhuǎn)化成一個n維向量組成的序列(長度也是T),這里的n是目標(biāo)空間中有限元素的數(shù)量+1(其實就是字庫里有多少個字逻住,為啥加一往下看)迎献,n個數(shù)字代表在這個位置出現(xiàn)某個字的概率。
下面這個公式就是在輸入為x這個條件下輸出序列π的條件概率扒秸。

預(yù)測到某個序列的條件概率

π是某一個長度為T的序列比如“- - 我 我 - 愛”冀瓦,其中的“-”代表blank,這就是加一的原因渔伯。
上面的公式成立的條件是每一幀之間條件概率相互獨立肄程。
然后定義一個多對一的映射B选浑,把blank和相連的重復(fù)字符都去掉古徒,這個意思:
image.png

就得到了轉(zhuǎn)換成最終表達(dá)的條件概率公式,公式中的l是最終生成的字符序列代态。
image.png

至此我們的問題轉(zhuǎn)換成了尋找h(x),其生成的字符序列l(wèi)使得上面的條件概率p(l|x)取到最大值
image.png

到這里我們可以想一下,h(x)應(yīng)該由兩部分組成歉摧,第一部分是x到n維向量的轉(zhuǎn)換(RNN+softmax),第二部分是這個向量到最終序列l(wèi)的轉(zhuǎn)換再悼。文中沿用了隱馬爾可夫模型中的術(shù)語將第二部分稱作decoding膝但。并列出了兩種在實際中用到的decoding方法冲九。
第一種是best path decoding:非常簡單,就取每一個n維序列元素的最大值生成的序列跟束,然后經(jīng)過轉(zhuǎn)換B莺奸。簡單粗暴,但是并不能保證取到的序列使得上述條件概率最大泳炉。
第二種是Prefix search decoding:其實這個問題是有確定解的憾筏,條件概率最大的組合只有一個,這種方法其實就是去暴力搜索花鹅,但是隨著序列長度和維度的增加氧腰,求解這個問題的復(fù)雜度呈指數(shù)級上升(細(xì)思恐極),一種折中的方法就是限定prefix的數(shù)量刨肃,比如每一步只考慮前一步概率最大的那三個項目的子情況古拴,這里貼一個鏈接,圖畫得很美真友,比我講的強(qiáng)。

https://www.cnblogs.com/liaohuiqiang/p/9953978.html

有點累了盔然,后面就是一臉懵逼的前向后向桅打,還沒看明白,留個坑愈案,希望能填上挺尾,下班。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末站绪,一起剝皮案震驚了整個濱河市遭铺,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖魂挂,帶你破解...
    沈念sama閱讀 216,692評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件甫题,死亡現(xiàn)場離奇詭異,居然都是意外死亡涂召,警方通過查閱死者的電腦和手機(jī)坠非,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,482評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來芹扭,“玉大人麻顶,你說我怎么就攤上這事〔湛ǎ” “怎么了辅肾?”我有些...
    開封第一講書人閱讀 162,995評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長轮锥。 經(jīng)常有香客問我矫钓,道長,這世上最難降的妖魔是什么舍杜? 我笑而不...
    開封第一講書人閱讀 58,223評論 1 292
  • 正文 為了忘掉前任新娜,我火速辦了婚禮,結(jié)果婚禮上既绩,老公的妹妹穿的比我還像新娘概龄。我一直安慰自己,他們只是感情好饲握,可當(dāng)我...
    茶點故事閱讀 67,245評論 6 388
  • 文/花漫 我一把揭開白布私杜。 她就那樣靜靜地躺著,像睡著了一般救欧。 火紅的嫁衣襯著肌膚如雪衰粹。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,208評論 1 299
  • 那天笆怠,我揣著相機(jī)與錄音铝耻,去河邊找鬼。 笑死蹬刷,一個胖子當(dāng)著我的面吹牛瓢捉,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播办成,決...
    沈念sama閱讀 40,091評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼泊柬,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了诈火?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,929評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎冷守,沒想到半個月后刀崖,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,346評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡拍摇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,570評論 2 333
  • 正文 我和宋清朗相戀三年亮钦,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片充活。...
    茶點故事閱讀 39,739評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡蜂莉,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出混卵,到底是詐尸還是另有隱情映穗,我是刑警寧澤,帶...
    沈念sama閱讀 35,437評論 5 344
  • 正文 年R本政府宣布幕随,位于F島的核電站蚁滋,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏赘淮。R本人自食惡果不足惜辕录,卻給世界環(huán)境...
    茶點故事閱讀 41,037評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望梢卸。 院中可真熱鬧走诞,春花似錦、人聲如沸蛤高。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,677評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽襟齿。三九已至姻锁,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間猜欺,已是汗流浹背位隶。 一陣腳步聲響...
    開封第一講書人閱讀 32,833評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留开皿,地道東北人涧黄。 一個月前我還...
    沈念sama閱讀 47,760評論 2 369
  • 正文 我出身青樓,卻偏偏與公主長得像赋荆,于是被迫代替她去往敵國和親笋妥。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,647評論 2 354