《數(shù)學(xué)之美》統(tǒng)計(jì)語言模型囚霸、分詞

語言模型

  • 基于規(guī)則的模型
  • 基于概率的模型

統(tǒng)計(jì)語言模型

  • 問題:整個(gè)句子的概率
    為了保證句子通順,不出現(xiàn)歧義激才,計(jì)算整個(gè)句子的概率
    P(S) = P(w1,w2,w3,w4,...)
    其中拓型,S代表整個(gè)句子,w1,w2,w3,w4代表句子中的每個(gè)詞贸营,P(w1,w2,w3,w4,...)表示這些詞按順序出現(xiàn)的概率

  • 轉(zhuǎn)化為:所有詞語的條件概率
    P(S) = P(w1,w2,w3,w4,...) = P(w1)P(w2|w1)P(w3|w1,w2)P(w4|w1,w2,w3)...

  • 問題簡化:馬爾可夫簡化
    由于上一步中的靠后詞語的條件概率太難計(jì)算吨述,因?yàn)樗c前面所有的詞語都有關(guān)系,問題無法求解钞脂。所以揣云,俄國科學(xué)家馬爾可夫提出了一個(gè)簡化計(jì)算方案(假設(shè)):任意一個(gè)詞語的條件概率只與它前面緊鄰的一個(gè)詞有關(guān)。則:
    P(S) ≈ P(w1)P(w2|w1)P(w3|w2)P(w4|w3)...
    由于冰啃,條件概率只用了一個(gè)參數(shù)邓夕,稱為二元模型刘莹。
    注意:這個(gè)公式是在假設(shè)條件下得出的,并不是完全準(zhǔn)確焚刚。但夠用就行啦
    -- 繼續(xù)求解:
    因?yàn)榈阃洌~語W(i)和W(i-1)是兩個(gè)獨(dú)立、互斥的事件矿咕,P(wi,wi-1)=P(wi)*P(wi-1)抢肛。
    則:P(wi|wi-1) = P(wi,wi-1)/P(wi-1)
    Ps: 我怎么習(xí)慣性地想起了貝葉斯公式。貝葉斯解決的是兩個(gè)彼此影響碳柱、不獨(dú)立的對象捡絮,這里是獨(dú)立的詞語啊。
    P(wi,wi-1):通過從語料庫中去統(tǒng)計(jì)wi,wi-1兩個(gè)詞同時(shí)出現(xiàn)的頻度莲镣。只要統(tǒng)計(jì)數(shù)量足夠福稳,由大數(shù)定律,這個(gè)頻度就約等于它的真實(shí)概率瑞侮;
    P(wi-1):繼續(xù)統(tǒng)計(jì)P(wi-1)在同一批文本中單獨(dú)出現(xiàn)的頻度的圆。同樣,由大數(shù)定律半火,這個(gè)頻度就約等于它的真實(shí)概率越妈。
    -- 問題解決,計(jì)算出整個(gè)句子出現(xiàn)的概率P(S)

  • 效果評估:
    馬爾可夫簡化方式還是過于簡單慈缔,實(shí)際上一個(gè)句子中的詞語通常并不僅僅與它前面緊鄰的一個(gè)詞有關(guān)叮称。因此种玛,還需要改進(jìn)藐鹤。

  • 假設(shè)改進(jìn):假設(shè)當(dāng)前詞語與其前面最近的N個(gè)詞語有關(guān)
    這種假設(shè)被稱為 N-1 階馬爾科夫假設(shè),對應(yīng)的語言模型被稱為 N元模型赂韵。
    癥結(jié):由于該方法的空間復(fù)雜度隨N呈指數(shù)增長娱节,決定了N不可能太大,否則計(jì)算機(jī)也無法計(jì)算祭示。
    現(xiàn)狀:目前使用的模型中肄满,通常 N=3,基本能夠平衡模型準(zhǔn)確度和資源占用质涛、計(jì)算效率問題稠歉。

  • 馬爾科夫假設(shè)方法的局限:
    由于實(shí)際中有時(shí)存在段落間的相關(guān)性。這種方法存在天生缺陷:無法解決長程依賴性問題汇陆。

  • 其他:
    后半部分還談及了實(shí)際使用過程中遇到的:極低概率事件平滑怒炸、零概率問題等。

談?wù)劮衷~

示例:中國航天官員應(yīng)邀到美國與太空總署的官員開會(huì)

  • 以前的方法:
    查字典:按照字典中的詞語分類標(biāo)識毡代;
    查字典優(yōu)化:用更少的詞語進(jìn)行分類阅羹。

  • 郭進(jìn):用統(tǒng)計(jì)語言模型進(jìn)行分詞
    第一種分詞:
    A1,A2,A3,A4,A5,A6....
    第二種分詞:
    B1,B2,B3,B4,B5,B6....
    第三種分詞:
    C1,C2,C3,C4,C5,C6....
    ……
    第n種分詞:
    N1,N2,N3,N4,N5,N6....
    因?yàn)榫渥庸潭ㄉ滋邸⒃~語有限,一個(gè)句子的分詞組合是有限的捏鱼。因此执庐,可以通過同樣的概率計(jì)算方法,找出概率最大的那個(gè)分詞方式就行了导梆。
    當(dāng)然轨淌,這種窮舉分詞組合的方法計(jì)算量還是比較大,有個(gè)更討巧的辦法:看成動(dòng)態(tài)規(guī)劃問題看尼,用維特比算法快速找到最佳分詞方法猿诸。

    --細(xì)節(jié)問題1:對詞語的定義不同
    示例:北京大學(xué) or 北京、大學(xué)
    解決辦法:在分詞的同時(shí)狡忙,找到復(fù)合詞的嵌套結(jié)構(gòu)梳虽。先找出“北京大學(xué)”,再找出它的嵌套詞“北京”灾茁、“大學(xué)”窜觉。

    --細(xì)節(jié)問題2:不同的應(yīng)用場景,對詞語的顆粒度要求不同
    解決辦法:根據(jù)自己的應(yīng)用需求北专,建立專門的分詞系統(tǒng)禀挫。

    --延伸:西方語言中是否有分詞問題
    答案:其實(shí)西方語言本身并沒有分詞的需求,只是在手寫識別輸入中需要用到拓颓,以自動(dòng)識別空格语婴。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市驶睦,隨后出現(xiàn)的幾起案子砰左,更是在濱河造成了極大的恐慌,老刑警劉巖场航,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缠导,死亡現(xiàn)場離奇詭異,居然都是意外死亡溉痢,警方通過查閱死者的電腦和手機(jī)僻造,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來孩饼,“玉大人髓削,你說我怎么就攤上這事《迫ⅲ” “怎么了立膛?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長汽畴。 經(jīng)常有香客問我旧巾,道長耸序,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任鲁猩,我火速辦了婚禮坎怪,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘廓握。我一直安慰自己搅窿,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布隙券。 她就那樣靜靜地躺著男应,像睡著了一般。 火紅的嫁衣襯著肌膚如雪娱仔。 梳的紋絲不亂的頭發(fā)上沐飘,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天,我揣著相機(jī)與錄音牲迫,去河邊找鬼耐朴。 笑死,一個(gè)胖子當(dāng)著我的面吹牛盹憎,可吹牛的內(nèi)容都是我干的筛峭。 我是一名探鬼主播,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼陪每,長吁一口氣:“原來是場噩夢啊……” “哼影晓!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起檩禾,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤挂签,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后锌订,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體竹握,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡画株,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年辆飘,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片谓传。...
    茶點(diǎn)故事閱讀 40,030評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蜈项,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出续挟,到底是詐尸還是另有隱情紧卒,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布诗祸,位于F島的核電站跑芳,受9級特大地震影響轴总,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜博个,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一怀樟、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧盆佣,春花似錦往堡、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至痹兜,卻和暖如春穆咐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背字旭。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工庸娱, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人谐算。 一個(gè)月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓熟尉,卻偏偏與公主長得像,于是被迫代替她去往敵國和親洲脂。 傳聞我的和親對象是個(gè)殘疾皇子斤儿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容