學(xué)習(xí)筆記CB006:依存句法、LTP鸵钝、n元語法模型糙臼、N-最短路徑分詞法、由字構(gòu)詞分詞法恩商、圖論变逃、概率論

依存句法分析,法國語言學(xué)家L.Tesniere1959年提出怠堪。句法揽乱,句子規(guī)則,句子成分組織規(guī)則粟矿。依存句法凰棉,成分間依賴關(guān)系。依賴陌粹,沒有A撒犀,B存在錯(cuò)誤。語義申屹,句子含義绘证。

依存句法強(qiáng)調(diào)介詞、助詞劃分作用哗讥,語義依存注重實(shí)詞間邏輯關(guān)系。依存句法隨字面詞語變化不同胞枕,語義依存不同字面詞語可同一意思杆煞,句法結(jié)構(gòu)不同句子語義關(guān)系可相同。依存句法分析和語義分析結(jié)合,計(jì)算機(jī)理解句子含義决乎,匹配到最合適回答队询,通過置信度匹配實(shí)現(xiàn)聊天回答。

依存句法分析构诚,確定句式句法結(jié)構(gòu)(短語結(jié)構(gòu))或句子詞匯依存關(guān)系蚌斩。依存句法分析樹,子節(jié)點(diǎn)依存于父節(jié)點(diǎn)范嘱。依存投射樹送膳,實(shí)線表示依存聯(lián)結(jié)關(guān)系,位置低成分依存位置高成分丑蛤,虛線為投射線叠聋。依存關(guān)系五公理:1. 句子只有一個(gè)獨(dú)立成分。2. 其他成分直接依存某一成分受裹。3. 任何成分都不能依存兩個(gè)或兩個(gè)以上成分碌补。4. 如果A成分直接依存B成分,C成分在句子成分A和B之間棉饶,C或者直接依存B厦章,或者直接依存A和B間某一成分。5. 中心成分左右兩面其他成分相互不發(fā)生關(guān)系照藻。

LTP依存關(guān)系標(biāo)記袜啃。主謂關(guān)系 SBV subject-verb,動(dòng)賓關(guān)系 VOB 直接賓語岩梳,verb-object囊骤,間賓關(guān)系 IOB 間接賓語,indirect-object冀值,前置賓語 FOB 前置賓語也物,fronting-object,兼語 DBL double列疗,定中關(guān)系 ATT attribute滑蚯,狀中結(jié)構(gòu) ADV adverbial,動(dòng)補(bǔ)結(jié)構(gòu) CMP complement抵栈,并列關(guān)系 COO coordinate告材,介賓關(guān)系 POB preposition-object,左附加關(guān)系 LAD left adjunct古劲,右附加關(guān)系 RAD right adjunct斥赋,獨(dú)立結(jié)構(gòu) IS independent structure,核心關(guān)系 HED head 产艾。

依存關(guān)系計(jì)算疤剑,機(jī)器學(xué)習(xí)和人工標(biāo)注滑绒,機(jī)器學(xué)習(xí)依賴人工標(biāo)注,分詞詞性隘膘、依存樹庫疑故、語義角色,機(jī)器學(xué)習(xí)分析新句子依存句法弯菊。

LTP云平臺(tái)纵势。注冊用戶,每月免費(fèi)20G流量管钳。http://www.ltp-cloud.com/ 注冊賬號钦铁,登陸http://www.ltp-cloud.com/dashboard/ ,查看api_key蹋嵌、流量使用育瓜,文檔http://www.ltp-cloud.com/document 。curl -i "http://api.ltp-cloud.com/analysis/?api_key=ApiKey&text=我是中國人栽烂。&pattern=dp&format=plain" 躏仇。分詞(pattern=ws),詞性標(biāo)注(pattern=pos)腺办,命名實(shí)體識別(pattern=ner)焰手,語義依存分析(pattern=sdp),語義角色標(biāo)注(pattern=srl)怀喉。

自然語言书妻、數(shù)學(xué)聯(lián)系是語言模型。數(shù)學(xué)模型躬拢,用數(shù)理邏輯方法和數(shù)學(xué)語言建構(gòu)科學(xué)或工程模型躲履。用數(shù)學(xué)方式解釋事實(shí)。數(shù)學(xué)建模聊闯,計(jì)算結(jié)果解釋實(shí)際問題工猜,接受實(shí)際檢驗(yàn),建立數(shù)學(xué)模型全過程菱蔬。語言模型篷帅,根據(jù)語言客觀事實(shí)進(jìn)行語言抽象數(shù)學(xué)建模。用數(shù)學(xué)模型解釋自然語言事實(shí)拴泌。

業(yè)界認(rèn)可有效語言模型魏身,n元語法模型(n-gram model),馬爾可夫模型蚪腐,話中下一詞出現(xiàn)和最近n個(gè)詞有關(guān)箭昵。n=1,最新詞只和自己有關(guān)回季,獨(dú)立宙枷,和前面詞沒關(guān)系掉房,一元文法茧跋。n=2慰丛,最新詞和它前面詞有關(guān),二元文法瘾杭,一階馬爾科夫鏈诅病。工程上n=3最多,n越大約束信息越多粥烁,n越小可靠性更高贤笆。自然語言處理研究兩大方向:基于規(guī)則、基于統(tǒng)計(jì)讨阻。n元語法模型基于統(tǒng)計(jì)芥永。最大似然,和歷史最相似钝吮,用歷史出現(xiàn)頻率估計(jì)概率埋涧。

千變?nèi)f化自然語言導(dǎo)致0概率問題。有限語料庫難以窮舉語言現(xiàn)象奇瘦,n元語法模型會(huì)出現(xiàn)某一句話出現(xiàn)概率為0棘催。數(shù)據(jù)平滑技術(shù),通過數(shù)學(xué)方式讓每一句話概率都大于0耳标。特定領(lǐng)域特寫詞概率偏大問題醇坝。緩存剛剛出現(xiàn)過詞匯提高后面出現(xiàn)概率。單一語言模型弊端次坡。不同語料庫差異呼猪,導(dǎo)致單一語言模型不準(zhǔn)確,多種語言模型混合計(jì)算砸琅∷尉啵或多種語言模型分別計(jì)算,最后選擇熵最大明棍。神經(jīng)網(wǎng)絡(luò)語言模型乡革,特殊模型平滑方式,通過深度學(xué)習(xí)得到更正確概率摊腋。

語言模型應(yīng)用沸版,中文分詞、機(jī)器翻譯兴蒸、拼寫糾錯(cuò)视粮、語音識別、音子轉(zhuǎn)換橙凳、自動(dòng)文摘蕾殴、問答系統(tǒng)笑撞、OCR。

上個(gè)世紀(jì)钓觉,中文自動(dòng)分詞每句話都要到漢語詞表中查找茴肥,正向最大匹配法、逆向最大匹配法荡灾、雙向掃描法瓤狐、助詞遍歷法。中文自動(dòng)分詞最難兩個(gè)問題:1)歧義消除批幌;2)未登陸詞識別础锐。

N-最短路徑分詞法,一元語法模型荧缘,每個(gè)詞一元皆警,獨(dú)立存在杠袱,出現(xiàn)概率基于大量語料統(tǒng)計(jì)得出昂利,一句話基于詞表各種切詞結(jié)果都列出,字字組合有很多種茶宵,有多個(gè)候選結(jié)果桐愉,每個(gè)詞出現(xiàn)概率相乘财破,得到最終結(jié)果〈踊澹基于n元語法模型分詞法左痢,在N-最短路徑分詞法基礎(chǔ)上把一元模型擴(kuò)展成n元模型,統(tǒng)計(jì)概率不是一個(gè)詞概率系洛,是基于前面n個(gè)詞的條件概率俊性。

由字構(gòu)詞分詞方法。字在詞中有構(gòu)詞位置描扯,詞首定页、詞中、詞尾绽诚、單獨(dú)構(gòu)詞典徊。根據(jù)字不同構(gòu)詞位置,設(shè)計(jì)特征恩够,前一個(gè)詞卒落、前兩個(gè)詞、前面詞長度蜂桶、前面詞詞首儡毕、前面詞詞尾、前面詞詞尾加上當(dāng)前字組成詞扑媚⊙澹基于大量語料庫雷恃,利用平均感知機(jī)分類器對特征打分,訓(xùn)練權(quán)重系數(shù)费坊,得出模型用來分詞倒槐,句子右邊多出一個(gè)字,用模型計(jì)算這些特征的加權(quán)得分葵萎,得分最高的是正確分詞方法导犹。

n元語法模型方法,詞表里已有詞分詞羡忘。字構(gòu)詞方法,未登陸詞的識別磕昼。

jieba中文分詞卷雕,基于前綴詞典詞圖掃描,生成句子中漢字所有可能成詞情況有向無環(huán)圖 (DAG)票从,動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻最大切分組合漫雕,對于未登錄詞,采用基于漢字成詞能力HMM模型峰鄙,使用Viterbi 算法浸间。結(jié)合詞表和由字構(gòu)詞分詞。

ik分詞器吟榴,基于詞表最短路徑切詞魁蒜。

ltp云平臺(tái)分詞,基于機(jī)器學(xué)習(xí)框架并部分結(jié)合詞表方法吩翻。

其他分詞工具判斷方法類似兜看,網(wǎng)上對各種分詞工具好壞的判斷多數(shù)是功能上比較,個(gè)人建議通過原理來判斷狭瞎,如果結(jié)合了基于詞表和由字構(gòu)詞并且充分利用統(tǒng)計(jì)學(xué)習(xí)的方法细移,這樣的分詞工具才是最好的

圖論。圖熊锭,把孤立點(diǎn)用線連起來弧轧,任何點(diǎn)之間都有可能連著。區(qū)別于樹碗殷,樹有父子關(guān)系精绎,圖沒有。圖表達(dá)事物之間關(guān)聯(lián)關(guān)系亿扁,轉(zhuǎn)化關(guān)系捺典。表達(dá)關(guān)聯(lián)程度,表達(dá)轉(zhuǎn)化可能性大小从祝。

概率論襟己,投硬幣出正面概率是1/2引谜,條件概率P(B|A),聯(lián)合概率P(A,B)擎浴,貝葉斯公式 P(B|A)=P(A|B)P(B)/P(A)员咽。

貝葉斯(Bayes),基于條件概率P(B|A)贮预。馬爾可夫(Markov)贝室,鏈?zhǔn)浇Y(jié)構(gòu)或過程,前n個(gè)值決定當(dāng)前這個(gè)值仿吞,當(dāng)前這個(gè)值跟前n個(gè)值有關(guān)滑频。熵(entropy),熱力學(xué)術(shù)語唤冈,表示物質(zhì)系統(tǒng)混亂狀態(tài)峡迷。延伸數(shù)學(xué),表達(dá)不確定性你虹。延伸信息論绘搞,計(jì)算機(jī)網(wǎng)絡(luò)信息傳輸基礎(chǔ)理論,不確定性函數(shù) f(p)=-logp傅物,信息熵 H(p)=-∑plogp夯辖。信息論鼻祖香農(nóng)(Shannon)。場(field)董饰,域蒿褂,取值空間。隨機(jī)場尖阔,隨機(jī)變量賦值全體空間贮缅。

概率圖模型,用圖說明介却,用概率計(jì)算谴供。有向圖模型和無向圖模型,圖里面的邊是否有方向齿坷。有方向表達(dá)推演關(guān)系桂肌,A前提下出現(xiàn)B,生成式模型永淌。沒有方向表達(dá)“這樣就對了”關(guān)系崎场,A和B同時(shí)存在就對了,判別式模型遂蛀。生成式模型用聯(lián)合概率計(jì)算谭跨,判別式模型一用條件概率計(jì)算。生成式模型,n元語法模型螃宙、隱馬爾可夫模型蛮瞄、樸素貝葉斯模型。判別式模型谆扎,最大熵模型挂捅、支持向量機(jī)、條件隨機(jī)場堂湖、感知機(jī)模型闲先。

貝葉斯網(wǎng)絡(luò),條件概率无蜂,生成式模型伺糠,有向圖模型。如果x1為False情況下x6為True的概率酱讶,P(x6=T|x1=F)=P(x6=T,x1=F)/P(x1=F)退盯。繼續(xù)推導(dǎo),最終由每個(gè)節(jié)點(diǎn)概率數(shù)據(jù)計(jì)算求得泻肯。貝葉斯網(wǎng)絡(luò)模型通過樣本學(xué)習(xí)估計(jì)每個(gè)節(jié)點(diǎn)概率,達(dá)到預(yù)測各種問題結(jié)果慰照。貝葉斯網(wǎng)絡(luò)在已知有限的灶挟、不完整的、不確定信息條件下學(xué)習(xí)推理毒租,廣泛應(yīng)用在故障診斷稚铣、維修決策、漢語自動(dòng)分詞墅垮、詞義消歧等問題惕医。

馬爾可夫模型和隱馬爾可夫模型。一個(gè)值跟前面n個(gè)值有關(guān)算色,條件概率抬伺,生成式模型,有向圖模型灾梦。馬爾可夫模型峡钓,關(guān)于時(shí)間t的狀態(tài)轉(zhuǎn)換過程,隨機(jī)有限狀態(tài)機(jī)若河,狀態(tài)序列概率通過計(jì)算形成該序列所有狀態(tài)之間轉(zhuǎn)移弧上概率乘積得出能岩。訓(xùn)練樣本得出每一個(gè)概率值,通過訓(xùn)練模型根據(jù)前兩個(gè)預(yù)測下一個(gè)概率萧福。隱馬爾可夫模型拉鹃,其中某一階的信息未知,缺少信息較多,模型算法比較復(fù)雜膏燕。隱馬爾可夫模型廣泛應(yīng)用在詞性標(biāo)注钥屈、中文分詞。最初不知道怎么分詞煌寇,前面詞分出來焕蹄,才知后面邊界在哪里,后面分詞后還要驗(yàn)證前面分詞是否正確阀溶,前后有依賴關(guān)系腻脏,不確定中間狀態(tài)情況最適合用隱馬爾可夫模型來解釋。

最大熵模型银锻,H(p)=-∑plogp永品。某信息條件B下,得出某種可能結(jié)果A最大概率击纬,條件概率P(A|B)最大候選結(jié)果鼎姐。最大熵不確定性最大,條件概率最大更振,求最大條件概率等同求最大熵炕桨,熵 H(p)=H(A|B)=-∑p(b)p(a|b)log(p(a|b))。使用訓(xùn)練數(shù)據(jù)估計(jì)肯腕,p(a|b)通過訓(xùn)練數(shù)據(jù)特征估計(jì)献宫,比如特征fi(a,b),模型訓(xùn)練∑λf(a,b)中λ參數(shù)過程实撒。機(jī)器學(xué)習(xí)線性回歸了姊途。所以最大熵模型,利用熵原理和熵公式知态,描述具有概率規(guī)律現(xiàn)實(shí)捷兰。

條件隨機(jī)場,場表示取值范圍负敏,隨機(jī)場表示隨機(jī)變量取值范圍贡茅,每個(gè)隨機(jī)變量固定取值,條件指隨機(jī)變量取值由一定條件概率決定原在,條件來自觀察值友扰。條件隨機(jī)場,無向圖模型庶柿,它給定觀察序列X時(shí)某個(gè)特定標(biāo)記序列Y概率是指數(shù)函數(shù)exp(∑λt+∑μs)村怪,t是轉(zhuǎn)移函數(shù),s是狀態(tài)函數(shù)浮庐。需要訓(xùn)練λ和μ甚负。條件隨機(jī)場應(yīng)用在標(biāo)注和切分有序數(shù)據(jù)柬焕,自然語言處理、生物信息學(xué)梭域、機(jī)器視覺斑举、網(wǎng)絡(luò)智能。

參考資料:

《Python 自然語言處理》

http://www.shareditor.com/blogshow?blogId=77

http://www.shareditor.com/blogshow?blogId=78

http://www.shareditor.com/blogshow?blogId=80

http://www.shareditor.com/blogshow?blogId=81

歡迎推薦上海機(jī)器學(xué)習(xí)工作機(jī)會(huì)病涨,我的微信:qingxingfengzi

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末富玷,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子既穆,更是在濱河造成了極大的恐慌赎懦,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,542評論 6 504
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幻工,死亡現(xiàn)場離奇詭異励两,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)囊颅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,822評論 3 394
  • 文/潘曉璐 我一進(jìn)店門当悔,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人踢代,你說我怎么就攤上這事盲憎。” “怎么了胳挎?”我有些...
    開封第一講書人閱讀 163,912評論 0 354
  • 文/不壞的土叔 我叫張陵焙畔,是天一觀的道長。 經(jīng)常有香客問我串远,道長,這世上最難降的妖魔是什么儿惫? 我笑而不...
    開封第一講書人閱讀 58,449評論 1 293
  • 正文 為了忘掉前任澡罚,我火速辦了婚禮,結(jié)果婚禮上肾请,老公的妹妹穿的比我還像新娘。我一直安慰自己铛铁,他們只是感情好隔显,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,500評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著饵逐,像睡著了一般括眠。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上倍权,一...
    開封第一講書人閱讀 51,370評論 1 302
  • 那天掷豺,我揣著相機(jī)與錄音,去河邊找鬼。 笑死当船,一個(gè)胖子當(dāng)著我的面吹牛题画,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播德频,決...
    沈念sama閱讀 40,193評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼苍息,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了壹置?” 一聲冷哼從身側(cè)響起竞思,我...
    開封第一講書人閱讀 39,074評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蒸绩,沒想到半個(gè)月后衙四,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,505評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡患亿,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,722評論 3 335
  • 正文 我和宋清朗相戀三年传蹈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片步藕。...
    茶點(diǎn)故事閱讀 39,841評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡惦界,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出咙冗,到底是詐尸還是另有隱情沾歪,我是刑警寧澤,帶...
    沈念sama閱讀 35,569評論 5 345
  • 正文 年R本政府宣布雾消,位于F島的核電站灾搏,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏立润。R本人自食惡果不足惜狂窑,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,168評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望桑腮。 院中可真熱鬧泉哈,春花似錦、人聲如沸破讨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,783評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽提陶。三九已至烫沙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間搁骑,已是汗流浹背斧吐。 一陣腳步聲響...
    開封第一講書人閱讀 32,918評論 1 269
  • 我被黑心中介騙來泰國打工又固, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人煤率。 一個(gè)月前我還...
    沈念sama閱讀 47,962評論 2 370
  • 正文 我出身青樓仰冠,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蝶糯。 傳聞我的和親對象是個(gè)殘疾皇子洋只,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,781評論 2 354

推薦閱讀更多精彩內(nèi)容