機器學(xué)習(xí)學(xué)習(xí)筆記(1)

1. 分詞方法

中文分詞方法可以分為以下幾種：
1） 基于統(tǒng)計的分詞方法

基于統(tǒng)計的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率來決定其是否構(gòu)成詞冷溶。詞是字的組合，相鄰的字同時出現(xiàn)的次數(shù)越多, 就越有可能構(gòu)成一個詞咱扣。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度硝烂。常用的方法有HMM（隱馬爾科夫模型）别威，MAXENT（最大熵模型），MEMM（最大熵隱馬爾科夫模型）凳枝，CRF（條件隨機場）抄沮。

2） 基于語法規(guī)則的分詞方法

基于語法規(guī)則的分詞法基本思想是: 在分詞的同時進行句法、語義分析, 利用句法信息和語義信息來進行詞性標注, 以解決分詞歧義現(xiàn)象。因為現(xiàn)有的語法知識合是、句法規(guī)則十分籠統(tǒng)了罪、復(fù)雜, 基于語法和規(guī)則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統(tǒng)應(yīng)用較少。

3） 基于詞典的分詞方法

在基于詞典的方法中聪全，可以進一步分為最大匹配法泊藕，最大概率法，最短路徑法等难礼。最大匹配法指的是按照一定順序選取字符串中的若干個字當(dāng)做一個詞娃圆，去詞典中查找。
根據(jù)掃描方式可細分為：正向最大匹配蛾茉，反向最大匹配讼呢，雙向最大匹配，最小切分谦炬。
最大概率法指的是一個待切分的漢字串可能包含多種分詞結(jié)果悦屏，將其中概率最大的那個作為該字串的分詞結(jié)果。
最短路徑法指的是在詞圖上選擇一條詞數(shù)最少的路徑键思。

2. 判別式模型和生成式模型

判別式模型 --- 已知輸入變量x础爬，判別模型(discriminative model)通過求解條件概率分布P(y|x)或者直接計算y的值來預(yù)測y。
常見的判別模型有線性回歸（Linear Regression）,邏輯回歸（Logistic Regression）,支持向量機（SVM）, 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)（Traditional Neural Networks）,線性判別分析（Linear Discriminative Analysis）吼鳞，條件隨機場（Conditional Random Field）看蚜；

生成式模型 --- 生成模型（generative model）通過對觀測值和標注數(shù)據(jù)計算聯(lián)合概率分布P(x,y)來達到判定估算y的目的。
常見的生成模型有樸素貝葉斯（Naive Bayes）, 隱馬爾科夫模型（HMM）,貝葉斯網(wǎng)絡(luò)（Bayesian Networks）和隱含狄利克雷分布（Latent Dirichlet Allocation）赔桌。

3. CRF的優(yōu)缺點比較

HMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率直接建模供炎，統(tǒng)計共現(xiàn)概率。而MEMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率疾党，統(tǒng)計時統(tǒng)計的是條件概率音诫。MEMM容易陷入局部最優(yōu)，是因為MEMM只在局部做歸一化雪位。
CRF是在給定需要標記的觀察序列的條件下纽竣，計算整個標記序列的聯(lián)合概率分布，而不是在給定當(dāng)前狀態(tài)條件下茧泪，定義下一個狀態(tài)的狀態(tài)分布。
CRF模型中聋袋，統(tǒng)計了全局概率队伟，在做歸一化時，考慮了數(shù)據(jù)在全局的分布幽勒，而不是僅僅在局部歸一化嗜侮，這樣就解決了MEMM中的標記偏置的問題。

總結(jié): CRF沒有HMM那樣嚴格的獨立性假設(shè)條件，因而可以容納任意的上下文信息锈颗，特征設(shè)計靈活顷霹。CRF需要訓(xùn)練的參數(shù)更多，與MEMM和HMM相比击吱，它存在訓(xùn)練代價大淋淀、復(fù)雜度高的缺點。

4. 模型過擬合的原因

機器學(xué)習(xí)中發(fā)生過擬合的主要原因有：
（1）使用過于復(fù)雜的模型覆醇；
（2）數(shù)據(jù)噪聲較大朵纷；
（3）訓(xùn)練數(shù)據(jù)少。

由此對應(yīng)的降低過擬合的方法有：
（1）簡化模型假設(shè)永脓，或者使用懲罰項限制模型復(fù)雜度袍辞；
（2）進行數(shù)據(jù)清洗，減少噪聲常摧；
（3）收集更多訓(xùn)練數(shù)據(jù)搅吁。

5.特征選擇的方法

常采用特征選擇方法。常見的 六種特征選擇方法：
1）DF(Document Frequency) 文檔頻率
DF:統(tǒng)計特征詞出現(xiàn)的文檔數(shù)量落午，用來衡量某個特征詞的重要性

2）MI(Mutual Information) 互信息法
互信息法用于衡量特征詞與文檔類別直接的信息量谎懦。
如果某個特征詞的頻率很低，那么互信息得分就會很大板甘，因此互信息法傾向"低頻"的特征詞党瓮。
相對的詞頻很高的詞，得分就會變低盐类，如果這詞攜帶了很高的信息量寞奸，互信息法就會變得低效。
3）(Information Gain) 信息增益法
通過某個特征詞的缺失與存在的兩種情況下在跳，語料中前后信息的增加枪萄，衡量某個特征詞的重要性。
4）CHI(Chi-square) 卡方檢驗法
利用了統(tǒng)計學(xué)中的"假設(shè)檢驗"的基本思想：首先假設(shè)特征詞與類別直接是不相關(guān)的.如果利用CHI分布計算出的檢驗值偏離閾值越大猫妙，那么更有信心否定原假設(shè)瓷翻，接受原假設(shè)的備則假設(shè)：特征詞與類別有著很高的關(guān)聯(lián)度。
5）WLLR(Weighted Log Likelihood Ration)加權(quán)對數(shù)似然
6）WFO（Weighted Frequency and Odds）加權(quán)頻率和可能性

6. 確定性算法

確定性算法表明在不同運行中割坠，算法輸出并不會改變齐帚。

7. HMM

1）前向、后向算法解決的是一個評估問題彼哼，即給定一個模型对妄，求某特定觀測序列的概率，用于評估該序列最匹配的模型敢朱。
2）Baum-Welch算法解決的是一個模型訓(xùn)練問題剪菱，即參數(shù)估計摩瞎，是一種無監(jiān)督的訓(xùn)練方法，主要通過EM迭代實現(xiàn)孝常；
3）維特比算法解決的是給定一個模型和某個特定的輸出序列旗们，求最可能產(chǎn)生這個輸出的狀態(tài)序列。如通過海藻變化（輸出序列）來觀測天氣（狀態(tài)序列）构灸，是預(yù)測問題上渴，通信中的解碼問題。
申明：該部分內(nèi)容為七月在線錯題總結(jié)內(nèi)容冻押，如有問題請聯(lián)系本人驰贷，謝謝！

最后編輯于：2018.11.07 16:06:17

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末洛巢，一起剝皮案震驚了整個濱河市括袒，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌稿茉，老刑警劉巖锹锰，帶你破解...
沈念sama閱讀 221,548評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異漓库，居然都是意外死亡恃慧，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門渺蒿，熙熙樓的掌柜王于貴愁眉苦臉地迎上來痢士，“玉大人，你說我怎么就攤上這事茂装〉□澹” “怎么了？”我有些...
開封第一講書人閱讀 167,990評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵少态，是天一觀的道長城侧。經(jīng)常有香客問我，道長彼妻，這世上最難降的妖魔是什么嫌佑？我笑而不...
開封第一講書人閱讀 59,618評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮侨歉，結(jié)果婚禮上屋摇，老公的妹妹穿的比我還像新娘。我一直安慰自己幽邓，他們只是感情好摊册，可當(dāng)我...
茶點故事閱讀 68,618評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著颊艳，像睡著了一般茅特。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上棋枕，一...
開封第一講書人閱讀 52,246評論 1贊 308
城市分裂傳說
那天白修，我揣著相機與錄音，去河邊找鬼重斑。笑死兵睛，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的窥浪。我是一名探鬼主播祖很，決...
沈念sama閱讀 40,819評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼漾脂！你這毒婦竟也來了假颇？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,725評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤骨稿，失蹤者是張志新（化名）和其女友劉穎笨鸡，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體坦冠，經(jīng)...
沈念sama閱讀 46,268評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡形耗，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,356評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了辙浑。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片激涤。...
茶點故事閱讀 40,488評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖判呕，靈堂內(nèi)的尸體忽然破棺而出倦踢，到底是詐尸還是另有隱情，我是刑警寧澤佛玄，帶...
沈念sama閱讀 36,181評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布硼一，位于F島的核電站，受9級特大地震影響梦抢，放射性物質(zhì)發(fā)生泄漏般贼。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,862評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一奥吩、第九天我趴在偏房一處隱蔽的房頂上張望哼蛆。院中可真熱鬧，春花似錦霞赫、人聲如沸腮介。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評論 0贊 24
一樁弒父案端衰，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽叠洗。三九已至甘改，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間灭抑，已是汗流浹背十艾。一陣腳步聲響...
開封第一講書人閱讀 33,445評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留腾节，地道東北人忘嫉。一個月前我還...
沈念sama閱讀 48,897評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像案腺，于是被迫代替她去往敵國和親庆冕。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,500評論 2贊 359