機器學(xué)習(xí)學(xué)習(xí)筆記(1)

1. 分詞方法

中文分詞方法可以分為以下幾種:
1) 基于統(tǒng)計的分詞方法

基于統(tǒng)計的分詞法的基本原理是根據(jù)字符串在語料庫中出現(xiàn)的統(tǒng)計頻率來決定其是否構(gòu)成詞冷溶。詞是字的組合,相鄰的字同時出現(xiàn)的次數(shù)越多, 就越有可能構(gòu)成一個詞咱扣。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度硝烂。常用的方法有HMM(隱馬爾科夫模型)别威,MAXENT(最大熵模型),MEMM(最大熵隱馬爾科夫模型)凳枝,CRF(條件隨機場)抄沮。

2) 基于語法規(guī)則的分詞方法

基于語法規(guī)則的分詞法基本思想是: 在分詞的同時進行句法、語義分析, 利用句法信息和語義信息來進行詞性標注, 以解決分詞歧義現(xiàn)象。因為現(xiàn)有的語法知識合是、句法規(guī)則十分籠統(tǒng)了罪、復(fù)雜, 基于語法和規(guī)則的分詞法所能達到的精確度遠遠還不能令人滿意, 目前這種分詞系統(tǒng)應(yīng)用較少。

3) 基于詞典的分詞方法

在基于詞典的方法中聪全,可以進一步分為最大匹配法泊藕,最大概率法最短路徑法等难礼。最大匹配法指的是按照一定順序選取字符串中的若干個字當(dāng)做一個詞娃圆,去詞典中查找。
根據(jù)掃描方式可細分為:正向最大匹配蛾茉,反向最大匹配讼呢,雙向最大匹配最小切分谦炬。
最大概率法指的是一個待切分的漢字串可能包含多種分詞結(jié)果悦屏,將其中概率最大的那個作為該字串的分詞結(jié)果。
最短路徑法指的是在詞圖上選擇一條詞數(shù)最少的路徑键思。


2. 判別式模型和生成式模型

判別式模型 --- 已知輸入變量x础爬,判別模型(discriminative model)通過求解條件概率分布P(y|x)或者直接計算y的值來預(yù)測y。
常見的判別模型有線性回歸(Linear Regression),邏輯回歸(Logistic Regression),支持向量機(SVM), 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(Traditional Neural Networks),線性判別分析(Linear Discriminative Analysis)吼鳞,條件隨機場(Conditional Random Field)看蚜;

生成式模型 --- 生成模型(generative model)通過對觀測值和標注數(shù)據(jù)計算聯(lián)合概率分布P(x,y)來達到判定估算y的目的。
常見的生成模型有樸素貝葉斯(Naive Bayes), 隱馬爾科夫模型(HMM),貝葉斯網(wǎng)絡(luò)(Bayesian Networks)和隱含狄利克雷分布(Latent Dirichlet Allocation)赔桌。


3. CRF的優(yōu)缺點比較

HMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率直接建模供炎,統(tǒng)計共現(xiàn)概率。而MEMM模型是對轉(zhuǎn)移概率和表現(xiàn)概率建立聯(lián)合概率疾党,統(tǒng)計時統(tǒng)計的是條件概率音诫。MEMM容易陷入局部最優(yōu),是因為MEMM只在局部做歸一化雪位。
CRF是在給定需要標記的觀察序列的條件下纽竣,計算整個標記序列的聯(lián)合概率分布,而不是在給定當(dāng)前狀態(tài)條件下茧泪,定義下一個狀態(tài)的狀態(tài)分布。
CRF模型中聋袋,統(tǒng)計了全局概率队伟,在做歸一化時,考慮了數(shù)據(jù)在全局的分布幽勒,而不是僅僅在局部歸一化嗜侮,這樣就解決了MEMM中的標記偏置的問題。

總結(jié): CRF沒有HMM那樣嚴格的獨立性假設(shè)條件,因而可以容納任意的上下文信息锈颗,特征設(shè)計靈活顷霹。CRF需要訓(xùn)練的參數(shù)更多,與MEMM和HMM相比击吱,它存在訓(xùn)練代價大淋淀、復(fù)雜度高的缺點。


4. 模型過擬合的原因

機器學(xué)習(xí)中發(fā)生過擬合的主要原因有:
(1)使用過于復(fù)雜的模型覆醇;
(2)數(shù)據(jù)噪聲較大朵纷;
(3)訓(xùn)練數(shù)據(jù)少。

由此對應(yīng)的降低過擬合的方法有:
(1)簡化模型假設(shè)永脓,或者使用懲罰項限制模型復(fù)雜度袍辞;
(2)進行數(shù)據(jù)清洗,減少噪聲常摧;
(3)收集更多訓(xùn)練數(shù)據(jù)搅吁。

5.特征選擇的方法

常采用特征選擇方法。常見的 六種特征選擇方法:
1)DF(Document Frequency) 文檔頻率
DF:統(tǒng)計特征詞出現(xiàn)的文檔數(shù)量落午,用來衡量某個特征詞的重要性

2)MI(Mutual Information) 互信息法
互信息法用于衡量特征詞與文檔類別直接的信息量谎懦。
如果某個特征詞的頻率很低,那么互信息得分就會很大板甘,因此互信息法傾向"低頻"的特征詞党瓮。
相對的詞頻很高的詞,得分就會變低盐类,如果這詞攜帶了很高的信息量寞奸,互信息法就會變得低效。
3)(Information Gain) 信息增益法
通過某個特征詞的缺失與存在的兩種情況下在跳,語料中前后信息的增加枪萄,衡量某個特征詞的重要性。
4)CHI(Chi-square) 卡方檢驗法
利用了統(tǒng)計學(xué)中的"假設(shè)檢驗"的基本思想:首先假設(shè)特征詞與類別直接是不相關(guān)的.如果利用CHI分布計算出的檢驗值偏離閾值越大猫妙,那么更有信心否定原假設(shè)瓷翻,接受原假設(shè)的備則假設(shè):特征詞與類別有著很高的關(guān)聯(lián)度。
5)WLLR(Weighted Log Likelihood Ration)加權(quán)對數(shù)似然
6)WFO(Weighted Frequency and Odds)加權(quán)頻率和可能性

6. 確定性算法

確定性算法表明在不同運行中割坠,算法輸出并不會改變齐帚。

7. HMM

1)前向、后向算法解決的是一個評估問題彼哼,即給定一個模型对妄,求某特定觀測序列的概率,用于評估該序列最匹配的模型敢朱。
2)Baum-Welch算法解決的是一個模型訓(xùn)練問題剪菱,即參數(shù)估計摩瞎,是一種無監(jiān)督的訓(xùn)練方法,主要通過EM迭代實現(xiàn)孝常;
3)維特比算法解決的是給定一個模型和某個特定的輸出序列旗们,求最可能產(chǎn)生這個輸出的狀態(tài)序列。如通過海藻變化(輸出序列)來觀測天氣(狀態(tài)序列)构灸,是預(yù)測問題上渴,通信中的解碼問題
申明:該部分內(nèi)容為七月在線錯題總結(jié)內(nèi)容冻押,如有問題請聯(lián)系本人驰贷,謝謝!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末洛巢,一起剝皮案震驚了整個濱河市括袒,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌稿茉,老刑警劉巖锹锰,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異漓库,居然都是意外死亡恃慧,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進店門渺蒿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來痢士,“玉大人,你說我怎么就攤上這事茂装〉□澹” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵少态,是天一觀的道長城侧。 經(jīng)常有香客問我,道長彼妻,這世上最難降的妖魔是什么嫌佑? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮侨歉,結(jié)果婚禮上屋摇,老公的妹妹穿的比我還像新娘。我一直安慰自己幽邓,他們只是感情好摊册,可當(dāng)我...
    茶點故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著颊艳,像睡著了一般茅特。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上棋枕,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天白修,我揣著相機與錄音,去河邊找鬼重斑。 笑死兵睛,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的窥浪。 我是一名探鬼主播祖很,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼漾脂!你這毒婦竟也來了假颇?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤骨稿,失蹤者是張志新(化名)和其女友劉穎笨鸡,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體坦冠,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡形耗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了辙浑。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片激涤。...
    茶點故事閱讀 40,488評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖判呕,靈堂內(nèi)的尸體忽然破棺而出倦踢,到底是詐尸還是另有隱情,我是刑警寧澤佛玄,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布硼一,位于F島的核電站,受9級特大地震影響梦抢,放射性物質(zhì)發(fā)生泄漏般贼。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一奥吩、第九天 我趴在偏房一處隱蔽的房頂上張望哼蛆。 院中可真熱鬧,春花似錦霞赫、人聲如沸腮介。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽叠洗。三九已至甘改,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間灭抑,已是汗流浹背十艾。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留腾节,地道東北人忘嫉。 一個月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像案腺,于是被迫代替她去往敵國和親庆冕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容