機(jī)器學(xué)習(xí)-統(tǒng)計(jì)學(xué)習(xí)方法算法筆記

監(jiān)督學(xué)習(xí)

  1. 感知機(jī)--二類(lèi)分類(lèi)的線性分類(lèi)模型 輸出1和-1
    f(x)=sign(wx+b)
    學(xué)習(xí)策略:損失函數(shù)為誤分類(lèi)點(diǎn)到超平面的總距離
    L(w,b)=-∑y(wx+b)
    最優(yōu)化算法:隨機(jī)梯度下降法:首先選取一個(gè)超平面惊完,一次極小化一個(gè)誤分類(lèi)點(diǎn)
  2. k近鄰法(knn)--找到與輸入實(shí)例最近的k個(gè)實(shí)例它掂,這k個(gè)實(shí)例多數(shù)屬于某個(gè)類(lèi)庸追,就把該實(shí)例歸于這個(gè)類(lèi)
    當(dāng)k=1時(shí)為最近鄰算法
    通常采用交叉驗(yàn)證選取最優(yōu)k值
    分類(lèi)決策規(guī)則:多數(shù)表決
  3. 樸素貝葉斯:基于樸素貝葉斯定理和特征條件獨(dú)立假設(shè)的分類(lèi)法
    學(xué)習(xí)聯(lián)合概率分布P(X,Y)
    具體地阀趴,學(xué)習(xí)先驗(yàn)概率分布P(Y=c) 及后驗(yàn)概率分布 P(X=x|Y=c)=ПP(pán)(X=x|Y=c)
    參數(shù)估計(jì):
    極大似然估計(jì):先驗(yàn)估計(jì):P(Y=c)=∑I(y=c)/N
    貝葉斯估計(jì):先驗(yàn)估計(jì):P(Y=c)=(∑I(y=c)+λ)/(N+Kλ)
  4. 決策樹(shù):一種分類(lèi)與回歸算法。決策樹(shù)學(xué)習(xí)包括三個(gè)步驟:特征選擇,決策樹(shù)生成,修剪
    熵表示隨機(jī)變量不確定性的度量
    隨機(jī)變量X的熵定義為:H(X)=-∑plogp
    以2為底的對(duì)數(shù)熵稱(chēng)作比特 以e為底成為納特(nat)
    條件熵表示x條件下y的不確定性念搬,定義為y的條件概率熵對(duì)x的數(shù)學(xué)期望
    H(Y|X)=∑pH(Y|X=x)
    信息增益表示特征x使y的信息不確定性減少的程度
    g(D,A)=H(D)-H(D|A) A為特征 D為數(shù)據(jù)集
    熵H(Y)與條件熵H(Y|X)之差為互信息
    根據(jù)信息增益選擇特征的方法是,計(jì)算每個(gè)特征摆出,選擇信息增益最大的特征
    以信息增益為標(biāo)準(zhǔn)存在選擇取值較多的特征的問(wèn)題朗徊,信息增益比可以對(duì)這個(gè)問(wèn)題校正
    gr(D,A)=g(D,A)/H(A)(D)
    決策樹(shù)的生成:ID3算法應(yīng)用信息增益選擇特征 遞歸生成決策樹(shù) 由于這個(gè)算法只有樹(shù)的生成 容易產(chǎn)生過(guò)擬合
    C4.5算法使用信息增益比生成樹(shù)
    決策樹(shù)的剪枝:極小化整體損失函數(shù) L(T)=C(T)+a|T| T為葉節(jié)點(diǎn)個(gè)數(shù)
    CART算法:既可用于分類(lèi)以可以回歸 假設(shè)決策樹(shù)是二叉樹(shù) 特征取值為‘是’和‘否’,左分支為‘是’偎漫,右分支為‘否’
    生成:遞歸構(gòu)建二叉樹(shù)爷恳,對(duì)回歸樹(shù)用平方誤差最小化準(zhǔn)則 對(duì)分類(lèi)樹(shù)用基尼指數(shù)最小化準(zhǔn)則 進(jìn)行特征選擇
    回歸樹(shù)的生成:
    如何對(duì)輸入空間進(jìn)行劃分?采用啟發(fā)式的方法象踊,選擇第j個(gè)變量x(j)和它的值s作為切分變量和切分點(diǎn)
    分類(lèi)樹(shù)的生成:
    用基尼指數(shù)選擇最優(yōu)特征 同時(shí)決定該特征的最優(yōu)二值切分點(diǎn)
    Gini(p)=∑p(1-p)
  5. 邏輯回歸模型與最大熵模型
    二項(xiàng)邏輯回歸模型:P(Y=1|x)=exp(wx+b)/(1+exp(wx+b)) P(Y=0|x)=1/(1+exp(wx+b))
    模型參數(shù)估計(jì):交叉熵?fù)p失函數(shù)
  6. 支持向量機(jī)(svm) 是一種二分類(lèi)模型 特征空間上間隔最大的分類(lèi)器
    a. 線性可分支持向量機(jī):函數(shù)間隔 γ=y(wx+b) 為了使間隔確定 對(duì)w加入L2范數(shù)約束 函數(shù)間隔成為幾何間隔
    支持向量:樣本點(diǎn)中離分離超平面距離最近的點(diǎn) 即滿足:y(wx+b)-1=0
    只有支持向量起決定分離超平面的作用 其他實(shí)例不起作用
    線性不可分意味著函數(shù)間隔不能滿足大于等于1 所以對(duì)每個(gè)樣本點(diǎn)引入松弛變量ξ 約束條件變?yōu)閥(wx+b)>=1-ξ
    學(xué)習(xí)算法:凸二次優(yōu)化
    非線性支持向量機(jī):輸入空間中非線性分類(lèi)問(wèn)題通過(guò)非線性變換轉(zhuǎn)化為某個(gè)高維特征空間的線性分類(lèi)問(wèn)題
    K(x,z)=Φ(x)Φ(z)
  7. 提升方法:通過(guò)改變樣本權(quán)重温亲,學(xué)習(xí)多個(gè)分類(lèi)器,并將這些分類(lèi)器線性組合
    adaboost:線性模型杯矩,指數(shù)損失函數(shù)铸豁,前向分步算法
    提升樹(shù):以分類(lèi)樹(shù)或回歸樹(shù)為基本分類(lèi)器的提升方法
    提升樹(shù)模型可以表示為決策樹(shù)的加法模型:f(x)=∑T(x;Θ) T(x;Θ)表示決策樹(shù) Θ表示決策樹(shù)的參數(shù)
    提升樹(shù)算法:采用前向分步算法 首先確定f0(x)=0 第m步的模型是fm(x)=fm-1+T(x;Θ)
    通過(guò)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化確定下一顆決策樹(shù)的參數(shù)
    Θm=arg min∑L(yi,fm-1+T(xi;Θ))
  8. EM算法:一種迭代算法 用于含有隱變量的概率模型參數(shù)的極大似然估計(jì)或極大后驗(yàn)概率估計(jì)
    每次迭代分兩步:E步,求期望菊碟;M步,求極大在刺。所以也稱(chēng)為期望極大算法
    概率模型為:P(Y,Z|Θ) Y是觀測(cè)數(shù)據(jù) Z是隱變量數(shù)據(jù) Θ是模型參數(shù)
    算法通過(guò)迭代求解觀測(cè)數(shù)據(jù)的對(duì)數(shù)似然函數(shù)L(Θ)=logP(Y|Θ)的極大化逆害,實(shí)現(xiàn)極大似然估計(jì)
  9. 隱馬爾可夫模型 是關(guān)于時(shí)序的概率模型 描述由一個(gè)隱藏的馬爾可夫鏈隨機(jī)生成不可觀測(cè)的狀態(tài)序列 再由各個(gè)狀態(tài)生成觀測(cè)序列的過(guò)程
    λ=(A,B,π)
  10. 條件隨機(jī)場(chǎng)
    待完善
    無(wú)監(jiān)督學(xué)習(xí)--從無(wú)標(biāo)注數(shù)據(jù)中學(xué)習(xí)模型
    假設(shè)數(shù)據(jù)由N個(gè)樣本組成 每個(gè)樣本是一個(gè)M維向量 訓(xùn)練數(shù)據(jù)可以由一個(gè)矩陣表示 每一行對(duì)應(yīng)一個(gè)特征 每一列對(duì)應(yīng)一個(gè)樣本
    聚類(lèi)可以發(fā)掘數(shù)據(jù)中隱藏的縱向結(jié)構(gòu)
    降維可以幫助發(fā)掘數(shù)據(jù)中隱藏的橫向結(jié)構(gòu)
    概率估計(jì)假設(shè)數(shù)據(jù)由一個(gè)概率模型生成 由訓(xùn)練數(shù)據(jù)學(xué)習(xí)概率模型的結(jié)構(gòu)和參數(shù)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蚣驼,隨后出現(xiàn)的幾起案子魄幕,更是在濱河造成了極大的恐慌,老刑警劉巖颖杏,帶你破解...
    沈念sama閱讀 210,914評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件纯陨,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡留储,警方通過(guò)查閱死者的電腦和手機(jī)翼抠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評(píng)論 2 383
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)获讳,“玉大人阴颖,你說(shuō)我怎么就攤上這事∝はィ” “怎么了量愧?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,531評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵钾菊,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我偎肃,道長(zhǎng)煞烫,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,309評(píng)論 1 282
  • 正文 為了忘掉前任累颂,我火速辦了婚禮滞详,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘喘落。我一直安慰自己茵宪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,381評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布瘦棋。 她就那樣靜靜地躺著稀火,像睡著了一般。 火紅的嫁衣襯著肌膚如雪赌朋。 梳的紋絲不亂的頭發(fā)上凰狞,一...
    開(kāi)封第一講書(shū)人閱讀 49,730評(píng)論 1 289
  • 那天,我揣著相機(jī)與錄音沛慢,去河邊找鬼赡若。 笑死,一個(gè)胖子當(dāng)著我的面吹牛团甲,可吹牛的內(nèi)容都是我干的逾冬。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評(píng)論 3 404
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼躺苦,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼身腻!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起匹厘,我...
    開(kāi)封第一講書(shū)人閱讀 37,643評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤嘀趟,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后愈诚,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體她按,經(jīng)...
    沈念sama閱讀 44,095評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,448評(píng)論 2 325
  • 正文 我和宋清朗相戀三年炕柔,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了酌泰。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,566評(píng)論 1 339
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡汗唱,死狀恐怖宫莱,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情哩罪,我是刑警寧澤授霸,帶...
    沈念sama閱讀 34,253評(píng)論 4 328
  • 正文 年R本政府宣布巡验,位于F島的核電站,受9級(jí)特大地震影響碘耳,放射性物質(zhì)發(fā)生泄漏显设。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,829評(píng)論 3 312
  • 文/蒙蒙 一辛辨、第九天 我趴在偏房一處隱蔽的房頂上張望捕捂。 院中可真熱鬧,春花似錦斗搞、人聲如沸指攒。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,715評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)允悦。三九已至,卻和暖如春虑啤,著一層夾襖步出監(jiān)牢的瞬間隙弛,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,945評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工狞山, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留全闷,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,248評(píng)論 2 360
  • 正文 我出身青樓萍启,卻偏偏與公主長(zhǎng)得像总珠,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子勘纯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,440評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容