機(jī)器學(xué)習(xí)常用術(shù)語(yǔ)總結(jié)

模型評(píng)估常用名詞

錯(cuò)誤率:

分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例稱(chēng)為“錯(cuò)誤率”(error rate)甩恼,即如果在m個(gè)樣本中有a個(gè)樣本分類(lèi)錯(cuò)誤,則錯(cuò)誤率E=a/m翎冲;

精度:

1-a/m稱(chēng)為“精度”(accuracy)华畏,即“精度=1一錯(cuò)誤率”。

誤差:

學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異稱(chēng)為“誤差”(error)跨嘉,學(xué)習(xí)器在訓(xùn)練集上的誤差稱(chēng)為“訓(xùn)練誤差”(training error)或“經(jīng)驗(yàn)誤差”(empirical error)川慌,在新樣本上的誤差稱(chēng)為“泛化誤差”(generalization error)。我們希望得到泛化誤差小的學(xué)習(xí)器祠乃,實(shí)際能做的是努力使經(jīng)驗(yàn)誤差最小化梦重。

混淆矩陣:

|xx | +1 | -1 |
| +1 | TP(真正) | FN()|
| -1 | FP | TN|

正確率/查準(zhǔn)率:

(Precision),它等于 TP/(TP+FP) 亮瓷,給出的是預(yù)測(cè)為正例的樣本中的真正正例的比例琴拧。

召回率/查全率:

(Recall),他等于 TP/(TP+FN)嘱支,給出的是預(yù)測(cè)為正例的真實(shí)正例占所有真實(shí)正例的比例蚓胸。

ROC與AUC

ROC全稱(chēng)是“受試者工作特征”(Receiver Operating Characteristic)曲線(xiàn),其橫軸是“假正例率”(False Positive Rate除师,簡(jiǎn)稱(chēng)FPR)沛膳,縱軸是“真正例率”(True Positive Rate,簡(jiǎn)稱(chēng)TRP)汛聚,
TPR = TP/(TP+FN)
FPR = FP/(TN+FP)

ROC曲線(xiàn)給出的是當(dāng)閾值變化時(shí)假陽(yáng)率和真陽(yáng)率的變化情況锹安。左下角的點(diǎn)所對(duì)應(yīng)的是將所有樣例判為反例的情況,而右上角的點(diǎn)對(duì)應(yīng)的則是將所有樣例判為正例的情況倚舀。虛線(xiàn)給出的是隨機(jī)猜測(cè)的結(jié)果曲線(xiàn)叹哭。
對(duì)不同的ROC曲線(xiàn)進(jìn)行比較的一個(gè)指標(biāo)是曲線(xiàn)下的面積(Area Unser the Curve)。AUC給出的是分類(lèi)器的平均性能值痕貌,當(dāng)然它并不能完全代替對(duì)整條曲線(xiàn)的觀察风罩。一個(gè)完美分類(lèi)器的AUC為1.0,而隨機(jī)猜測(cè)的AUC則為0.5舵稠。

“過(guò)擬合”(overfitting)與“欠擬合”(underfitting):

學(xué)習(xí)器把訓(xùn)練樣本學(xué)得太好了的時(shí)候超升,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化能力下降柱查。這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱(chēng)為過(guò)擬合廓俭,相對(duì)地,欠擬合是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好唉工。

基礎(chǔ)術(shù)語(yǔ)

數(shù)據(jù)集與屬性

記錄的集合稱(chēng)為一個(gè)“數(shù)據(jù)集”(data set) 或者“示例”(instance)或者“樣本”(sample)
反映的對(duì)象的性質(zhì)的研乒。例如“色澤”,“根蒂”淋硝,“敲聲”稱(chēng)為“屬性”(attribute)或者“特征”(feature)

模型

若預(yù)測(cè)的是離散值雹熬,此學(xué)習(xí)任務(wù)稱(chēng)為“分類(lèi)”(classification)
若預(yù)測(cè)的是連續(xù)值宽菜,此學(xué)習(xí)任務(wù)稱(chēng)為“回歸”(regression)
“聚類(lèi)”(clustering),即將訓(xùn)練集中西瓜分成若干組竿报,每組稱(chēng)為一個(gè)“簇”(cluster)铅乡,這些自動(dòng)形成的簇可能對(duì)應(yīng)潛在的概念劃分,在聚類(lèi)學(xué)習(xí)中烈菌,都是事先不知道的阵幸,通常不擁有標(biāo)記信息。

學(xué)得模型后芽世,使用其進(jìn)行預(yù)測(cè)的過(guò)程稱(chēng)為“測(cè)試”(testing)挚赊, 被預(yù)測(cè)的樣本稱(chēng)為“預(yù)測(cè)樣本”(testing sample)。 Fx: 學(xué)得f 后济瓢,對(duì)X進(jìn)行測(cè)試荠割,可得到其預(yù)測(cè)標(biāo)記,即 y=f(X)

監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)

根據(jù)訓(xùn)練數(shù)據(jù)是否有標(biāo)記信息旺矾,學(xué)習(xí)任務(wù)可分為以下兩大類(lèi):“監(jiān)督學(xué)習(xí)”(supervised learning)和“無(wú)監(jiān)督學(xué)習(xí)”(unsupervised learning) 分類(lèi)和回歸是前者的代表蔑鹦,而聚類(lèi)則是后者的代表。機(jī)器學(xué)習(xí)使學(xué)得的模型適用于“新樣本”箕宙,學(xué)得的模型適用于新樣本的能力嚎朽,稱(chēng)為“泛化”(generalization)能力。
打一個(gè)最簡(jiǎn)單的比喻扒吁,我們的目的是為了能夠用機(jī)器來(lái)代替我們的經(jīng)驗(yàn)來(lái)判斷一個(gè)西瓜到底是不是好瓜火鼻!有兩種辦法室囊,第一種就是告訴機(jī)器現(xiàn)有的瓜雕崩,讓一個(gè)經(jīng)驗(yàn)豐富的瓜農(nóng)來(lái)幫你分好哪些是好瓜,哪些是壞瓜融撞,讓你根據(jù)特征來(lái)學(xué)習(xí)盼铁!這就是有人告訴你對(duì)錯(cuò)!就是受到教育尝偎! 第二種就是給你一堆瓜饶火,啥的都不告訴你,你跟進(jìn)你的觀察和思考致扯,自主將這些瓜分類(lèi)肤寝,這一堆瓜有都是本地的,這一堆瓜都是深綠色的抖僵,然后根據(jù)調(diào)整鲤看,自己找到好瓜的那一堆!

分布

通常假設(shè)樣本空間中全體樣本服從一個(gè)未知的“分布”(distribution)D耍群,我們獲得的每個(gè)樣本都是獨(dú)立地從這個(gè)分布上采樣獲得的义桂,即“獨(dú)立同分布”(independent and identically distributed).訓(xùn)練樣本越多找筝,得到關(guān)于D的信息越多,越可能通過(guò)學(xué)習(xí)獲得強(qiáng)泛化能力的模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末慷吊,一起剝皮案震驚了整個(gè)濱河市袖裕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌溉瓶,老刑警劉巖急鳄,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異堰酿,居然都是意外死亡攒岛,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)胞锰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)灾锯,“玉大人,你說(shuō)我怎么就攤上這事嗅榕∷骋” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵凌那,是天一觀的道長(zhǎng)兼雄。 經(jīng)常有香客問(wèn)我,道長(zhǎng)帽蝶,這世上最難降的妖魔是什么赦肋? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮励稳,結(jié)果婚禮上佃乘,老公的妹妹穿的比我還像新娘。我一直安慰自己驹尼,他們只是感情好趣避,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著新翎,像睡著了一般程帕。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上地啰,一...
    開(kāi)封第一講書(shū)人閱讀 51,737評(píng)論 1 305
  • 那天愁拭,我揣著相機(jī)與錄音,去河邊找鬼亏吝。 笑死岭埠,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播枫攀,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼括饶,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了来涨?” 一聲冷哼從身側(cè)響起图焰,我...
    開(kāi)封第一講書(shū)人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蹦掐,沒(méi)想到半個(gè)月后技羔,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡卧抗,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年藤滥,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片社裆。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡拙绊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出泳秀,到底是詐尸還是另有隱情标沪,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布嗜傅,位于F島的核電站金句,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏吕嘀。R本人自食惡果不足惜违寞,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望偶房。 院中可真熱鬧趁曼,春花似錦、人聲如沸蝴悉。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)拍冠。三九已至,卻和暖如春簇抵,著一層夾襖步出監(jiān)牢的瞬間庆杜,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工碟摆, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留晃财,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像断盛,于是被迫代替她去往敵國(guó)和親罗洗。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容