初識機(jī)器學(xué)習(xí)
從2018年一月中旬就開始計(jì)劃學(xué)習(xí)機(jī)器學(xué)習(xí)磷蛹,然而由于事情比較多瞳别,只是零零星星的在python for data science中學(xué)習(xí)了機(jī)器學(xué)習(xí)中的少部分內(nèi)容轩触∶ψ疲回家過春節(jié)的這段時間匠襟,也僅僅是在基友網(wǎng)上copy了吳恩達(dá)老師機(jī)器學(xué)習(xí)的教程,也無暇深入研習(xí)「迷埃現(xiàn)在已經(jīng)三月初宅此,在所里工作已經(jīng)有一周左右,慢熱的進(jìn)入狀態(tài)爬范,開始了機(jī)器學(xué)習(xí)的征程父腕。
針對于機(jī)器學(xué)習(xí),個人覺得首先是要知道其應(yīng)用方面青瀑,因此我選擇了幾篇SCI文章閱讀璧亮,在一篇sci中了解了Weka軟件,堪稱機(jī)器學(xué)習(xí)屆的大神斥难。
軟件下載地址:https://www.cs.waikato.ac.nz/ml/index.html枝嘶。可以根據(jù)系統(tǒng)中是否安裝JAVA選擇相應(yīng)的版本哑诊。
軟件界面如下:
image
軟件有中文版教程數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí) WEKA應(yīng)用技術(shù)與實(shí)踐群扶,需要的可以自行下載。
機(jī)器學(xué)習(xí)的方法非常多镀裤,對于基本的概念要爛熟于心竞阐,這里收集一些基本概念,以備自己后期查詢暑劝。
- J48這一方法源自C4.8骆莹,是決策樹中的一類,區(qū)別于D43基于信息熵進(jìn)行分類担猛,J48可以更好的進(jìn)行修枝幕垦,優(yōu)化分類。
- 信息熵概念的由來:一個事件或一個系統(tǒng)傅联,準(zhǔn)確的說是一個隨機(jī)變量先改,它有著一定的不確定性。例如蒸走,“除東道主俄羅斯外仇奶,哪31個國家能進(jìn)軍2018年俄羅斯世界杯決賽圈”,這個隨機(jī)變量的不確定性很高载碌,要消除這個不確定性猜嘱,就需要引入很多的信息衅枫,這些很多信息的度量就用“信息熵”表達(dá)。需要引入消除不確定性的信息量越多朗伶,則信息熵越高弦撩,反之則越低。
? 鏈接:http://blog.csdn.net/saltriver/article/details/53056816