機器學習實戰(zhàn)(一):機器學習基礎(chǔ)

何謂機器學習

機器學習就是把無序的數(shù)據(jù)轉(zhuǎn)換成有用的信息,對與任何需要操作數(shù)據(jù)的領(lǐng)域都有所裨益九秀。

機器學習的主要任務就是分類婚度,當我們決定使用某個機器學習算法進行分類皱卓,首先需要做的是算法訓練伟葫,即學習如何分類恨搓。通常我們?yōu)樗惴ㄝ斎氪罅恳逊诸悢?shù)據(jù)作為算法的訓練集。訓練集是用于訓練機器學習算法的數(shù)據(jù)樣本集合筏养,每個訓練樣本包含多個特征和一個目標變量斧抱。目標變量是機器學習算法的預測結(jié)果,在分類算法中目標變量的類型通常是標稱型的渐溶,而在回歸算法中通常是連續(xù)型的辉浦。訓練樣本必須知道目標變量的值,以便機器學習算法可以發(fā)現(xiàn)特征和目標變量之間的關(guān)系茎辐。我們通常將分類問題中的目標變量稱為類別宪郊,并假定分類問題只存在有限個數(shù)的類別。

為了測試機器學習算法的效果拖陆,通常使用兩套獨立的樣本集:訓練數(shù)據(jù)和測試數(shù)據(jù)废膘。當機器學習程序開始運行時,使用訓練樣本集作為算法的輸入慕蔚,訓練完成之后輸入測試樣本。輸入測試樣本時并不提供測試樣本的目標變量斋配,由程序決定樣本屬于哪個類別孔飒。比較測試樣本預測的目標變量值與實際樣本類別之間的差別,就可以得出算法的實際精度艰争。

機器學習的主要任務

除了分類問題(將實例數(shù)據(jù)劃分到合適的分類中)外坏瞄,機器學習的另一項任務就是回歸,它主要用于預測數(shù)值型數(shù)據(jù)甩卓,如數(shù)據(jù)擬合曲線鸠匀。分類和回歸都屬于監(jiān)督學習,因為這類算法必須知道預測什么逾柿,即目標變量的分類信息缀棍。

與監(jiān)督學習相對應的是無監(jiān)督學習此時數(shù)據(jù)沒有類別信息宅此,也不會給定目標值。在無監(jiān)督學習中爬范,將數(shù)據(jù)集合分成由類似對象組成的多個累的過程被稱為聚類父腕;將尋找描述數(shù)據(jù)統(tǒng)計值的過程稱為密度估計。此外青瀑,無監(jiān)督學習還可以減少數(shù)據(jù)特征的維度璧亮,以便使用二維或三圍圖形直觀地展示數(shù)據(jù)信息。

如何選擇合適的算法

選擇實際可用的算法必須考慮以下兩個問題:使用機器學習算法的目的斥难;需要分析或收集的數(shù)據(jù)是什么枝嘶。

考慮使用機器學習的目的。如果想要預測目標變量的值哑诊,則可以選擇監(jiān)督學習算法群扶。在根據(jù)目標變量的類型,離散型選擇分類器算法搭儒,連續(xù)數(shù)值型選擇回歸算法穷当。如果不想預測目標變量的值,則可以選擇無監(jiān)督算法淹禾,再根據(jù)是否需要將數(shù)據(jù)劃分為離散的組馁菜,確定使用聚類算法,如果還需估計數(shù)據(jù)與每個分組的相似程度則選擇使用密度估計算法铃岔。

這里我們主要聚焦在分類器算法

其次需要考慮數(shù)據(jù)問題汪疮。特征值是離散型變量還是連續(xù)型變量,特征值中是否存在缺失的值毁习,何種原因造成缺失智嚷,數(shù)據(jù)中是否存在異常值,某個特征發(fā)生的頻率如何纺且。充分了解這些數(shù)據(jù)特性有助于我們選擇機器學習算法盏道。

開發(fā)機器學習應用程序的步驟

  1. 收集數(shù)據(jù):如使用網(wǎng)絡(luò)爬蟲從網(wǎng)上抽取數(shù)據(jù),設(shè)備發(fā)送來的實測數(shù)據(jù)等
  2. 準備輸入數(shù)據(jù):確保數(shù)據(jù)格式符合要求载碌,方便匹配操作
  3. 分析輸入數(shù)據(jù):人工分析得到的數(shù)據(jù)是否存在空值猜嘱、異常值,是否可以識別出模式
  4. 訓練算法:將訓練數(shù)據(jù)集輸入到算法中嫁艇,抽取知識或信息
  5. 測試算法:評估算法的效果朗伶,如識別準確率、用時等
  6. 使用算法:將算法轉(zhuǎn)換為應用程序步咪,執(zhí)行實際任務论皆。

Python語言的優(yōu)勢

為什么選擇Python作為實現(xiàn)機器學習算法的編程語言?

  1. Python的語法清晰
  2. 易于操作純文本文件
  3. 使用廣發(fā),存在大量的開發(fā)文檔

缺點:性能問題点晴,運行效率不高感凤。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末爸舒,一起剝皮案震驚了整個濱河市壮韭,隨后出現(xiàn)的幾起案子哆档,更是在濱河造成了極大的恐慌芍瑞,老刑警劉巖锭魔,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件刃唤,死亡現(xiàn)場離奇詭異更舞,居然都是意外死亡贞滨,警方通過查閱死者的電腦和手機仇矾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門庸蔼,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人贮匕,你說我怎么就攤上這事姐仅。” “怎么了刻盐?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵掏膏,是天一觀的道長。 經(jīng)常有香客問我敦锌,道長馒疹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任乙墙,我火速辦了婚禮颖变,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘听想。我一直安慰自己腥刹,他們只是感情好,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布汉买。 她就那樣靜靜地躺著衔峰,像睡著了一般。 火紅的嫁衣襯著肌膚如雪蛙粘。 梳的紋絲不亂的頭發(fā)上朽色,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天,我揣著相機與錄音组题,去河邊找鬼。 笑死抱冷,一個胖子當著我的面吹牛崔列,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼赵讯,長吁一口氣:“原來是場噩夢啊……” “哼盈咳!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起边翼,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤鱼响,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后组底,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體丈积,經(jīng)...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年债鸡,在試婚紗的時候發(fā)現(xiàn)自己被綠了江滨。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡厌均,死狀恐怖唬滑,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情棺弊,我是刑警寧澤晶密,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站模她,受9級特大地震影響稻艰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜缝驳,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一连锯、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧用狱,春花似錦运怖、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至溺忧,卻和暖如春咏连,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背鲁森。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工祟滴, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人歌溉。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓垄懂,卻偏偏與公主長得像骑晶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子草慧,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內(nèi)容