【一文讀懂】機(jī)器學(xué)習(xí)

? ? ? 看到很多人都有寫博客的習(xí)慣呀袱,現(xiàn)在開始實(shí)習(xí)了,也把之前寫過的東西整理整理巷折,發(fā)在這里压鉴,有興趣的同學(xué)可以一起交流交流崖咨。文筆稚嫩锻拘,希望大家寬容以待!

? ? ? 機(jī)器學(xué)習(xí)是人工智能(AI击蹲,artificial intelligence)發(fā)展到一定階段的必然產(chǎn)物署拟。二十世紀(jì)五十年代到七十年代,人工智能為推理期歌豺,70年代中期之后推穷,進(jìn)入到知識期,在五十年代中后期类咧,基于神經(jīng)網(wǎng)絡(luò)的“連接主義”(connection)學(xué)習(xí)開始出現(xiàn)馒铃,六七十年代,基于邏輯表示的“符號主義”(symbolism)學(xué)習(xí)技術(shù)蓬勃發(fā)展痕惋。到八十年代区宇,美國舉行了第一屆機(jī)器學(xué)習(xí)研討會,從此進(jìn)入百花綻放時(shí)期值戳。

? ? ? 現(xiàn)如今正處于一個(gè)數(shù)據(jù)橫流的年代议谷,互聯(lián)網(wǎng)和人們的生活中無時(shí)無刻不在產(chǎn)生著數(shù)據(jù),而分布式的節(jié)點(diǎn)所構(gòu)成的云計(jì)算網(wǎng)絡(luò)使得數(shù)據(jù)在節(jié)點(diǎn)處得以進(jìn)行一定的處理和計(jì)算堕虹,但是最終還是會有數(shù)據(jù)上傳至應(yīng)用層(application)卧晓,人們很難直接從原始數(shù)據(jù)本身獲得所需信息芬首,機(jī)器學(xué)習(xí)可以把無序的數(shù)據(jù)轉(zhuǎn)換成有用的信息。從而為相關(guān)事業(yè)的發(fā)展提供數(shù)據(jù)分析支撐逼裆。

? ? ? ? 機(jī)器學(xué)習(xí)郁稍,“機(jī)器”就是計(jì)算機(jī),“學(xué)習(xí)”就是對數(shù)據(jù)的訓(xùn)練胜宇,對模型參數(shù)的估計(jì)艺晴。事實(shí)上機(jī)器學(xué)習(xí)就是基于大量的輸入、輸出數(shù)據(jù)掸屡,通過訓(xùn)練算法讓計(jì)算機(jī)習(xí)得一個(gè)判斷規(guī)則封寞。這也就是我們所說的“樣例學(xué)習(xí)”或歸納學(xué)習(xí)。所用到的知識涉及數(shù)學(xué)中的線性代數(shù)(linear algebra)仅财、統(tǒng)計(jì)理論(statistics theory)以及計(jì)算機(jī)科學(xué)中的尋優(yōu)算法(optimizationalgorithm)等等狈究。目前的機(jī)器學(xué)習(xí)的目的往往都是進(jìn)行分類或是回歸預(yù)測,分類任務(wù)從最簡單的二分類到多分類任務(wù)盏求,分類器(classifier)由簡單的單一分類器到集成學(xué)習(xí)中的多分類器的結(jié)合與集成抖锥。學(xué)習(xí)任務(wù)又分為監(jiān)督學(xué)習(xí)(supervised learning)與無監(jiān)督學(xué)習(xí)(unsupervised learning),監(jiān)督學(xué)習(xí)即知道樣本的標(biāo)記碎罚,而無監(jiān)督學(xué)習(xí)則是標(biāo)記未知磅废,機(jī)器學(xué)習(xí)的目標(biāo)是通過對這些無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為數(shù)據(jù)分析提供基礎(chǔ)荆烈。比如有一組西瓜的性質(zhì):色澤=青綠拯勉,根蒂=蜷縮,敲聲=沉悶憔购,如已知其為好瓜則為有監(jiān)督學(xué)習(xí)宫峦,如未知其好壞則為無監(jiān)督學(xué)習(xí)。

? ? ? ? 機(jī)器學(xué)習(xí)中有很多算法玫鸟,這些算法便稱之為“模型”导绷。我們需要根據(jù)數(shù)據(jù)的不同特點(diǎn)選擇合適的模型。有監(jiān)督學(xué)習(xí)有線性回歸屎飘、決策樹妥曲、神經(jīng)網(wǎng)絡(luò)、SVM等大多數(shù)分類學(xué)習(xí)算法钦购,而無監(jiān)督學(xué)習(xí)以聚類分析(clustering analysis)為代表檐盟。對數(shù)據(jù)為離散值的預(yù)測稱之為分類(classification),對連續(xù)值的預(yù)測稱之為回歸(regression)肮雨。在訓(xùn)練模型時(shí)遵堵,會將已有的數(shù)據(jù)(又稱樣例,example)劃分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練陌宿,測試集用于對模型的泛化性能進(jìn)行評估锡足。輸入和輸出數(shù)據(jù)往往都是一組向量(vector)。這將有利于計(jì)算機(jī)進(jìn)行計(jì)算壳坪。分類任務(wù)的目標(biāo)就是誤差最小舶得,其包括經(jīng)驗(yàn)誤差(或經(jīng)驗(yàn)誤差empirical error,即預(yù)測值在訓(xùn)練集上的誤差)和泛化誤差(generalization error,近似為預(yù)測值在測試集上的誤差)最小化爽蝴。我們所需要的是該模型在新的樣本中也能夠表現(xiàn)出良好的性能沐批,也就是泛化誤差足夠小。而在實(shí)際訓(xùn)練過程中往往會出現(xiàn)欠擬合(underfitting)和過擬合(overfitting)的現(xiàn)象蝎亚,欠擬合就是擬合不到位九孩,不能準(zhǔn)確地描述輸入數(shù)據(jù)的特征,而過擬合是已經(jīng)把訓(xùn)練數(shù)據(jù)中的特殊性學(xué)習(xí)進(jìn)去了发框,以至于不具有普遍性躺彬,難以獲得較好的泛化性能。所以我們需要多次調(diào)整模型中所涉及的參數(shù)梅惯,甚至根據(jù)情況改良模型宪拥。

式1

? ? ? 以線性模型為例來簡單介紹機(jī)器學(xué)習(xí)的相關(guān)知識,線性模型基于回歸任務(wù)铣减,包含基本線性回歸她君、對數(shù)幾率回歸、線性判別分析葫哗、類別不平衡等問題缔刹。回歸方程為? 式1

利用最小二乘法(Least squares)對參數(shù)進(jìn)行求解魄梯,此處往往借助計(jì)算機(jī)軟件(如matlab,python等)桨螺。在二分類任務(wù)中單位階躍函數(shù)具有不連續(xù)不可微的特性宾符,稍作改良為連續(xù)函數(shù)


式2

酿秸,這樣我們可以將大于0.5的值歸類為1,小于0.5的值歸類為0魏烫。這是0-1階躍函數(shù)的替代函數(shù)辣苏,此處y為事件發(fā)生的幾率,而對數(shù)幾率函數(shù)則為:

式2
圖1梯度下降法示意圖

? ? ? ? 一般而言哄褒,可用用線性回歸模型的預(yù)測結(jié)果去逼近真實(shí)標(biāo)記的對數(shù)幾率稀蟋。而對數(shù)幾率回歸具有無需假設(shè)數(shù)據(jù)分布直接建模、任意階可導(dǎo)凸函數(shù)的優(yōu)良數(shù)學(xué)性質(zhì)呐赡、可得到近似的概率預(yù)測退客,有益于分析概率輔助決策的任務(wù)等優(yōu)點(diǎn)。除最小二乘法外,還可使用梯度下降法(gradient descent)用來遞歸性地逼近最小偏差模型萌狂。梯度下

降法是用負(fù)梯度方向?yàn)樗阉鞣较虻牡挡#荻认陆捣ㄔ浇咏繕?biāo)值,步長越小茫藏,前進(jìn)越慢误趴。優(yōu)化過程是之字形的向極小值點(diǎn)靠近,速度非常緩慢务傲。線性判別分析(Linear Discriminant Analysis凉当,LDA)是指給定訓(xùn)練樣例集,設(shè)法將樣例投影到一條直線上售葡,使得同類樣例的投影點(diǎn)盡可能接近看杭、異類樣例投影點(diǎn)盡可能遠(yuǎn)離,再對新樣本進(jìn)行分類時(shí)挟伙,將其投影到同類的這條直線上泊窘,再根據(jù)投影點(diǎn)的位置確定樣本類別。是一種新穎的分類方法像寒。對于類別不平衡問題烘豹,則可采用再縮放(rescaling)的方法,即丟棄一些樣例使得正反樣例數(shù)目趨于一致诺祸。

? ? ? 除此之外携悯,還有支持向量機(jī)(SVM)算法:其通過核函數(shù)(kernel function)將原有的樣例映射到高維平面,再利用超平面對其進(jìn)行劃分筷笨。神經(jīng)網(wǎng)絡(luò)算法:(neural networks)憔鬼,將每個(gè)輸入值的權(quán)重(connection weight)設(shè)定為學(xué)習(xí)算法中的參數(shù),模擬人腦的神經(jīng)網(wǎng)絡(luò)系統(tǒng)胃夏,通過數(shù)據(jù)的訓(xùn)練確定每個(gè)神經(jīng)元的輸入數(shù)據(jù)的權(quán)重轴或。多個(gè)神經(jīng)元構(gòu)成一層神經(jīng)元,多層便構(gòu)成神經(jīng)網(wǎng)絡(luò)仰禀。目前最常用的是基于梯度下降(gradient descent)策略的BP神經(jīng)網(wǎng)絡(luò)算法照雁,即累積誤差逆?zhèn)鞑ィ╝ccumulated error backpropagation)以目標(biāo)的負(fù)梯度方向?qū)?shù)進(jìn)行調(diào)整,學(xué)習(xí)率控制著每一輪迭代更新的步長答恶,其通過計(jì)算輸出層的誤差饺蚊,再將誤差逆向傳播至隱層神經(jīng)元,最后根據(jù)隱層神經(jīng)元的誤差來對連接權(quán)和閾值進(jìn)行調(diào)整悬嗓,直到達(dá)到停止條件為止污呼。

? ? ? 現(xiàn)在,機(jī)器學(xué)習(xí)已經(jīng)被廣泛應(yīng)用于諸多學(xué)科領(lǐng)域包竹,如生物信息學(xué)——已知大量癌癥病人與正常人的血樣燕酷,對其中的某幾種蛋白質(zhì)成分進(jìn)行分析籍凝,通過機(jī)器學(xué)習(xí)的分類算法,可以習(xí)得一個(gè)癌癥判斷模型苗缩,從而對于任意一個(gè)癌癥疑似病例静浴,對其從數(shù)據(jù)科學(xué)的角度分析患有癌癥的概率。其他領(lǐng)域還有:交通領(lǐng)域中自動(dòng)汽車駕駛挤渐、人流量預(yù)測苹享、大氣科學(xué)天氣預(yù)報(bào)、環(huán)境監(jiān)測浴麻,地理研究與開發(fā)中的能源勘測得问,對衛(wèi)星和傳感器發(fā)揮的數(shù)據(jù)進(jìn)行分析并作出準(zhǔn)確預(yù)測,商業(yè)營銷中為商家優(yōu)化庫存降低成本软免,設(shè)計(jì)營銷策略等宫纬。機(jī)器學(xué)習(xí)在大數(shù)據(jù)不斷發(fā)展的時(shí)代展現(xiàn)自己獨(dú)有的價(jià)值。


最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末膏萧,一起剝皮案震驚了整個(gè)濱河市漓骚,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌榛泛,老刑警劉巖蝌蹂,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異曹锨,居然都是意外死亡孤个,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進(jìn)店門沛简,熙熙樓的掌柜王于貴愁眉苦臉地迎上來齐鲤,“玉大人,你說我怎么就攤上這事椒楣「迹” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵捧灰,是天一觀的道長淆九。 經(jīng)常有香客問我,道長凤壁,這世上最難降的妖魔是什么吩屹? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮拧抖,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘免绿。我一直安慰自己唧席,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著淌哟,像睡著了一般迹卢。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上徒仓,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天腐碱,我揣著相機(jī)與錄音,去河邊找鬼掉弛。 笑死症见,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的殃饿。 我是一名探鬼主播谋作,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼乎芳!你這毒婦竟也來了遵蚜?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤奈惑,失蹤者是張志新(化名)和其女友劉穎吭净,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肴甸,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡攒钳,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雷滋。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片不撑。...
    茶點(diǎn)故事閱讀 40,096評論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖晤斩,靈堂內(nèi)的尸體忽然破棺而出焕檬,到底是詐尸還是另有隱情,我是刑警寧澤澳泵,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布实愚,位于F島的核電站,受9級特大地震影響兔辅,放射性物質(zhì)發(fā)生泄漏腊敲。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一维苔、第九天 我趴在偏房一處隱蔽的房頂上張望碰辅。 院中可真熱鬧,春花似錦介时、人聲如沸没宾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽循衰。三九已至铲敛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間会钝,已是汗流浹背伐蒋。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留迁酸,地道東北人先鱼。 一個(gè)月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像胁出,于是被迫代替她去往敵國和親型型。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評論 2 355

推薦閱讀更多精彩內(nèi)容