【數(shù)說】如何向普通人解釋機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘

隨著數(shù)據(jù)科學(xué)在人工智能發(fā)展中大放異彩脚线,數(shù)據(jù)挖掘搁胆、機(jī)器學(xué)習(xí)進(jìn)入了越來越多人的視野。而對(duì)于很多人來說殉挽,諸如機(jī)器學(xué)習(xí)之類的名次聽起來是神乎其技丰涉,但其真正的內(nèi)涵卻不為一般人所知。


作者 | DataCastle數(shù)據(jù)城堡

編輯 | 數(shù)小妹


特別是對(duì)于從事數(shù)據(jù)科學(xué)領(lǐng)域的人來說斯碌,如何向外行人解釋自己所從事的工作幾乎是一個(gè)超級(jí)難題。那么到底什么是機(jī)器學(xué)習(xí)肛度,如何用通俗易懂的語言來解釋傻唾?我們通過以下幾重境界來解釋。


一承耿、專業(yè)理論型


百科定義+專業(yè)術(shù)語冠骄,讓人聽起來不明覺厲,實(shí)則一臉懵逼加袋。


機(jī)器學(xué)習(xí)(Machine Learning, ML)是一門多領(lǐng)域交叉學(xué)科凛辣,涉及概率論、統(tǒng)計(jì)學(xué)职烧、逼近論扁誓、凸分析、算法復(fù)雜度理論等多門學(xué)科蚀之。專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為蝗敢,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的性能足删。


它是人工智能的核心寿谴,是使計(jì)算機(jī)具有智能的根本途徑,其應(yīng)用遍及人工智能的各個(gè)領(lǐng)域失受,它主要使用歸納讶泰、綜合而不是演繹咏瑟。


機(jī)器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:數(shù)據(jù)挖掘痪署、計(jì)算機(jī)視覺码泞、自然語言處理、生物特征識(shí)別惠桃、搜索引擎浦夷、醫(yī)學(xué)診斷、檢測(cè)信用卡欺詐辜王、證券市場(chǎng)分析劈狐、DNA序列測(cè)序、語音和手寫識(shí)別呐馆、戰(zhàn)略游戲和機(jī)器人運(yùn)用肥缔。


機(jī)器學(xué)習(xí)從本質(zhì)上來說是一種學(xué)習(xí)結(jié)構(gòu), 整個(gè)結(jié)構(gòu)包括環(huán)境汹来、知識(shí)庫和執(zhí)行三個(gè)部分续膳。 在整個(gè)過程中,環(huán)境向系統(tǒng)提供信息收班,系統(tǒng)利用這些信息修改知識(shí)庫坟岔,以增進(jìn)系統(tǒng)執(zhí)行部分完成任務(wù)的效能,執(zhí)行部分根據(jù)知識(shí)庫完成任務(wù)摔桦,同時(shí)把獲得的信息反饋給學(xué)習(xí)部分社付,從而繼續(xù)改進(jìn)知識(shí)庫。


在具體的應(yīng)用中邻耕,環(huán)境鸥咖、知識(shí)和執(zhí)行部分決定了具體的工作內(nèi)容,學(xué)習(xí)部分所需要解決的問題完全由上述三部分確定兄世。 簡(jiǎn)單來說啼辣,機(jī)器學(xué)習(xí)就是計(jì)算機(jī)利用已有的數(shù)據(jù),得出了某種模型御滩,并利用此模型預(yù)測(cè)未來的一種方法鸥拧, 這與人腦的思考方式非常類似。


二艾恼、以小見大型


以某種機(jī)器學(xué)習(xí)具體的案例來說明住涉,讓人恍然大悟。


一開始我們先來看一個(gè)人為設(shè)計(jì)的場(chǎng)景钠绍。假設(shè)一個(gè)房間里神奇地漂浮著無數(shù)個(gè)小球舆声。我們想搞清楚這些小球停留的位置是否存在著一種特定的結(jié)構(gòu)。比方說,小球是不是更易集中在某一特定區(qū)域媳握?是不是故意避開某些點(diǎn)位碱屁?它們是均勻分布于整個(gè)空間嗎?


但是房間一片漆黑蛾找,我們什么也看不見娩脾。于是我們找來了一部帶閃光燈的照相機(jī),想把漂浮在整個(gè)房間的小球都拍下來打毛。照片猶如下圖一樣:

就算小球的位置之間確實(shí)存在某種聯(lián)系柿赊,從這張照片上我們也看不出個(gè)所以然』猛鳎看上去小球就像是均勻分布的一樣碰声。所以我們嘗試著換了下位置,從新的角度拍下了第二張照片熬甫。

照片上的小球看起來還是隨機(jī)分布的胰挑,沒有任何規(guī)律。讓我們換個(gè)高點(diǎn)的角度試試看椿肩。

呃瞻颂,還是看不出有什么規(guī)律來。那我們最后再換個(gè)低點(diǎn)的角度試一次郑象。

啊哈贡这,這次有點(diǎn)意思了:看起來小球集中分布在靠近屋頂和地面的兩個(gè)區(qū)域,中間這段沒有一個(gè)小球厂榛。因此藕坯,為了發(fā)現(xiàn)這個(gè)規(guī)律,我們?cè)谂恼諘r(shí)就必須找到一個(gè)“好”的角度噪沙。如果角度不對(duì),那我們永遠(yuǎn)都不可能找出任何規(guī)律吐根。


在上面這個(gè)例子中正歼,我們想說的其實(shí)是三維數(shù)據(jù)點(diǎn)。每個(gè)小球的位置都可以由3個(gè)數(shù)字來表示拷橘,每個(gè)數(shù)字分別代表它在XYZ三條軸上的位置局义。在實(shí)際的電腦運(yùn)算中,數(shù)據(jù)點(diǎn)的位置會(huì)由更多的數(shù)字組合來表示冗疮。


比如醫(yī)院病人的病歷可能會(huì)包含500組數(shù)字萄唇,包括他的生日年月日、身高术幔、體重另萤、血壓、最近一次的看病記錄、膽固醇指標(biāo)等等四敞。我們會(huì)想要搞清楚不同病人的數(shù)據(jù)點(diǎn)之間是否存在某種規(guī)律泛源,如心臟病人的數(shù)據(jù)點(diǎn)是否會(huì)集中分布?如果數(shù)據(jù)點(diǎn)確實(shí)會(huì)集中分布忿危,當(dāng)我們發(fā)現(xiàn)新入院病人的數(shù)據(jù)點(diǎn)也出現(xiàn)同樣的趨勢(shì)時(shí)达箍,我們就可以推斷這位病人很可能犯心臟病。當(dāng)然铺厨,實(shí)際操作起來肯定不會(huì)如此簡(jiǎn)單缎玫。


一個(gè)人是不可能用肉眼看到這些數(shù)據(jù)點(diǎn)的。人怎么可能分得清500個(gè)維度呢解滓?就像在上面那個(gè)例子中赃磨,沒有人能看得清“黑屋”中小球,我們也同樣看不見500個(gè)維度中的那些數(shù)據(jù)點(diǎn)伐蒂。我們可以用二維圖片來展示位于三維空間中的數(shù)據(jù)點(diǎn)煞躬,用同樣的方法,我們也可以更低維度的“照片”來表現(xiàn)擁有500個(gè)維度的數(shù)據(jù)點(diǎn)逸邦。


只有從合適的“角度”拍下“照片”恩沛,我們才可以從中找出不同數(shù)據(jù)點(diǎn)之間的規(guī)律,不然將很難有所發(fā)現(xiàn)缕减。這就是人們所說的如何從“大數(shù)據(jù)”中“發(fā)現(xiàn)見解”雷客。


三、曉之以情桥狡,動(dòng)之以理


這樣來說搅裙,你家寵物應(yīng)該都可以聽明白了。


買點(diǎn)芒果去


假設(shè)有一天你準(zhǔn)備去買點(diǎn)芒果裹芝。有個(gè)小販擺放了一車部逮。你可以一個(gè)一個(gè)挑,然后小販根據(jù)你挑的芒果的斤兩來算錢(在印度的典型情況)嫂易。顯然兄朋,你想挑最甜最熟的芒果對(duì)吧(因?yàn)樾∝準(zhǔn)前疵⒐闹亓縼硭沐X,而不是按芒果的品質(zhì)來算錢的)怜械÷停可是你準(zhǔn)備怎么挑呢?


你記得奶奶和你說過缕允, 嫩黃的芒果比暗黃的甜峡扩。 所以你有了一個(gè)簡(jiǎn)單的判斷標(biāo)準(zhǔn):只挑嫩黃的芒果。你檢查各個(gè)芒果的顏色障本, 挑了些嫩黃的教届,買單,走人,爽不巍佑?


可事實(shí)沒那么簡(jiǎn)單茴迁。


生活是很復(fù)雜的


你回到家,開始慢慢品嘗你的芒果萤衰。你發(fā)現(xiàn)有一些芒果沒有想的那么甜堕义。你焦慮了。顯然脆栋,奶奶的智慧不夠啊倦卖。挑芒果可不是看看顏色那么簡(jiǎn)答的。


經(jīng)過深思熟慮(并且嘗了各種不同類型的芒果)椿争, 你發(fā)現(xiàn)那些大個(gè)兒的怕膛,嫩黃的芒果絕對(duì)是甜的,而小個(gè)兒秦踪,嫩黃的芒果褐捻,只有一半的時(shí)候是甜的(比如你買了100個(gè)嫩黃的芒果,50個(gè)比較大椅邓,50個(gè)比較小柠逞, 那么你會(huì)發(fā)現(xiàn)50個(gè)大個(gè)兒的芒果是甜的,而50個(gè)小個(gè)兒的芒果景馁,平均只有25個(gè)是甜的)板壮。


你對(duì)自己的發(fā)現(xiàn)非常開心,下次去買芒果的時(shí)候你就將這些規(guī)則牢牢的記在心里合住。但是下次再來到市集的時(shí)候绰精,你發(fā)現(xiàn)你最喜歡的那家芒果攤搬出了鎮(zhèn)子。于 是你決定從其它賣芒果的小販那里購買芒果透葛,但是這位小販的芒果和之前那位產(chǎn)地不同”渴梗現(xiàn)在,你突然發(fā)現(xiàn)你之前學(xué)到的挑芒果辦法(大個(gè)兒的嫩黃的芒果最甜)又 行不通了僚害。你得從頭再學(xué)過阱表。你在那位小販那里,品嘗了各類芒果贡珊,你發(fā)現(xiàn)在這里,小個(gè)兒涉馁、暗黃的芒果其實(shí)才是最甜的门岔。


沒多久,你在其它城市的遠(yuǎn)房表妹來看你烤送。你準(zhǔn)備好好請(qǐng)她吃頓芒果寒随。但是她說芒果甜不甜無所謂,她要的芒果一定要是最多汁的。于是妻往,你又用你的方法品嘗了各種芒果互艾,發(fā)現(xiàn)比較軟的芒果比較多汁。


之后讯泣,你搬去了其它國家纫普。在那里,芒果吃起來和你家鄉(xiāng)的味道完全不一樣好渠。你發(fā)現(xiàn)綠芒果其實(shí)比黃芒果好吃昨稼。


再接著,你娶了一位討厭芒果的太太拳锚。她喜歡吃蘋果假栓。你得天天去買蘋果。于是霍掺,你之前積累的那些挑芒果的經(jīng)驗(yàn)一下子變的一文不值匾荆。你得用同樣的方法,去學(xué)習(xí)蘋果的各項(xiàng)物理屬性和它的味道間的關(guān)系杆烁。你確實(shí)這樣做了牙丽,因?yàn)槟銗鬯?/p>


有請(qǐng)計(jì)算機(jī)程序出場(chǎng)


現(xiàn)在想象一下,最近你正在寫一個(gè)計(jì)算機(jī)程序幫你挑選芒果(或者蘋果)连躏。你會(huì)寫下如下的規(guī)則:


if(顏色是嫩黃 and 尺寸是大的 and 購自最喜歡的小販): 芒果是甜的

????????if(軟的): 芒果是多汁的

………………


你會(huì)用這些規(guī)則來挑選芒果剩岳。你甚至?xí)屇愕男〉苋グ凑者@個(gè)規(guī)則列表去買芒果,而且確定他一定會(huì)買到你滿意的芒果入热。


但是一旦在你的芒果實(shí)驗(yàn)中有了新的發(fā)現(xiàn)拍棕, 你就不得不手動(dòng)修改這份規(guī)則列表。你得搞清楚影響芒果質(zhì)量的所有因素的錯(cuò)綜復(fù)雜的細(xì)節(jié)勺良。


如果問題越來越復(fù)雜绰播, 則你要針對(duì)所有的芒果類型,手動(dòng)地制定挑選規(guī)就變得非常困難尚困。你的研究將讓你拿到芒果科學(xué)的博士學(xué)位(如果有這樣的學(xué)位的話)蠢箩。


可誰有那么多時(shí)間去做這事兒呢。


有請(qǐng)機(jī)器學(xué)習(xí)算法


機(jī)器學(xué)習(xí)算法是由普通的算法演化而來事甜。通過自動(dòng)地從提供的數(shù)據(jù)中學(xué)習(xí)谬泌,它會(huì)讓你的程序變得更“聰明”。


你從市場(chǎng)上的芒果里隨機(jī)的抽取一定的樣品(訓(xùn)練數(shù)據(jù))逻谦, 制作一張表格掌实, 上面記著每個(gè)芒果的物理屬性, 比如顏色, 大小, 形狀, 產(chǎn)地衔峰, 賣家邻悬, 等等症昏。(這些稱之為特征)。


還記錄下這個(gè)芒果甜不甜父丰, 是否多汁肝谭,是否成熟(輸出變量)。你將這些數(shù)據(jù)提供給一個(gè)機(jī)器學(xué)習(xí)算法(分類算法/回歸算法)础米,然后它就會(huì)學(xué)習(xí)出一個(gè)關(guān)于芒果的物理屬性和它的質(zhì)量之間關(guān)系的模型分苇。


下次你再去市集, 只要測(cè)測(cè)那些芒果的特性(測(cè)試數(shù)據(jù))屁桑,然后將它輸入一個(gè)機(jī)器學(xué)習(xí)算法医寿。算法將根據(jù)之前計(jì)算出的模型來預(yù)測(cè)芒果是甜的,熟的蘑斧, 并且/還是多汁的靖秩。


該算法內(nèi)部使用的規(guī)則其實(shí)就是類似你之前手寫在紙上的那些規(guī)則(例如, 決策樹)竖瘾,或者更多涉及到的東西沟突,但是基本上你就不需要擔(dān)心這個(gè)了。


瞧捕传,你現(xiàn)在可以滿懷自信的去買芒果了惠拭,根本不用考慮那些挑選芒果的細(xì)節(jié)。更重要的是庸论,你可以讓你的算法隨著時(shí)間越變?cè)胶茫ㄔ鰪?qiáng)學(xué)習(xí))职辅,當(dāng)它讀進(jìn)更多 的訓(xùn)練數(shù)據(jù), 它就會(huì)更加準(zhǔn)確聂示,并且在做了錯(cuò)誤的預(yù)測(cè)之后自我修正域携。但是最棒的地方在于,你可以用同樣的算法去訓(xùn)練不同的模型鱼喉, 比如預(yù)測(cè)蘋果質(zhì)量的模型秀鞭, 桔子的,香蕉的扛禽,葡萄的锋边,櫻桃的,西瓜的编曼,讓所有你心愛的人開心:)


這宠默,就是專屬于你的機(jī)器學(xué)習(xí),很炫酷吧灵巧。


?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末搀矫,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子刻肄,更是在濱河造成了極大的恐慌瓤球,老刑警劉巖,帶你破解...
    沈念sama閱讀 223,207評(píng)論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件敏弃,死亡現(xiàn)場(chǎng)離奇詭異卦羡,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)麦到,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評(píng)論 3 400
  • 文/潘曉璐 我一進(jìn)店門绿饵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人瓶颠,你說我怎么就攤上這事拟赊。” “怎么了粹淋?”我有些...
    開封第一講書人閱讀 170,031評(píng)論 0 366
  • 文/不壞的土叔 我叫張陵吸祟,是天一觀的道長。 經(jīng)常有香客問我桃移,道長屋匕,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,334評(píng)論 1 300
  • 正文 為了忘掉前任借杰,我火速辦了婚禮过吻,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘蔗衡。我一直安慰自己纤虽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,322評(píng)論 6 398
  • 文/花漫 我一把揭開白布粘都。 她就那樣靜靜地躺著廓推,像睡著了一般。 火紅的嫁衣襯著肌膚如雪翩隧。 梳的紋絲不亂的頭發(fā)上樊展,一...
    開封第一講書人閱讀 52,895評(píng)論 1 314
  • 那天,我揣著相機(jī)與錄音堆生,去河邊找鬼专缠。 笑死,一個(gè)胖子當(dāng)著我的面吹牛淑仆,可吹牛的內(nèi)容都是我干的涝婉。 我是一名探鬼主播,決...
    沈念sama閱讀 41,300評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼蔗怠,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼墩弯!你這毒婦竟也來了吩跋?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,264評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤渔工,失蹤者是張志新(化名)和其女友劉穎锌钮,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體引矩,經(jīng)...
    沈念sama閱讀 46,784評(píng)論 1 321
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡梁丘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,870評(píng)論 3 343
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了旺韭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片氛谜。...
    茶點(diǎn)故事閱讀 40,989評(píng)論 1 354
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖区端,靈堂內(nèi)的尸體忽然破棺而出值漫,到底是詐尸還是另有隱情,我是刑警寧澤珊燎,帶...
    沈念sama閱讀 36,649評(píng)論 5 351
  • 正文 年R本政府宣布惭嚣,位于F島的核電站,受9級(jí)特大地震影響悔政,放射性物質(zhì)發(fā)生泄漏晚吞。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,331評(píng)論 3 336
  • 文/蒙蒙 一谋国、第九天 我趴在偏房一處隱蔽的房頂上張望槽地。 院中可真熱鬧,春花似錦芦瘾、人聲如沸捌蚊。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽缅糟。三九已至,卻和暖如春祷愉,著一層夾襖步出監(jiān)牢的瞬間窗宦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評(píng)論 1 275
  • 我被黑心中介騙來泰國打工二鳄, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留赴涵,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,452評(píng)論 3 379
  • 正文 我出身青樓订讼,卻偏偏與公主長得像髓窜,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子欺殿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,995評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容