1.1 人工智能怔毛、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)

一、計(jì)算機(jī)難以解決的問題——人工智能

? ? 從計(jì)算機(jī)發(fā)明之初腾降，人們就希望它能夠幫助甚至替代人類完成重復(fù)性勞作拣度。利用巨大的存儲(chǔ)空間和超高的運(yùn)算速度，計(jì)算機(jī)已經(jīng)可以非常輕易的完成一些對(duì)于人類非常困難螃壤，但對(duì)于計(jì)算機(jī)相對(duì)簡單的問題抗果。然而，一些人類通過直覺可以很快解決的問題奸晴，目前卻很難通過計(jì)算機(jī)解決冤馏。這些問題包括自然語言處理、圖像識(shí)別蚁滋、語音識(shí)別等宿接。而它們就是人工智能需要解決的問題。

二辕录、早期人工智能系統(tǒng)——基于知識(shí)圖庫的人工智能系統(tǒng)

? ? 計(jì)算機(jī)要想人類一樣完成更多智能的工作睦霎，需要掌握關(guān)于這個(gè)世界海量的知識(shí)。比如要實(shí)現(xiàn)汽車自動(dòng)駕駛走诞，計(jì)算機(jī)至少需要能夠判斷那里是路副女，哪里是障礙物。這個(gè)對(duì)于人類非常直觀的東西蚣旱，但對(duì)于計(jì)算機(jī)卻是相當(dāng)困難的碑幅。路有水泥的戴陡、瀝青的，石子的甚至土路沟涨。這些不同材質(zhì)鋪成的路在計(jì)算機(jī)看來差距非常大恤批。如何讓計(jì)算機(jī)掌握這些人類看起來非常直觀的知識(shí)，對(duì)于人工智能能的發(fā)展是一個(gè)巨大的挑戰(zhàn)裹赴。很多早期人工智能系統(tǒng)只能成功應(yīng)用于相對(duì)特定的環(huán)境（specific domain）喜庞，在這些特定的環(huán)境下，計(jì)算機(jī)需要了解的知識(shí)很容易被嚴(yán)格并且完整的定義棋返。

? ? 為了使計(jì)算機(jī)更多的掌握開放環(huán)境下的知識(shí)延都，研究人員進(jìn)行了很多嘗試。其中一個(gè)影響力非常大的領(lǐng)域是只是圖庫（Ontology）睛竣。WordNet是在開放環(huán)境中建立的一個(gè)較大且有影響力的知識(shí)圖庫晰房。WordNet是由普林斯頓大學(xué)（Princeton University）的George Armitage Miller教授和Christine Felbaum教授帶領(lǐng)開發(fā)的，它將155287個(gè)單詞整理為了117659個(gè)近義詞集（synsets）射沟∈庹撸基于這些近義詞集，WordNet進(jìn)一步定義了近義詞集之間的關(guān)系验夯。比如同義詞集“狗”屬于同義詞集“犬科動(dòng)物”幽污，它們之間存在種屬關(guān)系。除了WordNet簿姨，也有不少研究人員嘗試將Wikipedia中的知識(shí)整理成知識(shí)題庫。谷歌的知識(shí)圖庫就是基于Wikipedia創(chuàng)建的簸搞。

三扁位、為什么需要機(jī)器學(xué)習(xí)

? ? 雖然使用知識(shí)圖庫可以讓計(jì)算機(jī)很好的掌握人工定義的知識(shí)，但建立知識(shí)圖庫一方面需要花費(fèi)大量的人力物力趁俊，另一方面可以通過知識(shí)圖庫方式明確定義的知識(shí)有限域仇，不是所有的知識(shí)都可以明確定義成計(jì)算機(jī)可以理解的固定格式。很大一部分無法明確定義的知識(shí)寺擂，就是人類的經(jīng)驗(yàn)暇务。比如我們判斷一封郵件是否為垃圾郵件，會(huì)綜合考慮郵件發(fā)出的地址怔软、郵件的標(biāo)題垦细、郵件的內(nèi)容以及郵件收件人的長度等等。這是收到無數(shù)垃圾郵件騷擾之后總結(jié)出來的經(jīng)驗(yàn)挡逼。這個(gè)經(jīng)驗(yàn)很難以固定的方式表達(dá)出來括改，而且不同人對(duì)垃圾郵件的判斷也會(huì)不一樣。如何可以讓計(jì)算機(jī)跟人類一樣從歷史的經(jīng)驗(yàn)中獲取新的知識(shí)呢家坎？這就是機(jī)器學(xué)習(xí)需要解決的問題嘱能。

四吝梅、機(jī)器學(xué)習(xí)的定義

? ? 卡內(nèi)基梅隆大學(xué)的Tom Michael Mitchell教授在1997年出版的書籍Machine Learning中對(duì)機(jī)器學(xué)習(xí)進(jìn)行過非常專業(yè)的地定義：如果一個(gè)程序可以在任務(wù)T上，隨著經(jīng)驗(yàn)E的增加惹骂，效果P也可以隨之增加苏携，則稱這個(gè)程序可以從經(jīng)驗(yàn)中學(xué)習(xí)。

? ? 通過垃圾郵件分類的問題來解釋機(jī)器學(xué)習(xí)的定義对粪。在垃圾郵件分類問題中右冻，“一個(gè)程序”指的是機(jī)器學(xué)習(xí)算法，比如邏輯回歸算法衩侥；“任務(wù)T”是指區(qū)分垃圾郵件的任務(wù)国旷；“經(jīng)驗(yàn)E”為已經(jīng)區(qū)分過是否為垃圾郵件的歷史郵件，在監(jiān)督式機(jī)器學(xué)習(xí)問題中茫死，這也被稱之為訓(xùn)練數(shù)據(jù)跪但；“效果P”為機(jī)器學(xué)習(xí)算法在區(qū)分是否為垃圾郵件任務(wù)上的效率。

五峦萎、傳統(tǒng)機(jī)器學(xué)習(xí)算法概述

? ? 以邏輯回歸算法為例屡久。在使用邏輯回歸算法解決垃圾郵件分類問題時(shí)，會(huì)先從每一封郵件中抽取對(duì)分類結(jié)果可能有影響的因素爱榔，比如說上文提到的發(fā)郵件的地址被环、郵件的標(biāo)題以及收件人的長度等等。每一個(gè)因素被稱之為一個(gè)特征（feature）详幽。邏輯回歸算法可以從訓(xùn)練數(shù)據(jù)中計(jì)算出每個(gè)特征和結(jié)果的相關(guān)度筛欢。比如在垃圾郵件分類問題中，可能會(huì)發(fā)現(xiàn)如果一個(gè)郵件的收件人越多唇聘，那么郵件為垃圾郵件的概率也就越高版姑。在對(duì)一封未知的郵件做出判斷時(shí)，邏輯回歸算法會(huì)根據(jù)從這封郵件中抽取得到的每一個(gè)特征以及這些特征和垃圾郵件的相關(guān)度來判斷這封郵件是否為垃圾郵件迟郎。

? ? 在大部分情況下剥险，訓(xùn)練數(shù)據(jù)達(dá)到一定數(shù)量之前，越多的訓(xùn)練數(shù)據(jù)可以使邏輯會(huì)算法對(duì)位置郵件做出的判斷越精確宪肖。也就是說邏輯回歸算法可以根據(jù)訓(xùn)練數(shù)據(jù)（經(jīng)驗(yàn)E）提高在垃圾郵件分類問題（任務(wù)T）上的正確率（效果P）表制。之所以說在大部分情況下，是因?yàn)檫壿嫽貧w算法的效果除了依賴于訓(xùn)練數(shù)據(jù)控乾，也依賴于從數(shù)據(jù)中提取的特征么介。假設(shè)從郵件中抽取的特征只有郵件發(fā)送時(shí)間，那么即使有再多的訓(xùn)練數(shù)據(jù)阱持，邏輯回歸算法也無法很好的利用夭拌。這是因?yàn)猷]件發(fā)送的時(shí)間和郵件是否為垃圾郵件之間的關(guān)聯(lián)不大，而邏輯回歸算法無法從數(shù)據(jù)中習(xí)得更好的特征表達(dá)式。這也是很多傳統(tǒng)機(jī)器學(xué)習(xí)算法的一個(gè)共同的問題鸽扁。

六蒜绽、傳統(tǒng)機(jī)器學(xué)習(xí)算法面臨問題

? ? 類似從郵件中提取特征，如何數(shù)字還的表達(dá)現(xiàn)實(shí)世界中的實(shí)體桶现，一直是計(jì)算機(jī)科學(xué)中一個(gè)非常重要的問題躲雅。如果將圖書館中的圖書名稱存儲(chǔ)為結(jié)構(gòu)化的數(shù)據(jù)，比如存儲(chǔ)在Excel表格中骡和，那么可以非常容易的通過書名查詢一本書是否在圖書館中相赁。如果圖書的書名都是存在非結(jié)構(gòu)化的圖片中，那么要完成書名查找任務(wù)的難度將大大增加慰于。類似的道理钮科，如何從實(shí)體中提取特征，對(duì)于很多傳統(tǒng)機(jī)器學(xué)習(xí)算法的性能有巨大影響婆赠。圖1-1展示了一個(gè)簡單的例子绵脯。如果通過笛卡爾坐標(biāo)系（cartesian coordinates）來表示數(shù)據(jù)，那么不同顏色的結(jié)點(diǎn)無法被一條直線劃分休里。如果將這些點(diǎn)映射到極角坐標(biāo)系（polar coordinates）蛆挫，那么使用直線劃分就很容易了。同樣的數(shù)據(jù)使用不同的表達(dá)方式會(huì)極大地影響解決問題的難度妙黍。一旦解決了數(shù)據(jù)表達(dá)和特征提取悴侵，很多人工智能任務(wù)也就解決了90%。

圖1-1 不同的數(shù)據(jù)表達(dá)對(duì)使用直線劃分不同顏色結(jié)點(diǎn)的難度影響

? ? 然而拭嫁，對(duì)許多機(jī)器學(xué)習(xí)問題來說可免，特征提取不是一件簡單的事情。在一些復(fù)雜問題上做粤，要通過人工的方式設(shè)計(jì)有效的特征集合巴元，需要很多的時(shí)間和精力，有時(shí)甚至需要整個(gè)領(lǐng)域數(shù)十年的研究投入驮宴。例如，假設(shè)想從很多照片中識(shí)別汽車∨荤裕現(xiàn)在已知的是汽車有輪子堵泽，所以希望在圖片中抽取“圖片中是否出現(xiàn)了輪子”這個(gè)特征。但實(shí)際上恢总，要從圖片的像素中描述一個(gè)輪子的模式是非常難的迎罗。雖然車輪的形狀很簡單，但在實(shí)際圖片中片仿，車輪上可能會(huì)有來自車身的陰影纹安、金屬車軸的反光，周圍物品也可能會(huì)部分遮擋車輪。實(shí)際圖片中各種不確定的因素讓我們很難直接抽取這樣的特征厢岂。

七光督、深度學(xué)習(xí)算法概述

? ? 既然人工的方式無法很好地抽取實(shí)體中的特征，那么是否有自動(dòng)的方式呢塔粒？答案是肯定的结借。深度學(xué)習(xí)解決的核心問題之一就是自動(dòng)地將簡單的特征組合成更加復(fù)雜的特征，并使用這些組合特征解決問題卒茬。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支船老，它除了可以學(xué)習(xí)特征和任務(wù)之間的關(guān)聯(lián)以外掩幢，還能自動(dòng)從簡單特征中提取更加復(fù)雜的特征亿鲜。圖1-2展示了深度學(xué)習(xí)和傳統(tǒng)機(jī)器學(xué)習(xí)在流程上的差異牍疏。如圖1-2所示七问，深度學(xué)習(xí)算法可以從數(shù)據(jù)中學(xué)習(xí)更加復(fù)雜的特征表達(dá)骗露，使得最后一步權(quán)重學(xué)習(xí)變得更加簡單且有效抡诞。在圖1-3中炕桨，展示了通過深度學(xué)習(xí)解決圖像分類問題的具體樣例阅束。深度學(xué)習(xí)可以一層一層地將簡單特征逐步轉(zhuǎn)化成更加復(fù)雜的特征堪置，從而使得不同類別的圖像更加可分躬存。比如圖中展示了深度學(xué)習(xí)算法可以從圖像的像素特征中逐漸組合出線條、邊舀锨、角岭洲、簡單形狀、復(fù)雜形狀等更加有效的復(fù)雜特征坎匿。

圖1-2 傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)流程對(duì)比

圖1-3 深度學(xué)習(xí)在圖像分類問題上的算法流程樣例

? ? 早期的深度學(xué)習(xí)受到了神經(jīng)科學(xué)的啟發(fā)盾剩，它們之間有非常密切的聯(lián)系√媸撸科學(xué)家們?cè)谏窠?jīng)科學(xué)上的發(fā)現(xiàn)使得我們相信深度學(xué)習(xí)可以勝任很多人工智能的任務(wù)告私。神經(jīng)科學(xué)家發(fā)現(xiàn)，如果將小白鼠的視覺神經(jīng)連接到聽覺中樞承桥，一段時(shí)間之后小鼠可以習(xí)得使用聽覺中樞“看”世界驻粟。這說明雖然哺乳動(dòng)物大腦分為了很多區(qū)域，但這些區(qū)域的學(xué)習(xí)機(jī)制卻是相似的凶异。在這一假想得到驗(yàn)證之前蜀撑，機(jī)器學(xué)習(xí)的研究者們通常會(huì)為不同的任務(wù)設(shè)計(jì)不同的算法。而且直到今天剩彬，學(xué)術(shù)機(jī)構(gòu)的機(jī)器學(xué)習(xí)領(lǐng)域也被分為了自然語言處理酷麦、計(jì)算機(jī)視覺和語音識(shí)別等不同的實(shí)驗(yàn)室。因?yàn)樯疃葘W(xué)習(xí)的通用性喉恋，深度學(xué)習(xí)的研究者往往可以跨越多個(gè)研究方向甚至同時(shí)活躍于所有的研究方向沃饶。

? ? 雖然深度學(xué)習(xí)領(lǐng)域的研究人員相比其他機(jī)器學(xué)習(xí)領(lǐng)域更多地受到了大腦工作原理的啟發(fā)母廷，而且媒體界也經(jīng)常強(qiáng)調(diào)深度學(xué)習(xí)算法和大腦工作原理的相似性，但現(xiàn)代深度學(xué)習(xí)的發(fā)展并不拘泥于模擬人腦神經(jīng)元和人腦的工作機(jī)理糊肤。模擬人類大腦也不再是深度學(xué)習(xí)研究的主導(dǎo)方向琴昆。我們不應(yīng)該認(rèn)為深度學(xué)習(xí)是在試圖模仿人類大腦。目前科學(xué)家對(duì)人類大腦學(xué)習(xí)機(jī)制的理解還不足以為當(dāng)下的深度學(xué)習(xí)模型提供指導(dǎo)轩褐。

? ? 現(xiàn)代的深度學(xué)習(xí)已經(jīng)超越了神經(jīng)科學(xué)觀點(diǎn)椎咧，它可以更廣泛地適用于各種并不是由神經(jīng)網(wǎng)絡(luò)啟發(fā)而來的機(jī)器學(xué)習(xí)框架。值得注意的是把介，有一個(gè)領(lǐng)域的研究者試圖從算法層理解大腦的工作機(jī)制勤讽，它不同于深度學(xué)習(xí)的領(lǐng)域，被稱為“計(jì)算神經(jīng)學(xué)”（computational neuroscience）拗踢。深度學(xué)習(xí)領(lǐng)域主要關(guān)注如何搭建智能的計(jì)算機(jī)系統(tǒng)脚牍，解決人工智能中遇到的問題。計(jì)算神經(jīng)學(xué)則主要關(guān)注如何建立更準(zhǔn)確的模型來模擬人類大腦的工作巢墅。

八诸狭、人工智能、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)三者的關(guān)系

? ? 總的來說君纫，人工智能驯遇、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是非常相關(guān)的幾個(gè)領(lǐng)域。圖1-4總結(jié)了它們之間的關(guān)系蓄髓。人工智能是一類非常廣泛的問題叉庐，機(jī)器學(xué)習(xí)是解決這類問題的一個(gè)重要手段。深度學(xué)習(xí)則是機(jī)器學(xué)習(xí)的一個(gè)分支会喝。在很多人工智能問題上陡叠，深度學(xué)習(xí)的方法突破了傳統(tǒng)機(jī)器學(xué)習(xí)方法的瓶頸，推動(dòng)了人工智能領(lǐng)域的發(fā)展肢执。

圖1-4 人工智能枉阵、機(jī)器學(xué)習(xí)以及深度學(xué)習(xí)之間的關(guān)系圖

最后編輯于：2017.12.07 18:04:46

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市预茄，隨后出現(xiàn)的幾起案子兴溜，更是在濱河造成了極大的恐慌，老刑警劉巖耻陕，帶你破解...
沈念sama閱讀 222,000評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件昵慌，死亡現(xiàn)場離奇詭異，居然都是意外死亡淮蜈，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,745評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門已卷，熙熙樓的掌柜王于貴愁眉苦臉地迎上來梧田，“玉大人，你說我怎么就攤上這事〔妹校” “怎么了鹉梨？”我有些...
開封第一講書人閱讀 168,561評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長穿稳。經(jīng)常有香客問我存皂，道長，這世上最難降的妖魔是什么逢艘？我笑而不...
開封第一講書人閱讀 59,782評(píng)論 1贊 298
?港島之戀（遺憾婚禮）
正文為了忘掉前任旦袋，我火速辦了婚禮，結(jié)果婚禮上它改，老公的妹妹穿的比我還像新娘疤孕。我一直安慰自己，他們只是感情好央拖，可當(dāng)我...
茶點(diǎn)故事閱讀 68,798評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布祭阀。她就那樣靜靜地躺著，像睡著了一般鲜戒。火紅的嫁衣襯著肌膚如雪专控。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,394評(píng)論 1贊 310
城市分裂傳說
那天遏餐，我揣著相機(jī)與錄音伦腐，去河邊找鬼。笑死境输，一個(gè)胖子當(dāng)著我的面吹牛蔗牡，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播嗅剖，決...
沈念sama閱讀 40,952評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼辩越，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼！你這毒婦竟也來了信粮？” 一聲冷哼從身側(cè)響起黔攒，我...
開封第一講書人閱讀 39,852評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎强缘，沒想到半個(gè)月后督惰，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,409評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡旅掂，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,483評(píng)論 3贊 341
?白月光啟示錄
正文我和宋清朗相戀三年赏胚，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片商虐。...
茶點(diǎn)故事閱讀 40,615評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡觉阅，死狀恐怖崖疤，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情典勇，我是刑警寧澤劫哼，帶...
沈念sama閱讀 36,303評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站割笙，受9級(jí)特大地震影響权烧，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜伤溉，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,979評(píng)論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一般码、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧谈火，春花似錦侈询、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,470評(píng)論 0贊 24
一樁弒父案扔字，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至温技，卻和暖如春革为，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背舵鳞。一陣腳步聲響...
開封第一講書人閱讀 33,571評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工震檩，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人蜓堕。一個(gè)月前我還...
沈念sama閱讀 49,041評(píng)論 3贊 377
代替公主和親
正文我出身青樓抛虏，卻偏偏與公主長得像，于是被迫代替她去往敵國和親套才。傳聞我的和親對(duì)象是個(gè)殘疾皇子迂猴，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,630評(píng)論 2贊 359

1.1 人工智能靶壮、機(jī)器學(xué)習(xí)與深度學(xué)習(xí)