之前在百度知道上回答了這個(gè)問(wèn)題,現(xiàn)在把答案又整理了一下兽愤,然后放到簡(jiǎn)書(shū)上彼念,以備今后查詢。
一浅萧、人工智能
先引用百度百科對(duì)人工智能的定義:
人工智能是計(jì)算機(jī)科學(xué)的一個(gè)分支劈猿,這是一門研究民褂、開(kāi)發(fā)用于模擬、延伸和擴(kuò)展人類智能的理論、方法澳化、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)寇漫。
人工智能有三個(gè)層次啄刹,分別是:
1. 計(jì)算智能:主要用于求解一般的最優(yōu)化問(wèn)題(不是凸優(yōu)化問(wèn)題繁成,常為NP問(wèn)題,不能在多項(xiàng)式時(shí)間內(nèi)解決)己儒,由于解空間龐大(不可能采用窮舉遍歷的方法)崎岂,為了高效快速地找到優(yōu)化變量的最優(yōu)解,采用一些啟發(fā)式搜索的方法闪湾,包括遺傳算法冲甘、群體智能(蟻群、粒子群)途样、模擬退火等江醇;
2. 感知智能:讓計(jì)算機(jī)看得見(jiàn),聽(tīng)得到何暇,包括圖像識(shí)別陶夜、語(yǔ)音識(shí)別等;
3. 認(rèn)知智能:最高一個(gè)層次的人工智能裆站,包括自然語(yǔ)言處理等条辟。
人工智能主要有四個(gè)研究方向(這個(gè)說(shuō)法來(lái)源于騰訊AI Lab官網(wǎng))黔夭,分別是:計(jì)算機(jī)視覺(jué)、語(yǔ)音技術(shù)羽嫡、NLP和機(jī)器學(xué)習(xí)本姥。
二、機(jī)器學(xué)習(xí)
機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種重要方法杭棵,主要包括統(tǒng)計(jì)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)婚惫。機(jī)器學(xué)習(xí)通過(guò)數(shù)據(jù)驅(qū)動(dòng)智能,它不對(duì)某一具體任務(wù)硬編碼颜屠,而是通過(guò)ML算法自動(dòng)從數(shù)據(jù)中學(xué)習(xí)出知識(shí)辰妙。
大部分機(jī)器學(xué)習(xí)都可以歸結(jié)為最優(yōu)化問(wèn)題鹰祸,都是通過(guò)調(diào)整模型參數(shù)甫窟,使得損失函數(shù)(成本函數(shù))最小,然后為了避免過(guò)擬合蛙婴,還會(huì)引入正則項(xiàng)來(lái)約束(限制)要優(yōu)化的參數(shù)粗井,使得模型參數(shù)的解空間(參數(shù)向量空間)變小,使得損失函數(shù)不會(huì)太小街图。
1. 機(jī)器學(xué)習(xí)分類
機(jī)器學(xué)習(xí)大致可以分成四類浇衬,分別是:監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)餐济、半監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)耘擂。
2. 監(jiān)督學(xué)習(xí)
監(jiān)督學(xué)習(xí)針對(duì)有標(biāo)簽數(shù)據(jù)集,它通過(guò)學(xué)習(xí)出一個(gè)模型(其實(shí)就是一個(gè)函數(shù))來(lái)擬合數(shù)據(jù)(分類算法中就是學(xué)習(xí)出一個(gè)超平面來(lái)最好地劃分不同類別的樣本絮姆,回歸算法中就是學(xué)習(xí)出一個(gè)函數(shù)醉冤,它的曲線能最好地?cái)M合數(shù)據(jù)),按照標(biāo)簽是否為離散值又可以分為兩類篙悯,分別是:
(1)標(biāo)簽為離散值蚁阳,則為分類問(wèn)題,常見(jiàn)的分類算法:logistic回歸鸽照、KNN螺捐、貝葉斯分類器、決策樹(shù)矮燎、SVM定血、神經(jīng)網(wǎng)絡(luò)、GBDT诞外、隨機(jī)森林等糠悼;
(2)標(biāo)簽為連續(xù)值,則為回歸問(wèn)題浅乔,例如線性回歸等倔喂。
監(jiān)督學(xué)習(xí)學(xué)的是一種關(guān)聯(lián)關(guān)系铝条,一種映射,統(tǒng)計(jì)學(xué)習(xí)的一個(gè)根本前提是訓(xùn)練集和測(cè)試集要服從同一個(gè)分布席噩,即訓(xùn)練集要和真實(shí)應(yīng)用場(chǎng)景同分布班缰。
3. 無(wú)監(jiān)督學(xué)習(xí)
無(wú)監(jiān)督學(xué)習(xí)針對(duì)沒(méi)有標(biāo)簽的數(shù)據(jù)集,它將樣本按照距離(特征向量 in 向量空間)劃分成類簇悼枢,使得類內(nèi)相似性最大埠忘,類間相似性最小。通過(guò)觀察聚類結(jié)果馒索,我們可以得到數(shù)據(jù)集的分布情況莹妒,為進(jìn)一步分析提供支撐。常見(jiàn)的聚類算法有K-means绰上、高斯混合模型和LDA等旨怠。
4. 半監(jiān)督學(xué)習(xí)針對(duì)只有部分樣本有標(biāo)簽的數(shù)據(jù)集,對(duì)于半監(jiān)督學(xué)習(xí)我不大了解蜈块。
5. 強(qiáng)化學(xué)習(xí)不大了解鉴腻。
6. 模型評(píng)價(jià)指標(biāo)
這里只討論監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。分類模型的評(píng)價(jià)指標(biāo)包括準(zhǔn)確率(accuracy百揭,被正確分類的樣本占全體的百分比)爽哎、精確率(precision,查準(zhǔn)率)和召回率(recall器一,查全率)课锌。回歸模型的評(píng)價(jià)指標(biāo)主要是損失函數(shù),損失函數(shù)太小容易過(guò)擬合祈秕,不考慮損失會(huì)導(dǎo)致模型欠擬合渺贤。聚類結(jié)果的評(píng)價(jià)指標(biāo)只要能夠反映類內(nèi)相似性和類間相似性即可(這里不詳細(xì),待我回頭補(bǔ)上)踢步。
三癣亚、深度學(xué)習(xí)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)分支,說(shuō)白了就是深層神經(jīng)網(wǎng)絡(luò)(DNN)获印,主要用于特征自動(dòng)抽取述雾。CV中常用的網(wǎng)絡(luò)結(jié)構(gòu)為CNN,NLP中常用的則為RNN和LSTM(現(xiàn)在注意力模型也得到廣泛應(yīng)用)兼丰,深度學(xué)習(xí)在無(wú)監(jiān)督學(xué)習(xí)中的應(yīng)用主要是通過(guò)自編碼機(jī)進(jìn)行特征提取玻孟,也就是表征學(xué)習(xí),關(guān)于深度學(xué)習(xí)鳍征,我也正在學(xué)習(xí)中黍翎。