人工智能學(xué)習(xí)筆記

以下內(nèi)容是學(xué)習(xí)《人工智能--一種現(xiàn)代的方法》《終極算法》以及其他網(wǎng)絡(luò)課程以后整理而成的对妄,一開始介紹了人工智能的基礎(chǔ)目的宜岛,面對真實世界完成基礎(chǔ)目的生長出來的復(fù)雜性橘霎,這些復(fù)雜性推動出人工智能的不同的流派荆针,然后介紹不同流派的人工智能算法模型適合解決什么樣的問題,怎么解決問題梗肝,算法的邏輯是什么榛瓮。讓大家對人工智能,對機器學(xué)習(xí)有一個基本性的認知巫击。

*人工智能系統(tǒng)的基礎(chǔ)原則

基礎(chǔ)原則:簡單反射禀晓、基于模型的反射精续、基于目標(biāo)的反射、基于效用的反射

這些原則的遞進目的:要有行動規(guī)則知道怎么行動粹懒,要對信息進行計算從而知道怎么選擇行動規(guī)則重付,還要從目標(biāo),從效用方面考慮來進行信息數(shù)據(jù)的計算從而生成/選擇具體的規(guī)則凫乖。

簡單反射确垫,我們會給出規(guī)則,agent感知到的信息如果符合什么樣的規(guī)則帽芽,那么就采取什么樣的行動删掀,而當(dāng)沒有適應(yīng)的規(guī)則的時候,我們可以隨機采取某個規(guī)則去行動导街∨幔【這些行動基本就是選擇,是搜索】

基于模型的反射搬瑰,我們需要用來做判斷的信息比較多款票,而且存在狀態(tài)的關(guān)聯(lián)關(guān)系,你不能簡單的通過靜態(tài)的輸入信息來做出判斷泽论,而是要考慮歷史數(shù)據(jù)艾少,考慮前因來做出判斷,這個時候我們就需要計算翼悴,用agent來將感應(yīng)的信息和歷史的數(shù)據(jù)一起計算姆钉,從而選擇某個行動規(guī)則〕撸【行動上來說是先計算,然后再選擇】

基于模型的反射和簡單反射有什么樣的區(qū)別陶冷,基于模型的反射agent可以保存歷史狀態(tài)钙姊,基于模型的反射angent知道這個世界是如何運轉(zhuǎn)的,這個世界如何運轉(zhuǎn)的知識就是模型埂伦。比如煞额,世界上的狗有很多的樣子,我不可能給你一個規(guī)則沾谜,告訴你這是個狗膊毁,但是我可以給你一個計算模型,把圖片給我基跑,我就能知道它是不是狗婚温。這個例子也說明,歷史數(shù)據(jù)也不是必須的媳否。世界是如何運行的模型才是必須的栅螟。

用家裝AI舉例子荆秦,簡單反射需要能感知到位置,從而選擇相應(yīng)的家具擺放力图,而基于模型的反射步绸,則會自己計算房間的大少,選擇位置吃媒,判斷功能瓤介,判斷組合來擺放的家具。

基于目標(biāo)的反射赘那,則會給基于模型的反射一個更收斂的選擇范圍刑桑。還是家裝的例子,你能做出很多的擺放漓概,但是我只需要地中海風(fēng)格的擺放漾月。那么模型的計算就增加了限制條件。

基于效用的反射胃珍,則會進一步的讓選擇范圍收斂梁肿。不光要地中海風(fēng)格的,還要擺放的速度快觅彰,還要擺放的效果好吩蔑。模型計算的限制條件進一步的加強。

【PS:簡單反射是所有反射的基礎(chǔ)填抬,其他的反射最后都會在一些事先設(shè)定好的類別(規(guī)則)里挑選出一類烛芬,不管這個規(guī)則是被生成出來的,還是被定義出來的飒责∽嘎Γ】

*機器學(xué)習(xí)

上面說到了模型,我們可以通過人工的對經(jīng)驗數(shù)據(jù)的處理來得出計算模型宏蛉,但是隨著規(guī)則的復(fù)雜性的增加遣臼,人的經(jīng)驗邏輯就很難滿足復(fù)雜的問題的解決,很多數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系是不能被人的經(jīng)驗感知到的拾并,這個時候通過機器學(xué)習(xí)揍堰,來發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,給我們完善規(guī)則嗅义,給我們選擇規(guī)則提供更有效率的幫助屏歹。

機器學(xué)習(xí)是人工智能的一部分。有些環(huán)境是部分可觀察的之碗,而且是不確定的蝙眶,我們沒有一個確定性的算法模型可以直接拿來使用,我們需要通過可觀察的歷史數(shù)據(jù)來統(tǒng)計出或者說學(xué)習(xí)出一個適合這個環(huán)境的算法模型褪那。

機器學(xué)習(xí)是一種實現(xiàn)人工智能的方式械馆。

我們對世界的認知總是有限的胖眷,我們希望不管是簡單反射、基于模型的反射霹崎、基于目標(biāo)的反射還是基于效用的反射都能夠自己學(xué)習(xí)珊搀,也就是機器學(xué)習(xí)。我們需要性能元件(也就是那四種反射agent尾菇,也就是模型)來執(zhí)行行動規(guī)則境析,我們需要評判元件,對我們行動后果進行評價派诬;我們需要學(xué)習(xí)元件根據(jù)評判軟件的反饋來調(diào)整模型劳淆;而學(xué)習(xí)元件會讓問題元件生成一些探索性的任務(wù),讓性能元件來執(zhí)行默赂,看看可不可以獲得更好的效果沛鸵。

上面說的四個元件加在一起就是我們常說的算法模型,既有用來訓(xùn)練缆八、調(diào)整模型的算法曲掰,也有被訓(xùn)練成模型的算法。

學(xué)習(xí)的過程

機器學(xué)習(xí)需要根據(jù)問題特點和已有數(shù)據(jù)確定具有最強解釋性或預(yù)測力的模型奈辰,其過程也可以劃分為類似于“學(xué)習(xí) - 練習(xí) - 考試”這樣的三個階段栏妖,每個階段的目標(biāo)和使用的資源可以歸納如下:

模型擬合(model fitting):利用訓(xùn)練數(shù)據(jù)集(training set)對模型的普通參數(shù)進行擬合;

模型選擇(model selection):利用驗證數(shù)據(jù)集(validation set)對模型的超參數(shù)進行調(diào)整奖恰,篩選出性能最好的模型吊趾;

模型評價(model assessment):利用測試數(shù)據(jù)集(test set)來估計篩選出的模型在未知數(shù)據(jù)上的真實性能。


*抽象化世界

要想計算這個世界瑟啃,就需要抽象化這個世界论泛,要進行智能化,首先需要解決的是數(shù)據(jù)化的問題蛹屿。

信息的描述會影響到算法的選擇以及數(shù)據(jù)的數(shù)量孵奶,信息可以是原子的、要素的蜡峰、結(jié)構(gòu)的,原子的是復(fù)雜的朗恳,結(jié)構(gòu)化的數(shù)據(jù)是復(fù)雜的湿颅。信息簡單會使得數(shù)據(jù)量巨大,因為需要通過數(shù)據(jù)冗余來記錄數(shù)據(jù)關(guān)系粥诫,信息復(fù)雜會使得規(guī)則或者說算法復(fù)雜油航,因為你要去解構(gòu)信息里的多種含義。明顯復(fù)雜信息更有競爭力怀浆,因為原子信息造成的數(shù)據(jù)量的增加會造成空間上的效率低下谊囚,也造成搜索時長的增加讓時間上的效率也降低怕享,而結(jié)構(gòu)性的信息,隨著計算能力的增加镰踏,在空間和時間上都具備高效率函筋。

1、原子性(沒有狀態(tài)奠伪,或者只有一個原子狀態(tài))

對應(yīng)問題求解agent跌帐,點和點之間沒有未知的約束性條件,在行動之前不存在基于狀態(tài)的邏輯判斷绊率,所有的行動后果都是明確的谨敛、已知的,只存在基于規(guī)則的邏輯判斷滤否,他們通過反射agent就可以行動脸狸。

2、要素性(狀態(tài)豐富藐俺,狀態(tài)之間有約束)

點和點之間有約束性條件炊甲,每個點都要記錄自己的狀態(tài)等信息,在行動之前存在基于狀態(tài)的邏輯判斷紊搪。

3蜜葱、結(jié)構(gòu)性

每個點不僅僅記錄狀態(tài),還要記錄事件耀石,記錄行為牵囤。這些都在之后的邏輯判斷中被解釋處理,被理解滞伟,并使用揭鳞,對最終的判斷結(jié)果造成影響。


*機器學(xué)習(xí)的五大學(xué)派

問題不一樣梆奈,解決問題的辦法就會不一樣野崇,目的不一樣,解決問題的辦法也會不一樣亩钟,我們需要根據(jù)不同的目的乓梨、不同的問題,選擇適合的解決問題的辦法∏逅郑現(xiàn)在存在著五種學(xué)派扶镀,我們看看它們要解決什么樣的問題,它們適合什么樣的目的焰轻。下面這張圖可以讓我們對問題的類型有一定的認知臭觉。

1、符號學(xué)派

研究怎么找到明知識。

我們找到所有判斷元素 蝠筑,把這些元素組成合取概念狞膘,這些判斷元素能夠保證測試數(shù)據(jù)集都能做出正確的判斷。

但是這些元素在有些實例里面是必須的什乙,但有些不是挽封,于是我們開始使用元素分離的方式來分解出多個規(guī)則,把這些規(guī)則集成規(guī)則集稳强。

有時候我們獲取的規(guī)則里的元素有些過于的多了场仲,這些規(guī)則保證了我們目前的訓(xùn)練數(shù)據(jù)集的推導(dǎo)的準(zhǔn)確性,但是它可能是過擬合的退疫,這樣在我們有新的測試數(shù)據(jù)的時候會很容易發(fā)現(xiàn)這套規(guī)則會做出錯誤的判斷渠缕。準(zhǔn)確度是一個需要把握的度,有時候過擬合是因為一些偶發(fā)事件造成的褒繁,類似這樣效果元素可以不用考慮的亦鳞,有時候有些元素是我們做為啟動基礎(chǔ)的假設(shè)時多余的元素,這些也不用考慮棒坏。

我們學(xué)到的知識是基于假設(shè)的燕差,科學(xué)也是如此,過分擬合的規(guī)則定義(比如全要素規(guī)則)坝冕,就是沒有假設(shè)徒探。也就是說我們要用最少的元素來定義更廣的一般事物,如果沒有特殊實例喂窟,那么我們就不要增加元素测暗,就假設(shè)這些元素是可以起到作用的,直到遇到證偽的實例磨澡,才去豐富規(guī)則要素碗啄。

那么我們?nèi)绾螌W(xué)習(xí)新的知識呢?我們對規(guī)則進行歸納稳摄,逆向演繹可以讓我們得出更通用簡潔的規(guī)則或者說是知識稚字。

能夠得到結(jié)果的規(guī)則歸納有很多種,我們要選擇最簡短的那一套厦酬,我們用所有規(guī)則或者說元素來構(gòu)建決策樹胆描,在這些決策樹里面選擇形狀最簡單的那一個。

但是符號主義有一個問題仗阅,那就是很多的現(xiàn)象無法通過規(guī)則來表達昌讲,它們是潛意識的,沒有辦法抽象的霹菊,那么 聯(lián)結(jié)學(xué)派 就出來了。

【PS:計算概率(頻率主義)】

2、聯(lián)結(jié)學(xué)派

研究怎么找到暗知識旋廷。

連接學(xué)派的實現(xiàn)原理是鸠按,我們輸入和輸出之間,建立一個連接網(wǎng)絡(luò)饶碘。在這個網(wǎng)絡(luò)里面灌入訓(xùn)練數(shù)據(jù)目尖,然后調(diào)節(jié)網(wǎng)絡(luò)里某些節(jié)點之間的連接的強度,從而能讓輸入正確的達到輸出扎运。

那么聯(lián)接學(xué)派的 知識表示瑟曲,知識推理和知識運用是什么呢?

知識表示:我們會把算法描述成一個神經(jīng)網(wǎng)絡(luò)的拓撲圖豪治,拓撲圖中節(jié)點之間被標(biāo)注出權(quán)重洞拨。我們稱之為“構(gòu)难猓”

知識推理:現(xiàn)在流行的知識推理是戒悠,反向傳播算法、自編碼等勤众。

知識運用:圖像識別等掩浙。

聯(lián)結(jié)學(xué)派花吟,只能發(fā)現(xiàn)相關(guān)性,不能發(fā)現(xiàn)因果性厨姚。無法解釋為什么結(jié)果是這個樣子衅澈。

3、貝葉斯學(xué)派

研究怎么找到明知識谬墙。

貝葉斯學(xué)派和符號學(xué)派都是信奉 學(xué)習(xí)的今布,而 進化學(xué)派、聯(lián)結(jié)學(xué)派都是信奉自然啟發(fā)的芭梯。

但是與進化學(xué)派险耀、聯(lián)結(jié)學(xué)派兩個好兄弟比起來;符號學(xué)派和貝葉斯學(xué)派的關(guān)系并不融洽玖喘,

符號學(xué)派甩牺,希望歸納出最大公約數(shù),或者比最大公約數(shù)更冗余的過擬合了的元素集累奈,只要符合這些元素集就能推導(dǎo)出結(jié)果贬派。如果這些元素不夠時,就向元素集里面加入新元素澎媒,使的規(guī)則成立搞乏。當(dāng)然元素之間的關(guān)系會通過加減乘除、分支等數(shù)學(xué)符號連接起來戒努。

貝葉斯學(xué)派不同请敦,它不做元素組合或者規(guī)則組合镐躲,沒有公理定理性的推斷,它是依據(jù): 隨著數(shù)據(jù)量的增加侍筛,概率是增強了還是減弱了萤皂,通過一個/一組元素對結(jié)果出現(xiàn)概率的影響,來判斷元素的預(yù)測能力匣椰。

也就是說對與電燈不亮裆熙,符號學(xué)派會先判斷,燈泡是不是壞了禽笑,如果不是入录,是不是停電了,如果不是佳镜,是不是線路壞了僚稿。而貝葉斯學(xué)派則是算出燈泡壞了的概率,停電的概率邀杏,線路的概率贫奠。

再比如,符號學(xué)派會假設(shè)說鳥是會飛的望蜡,但是數(shù)據(jù)的增加會慢慢否點這個假設(shè)唤崭,我們會加入一些排除特殊情況的條件。而概率學(xué)派會計算會飛是鳥的概率脖律,不會飛是鳥的概率谢肾。最后得出鳥會飛的概率。

符號學(xué)派的假設(shè)是慢慢豐富的小泉,邏輯也是慢慢豐富的芦疏,但是貝葉斯不是,它要想準(zhǔn)確必須一開始就有豐富的假設(shè)微姊,它可能把所有元素都作為導(dǎo)致結(jié)果的假設(shè)來計算概率酸茴。

符號學(xué)派會有結(jié)構(gòu),會有演繹關(guān)系兢交,它是元素的邏輯組合薪捍。貝葉斯會對一個元素或幾個元素做 概率計算。符號學(xué)派更在意確定性配喳,而貝葉斯更在意的是不確定性或者說的可能性酪穿。

【PS:計算概率(貝葉斯主義)】

PS:頻率主義的概率、貝葉斯主義的概率

頻率主義的概率晴裹,認為模型是固定的被济,數(shù)據(jù)應(yīng)該按照模型的計算來分布;

貝葉斯主義的概率涧团,認為數(shù)據(jù)是固定的只磷,參數(shù)應(yīng)該按照數(shù)據(jù)變化的來變動经磅;

怎么理解呢?頻率主義的概率是個先驗概率钮追,這個概率是基于一個假設(shè)馋贤,最后的結(jié)果都與要素相關(guān),這個要素是個必要條件畏陕,而事實上,我們并不能證明這個假設(shè)仿滔。貝葉斯主義說惠毁,我覺得所有的要素都不是必要條件,只是充分條件崎页。我們的模型需要計算這個要素的必要性鞠绰,所以我要考慮這個要素是必要條件的概率,從而讓最后的判斷更準(zhǔn)確飒焦。

4蜈膨、類推學(xué)派

研究怎么找到默知識。

KNN牺荠,SVM翁巍,K-means【后面有說明】

【PS:計算距離】

5、進化學(xué)派

研究怎么找到明知識休雌。

怎么給一個目標(biāo)函數(shù)求的一個最優(yōu)解的問題灶壶,也就是說它的邏輯框架是有的,但是具體細節(jié)是需要調(diào)整的杈曲,我們可以通過下面的流程來找到這個最優(yōu)解


適應(yīng)度函數(shù)驰凛,可以大體理解成目標(biāo)函數(shù),它是用來計算個體適應(yīng)度的担扑,那么什么是個體什么是種群呢恰响?可以粗糙的理解成事目標(biāo)函數(shù)的待求解的參數(shù)集,比如一個參數(shù)數(shù)組涌献。

我們通過適應(yīng)度函數(shù)選出最優(yōu)的幾個組合胚宦,復(fù)制它們,然后再雜交最優(yōu)的組合形成新的組合洁奈,然后再在新的組合里隨機改變一些參數(shù)间唉,這樣的話,保留了一批最優(yōu)的利术,進化了一批待驗證的呈野,還加入了變異基因,從而為找到最大優(yōu)化創(chuàng)造了可能印叁。

遺傳學(xué)派和聯(lián)結(jié)學(xué)派是自下而上的被冒,符號學(xué)派是自上而下的军掂,也就是說前者模擬自然現(xiàn)象,而后者依賴抽象理論昨悼。

遺傳學(xué)派和聯(lián)結(jié)學(xué)派可以很好的組合蝗锥,一個用來發(fā)現(xiàn)結(jié)構(gòu),一個為發(fā)現(xiàn)的結(jié)構(gòu)選擇最優(yōu)的權(quán)值率触,誰先誰后终议,其實不太好確定。

是選擇遺傳學(xué)派葱蝗、聯(lián)結(jié)學(xué)派穴张,還是選擇符號學(xué)派,要看誰可以更快的找到答案两曼,比如像疾病治療可能更適合符號學(xué)派這種有人類研究理論指導(dǎo)型的皂甘,而像圖像識別這種,人類都無法說清理論的悼凑,就更適合聯(lián)結(jié)學(xué)派偿枕。


機器學(xué)習(xí)基礎(chǔ)概念

1、代價函數(shù)

計算算法模型是不是靠譜户辫,建立代價函數(shù)渐夸,通過梯度下降來找到最少代價函數(shù),也就是找到算法的模型最優(yōu)參數(shù)渔欢。

代價函數(shù)就是如何度量函數(shù)對數(shù)據(jù)的擬合程度捺萌,最小代價函數(shù)是擬合度比較好的情況。

2膘茎、梯度算法

梯度算法就是能夠通過它找到代價函數(shù)的“最小值”(最優(yōu)值)桃纯,下降的速度別太快,也別太慢披坏,該快的時候快态坦,該慢的時候慢,離目的地遠的時候快點棒拂,離目的地近的時候慢點伞梯,別開過頭,錯過了最小值帚屉。


3谜诫、算法模型

簡單抽象的說就是特征的線性的、非線性的關(guān)系攻旦;以及/或者喻旷,組合特征的的線性、非線性關(guān)系牢屋;


【PS:對以上概念準(zhǔn)確的理解可以去coursera上學(xué)習(xí)吳恩達的人工智能的課程】

【PS:可以說機器學(xué)習(xí)基礎(chǔ)的點就三個:算法模型(牛逼的話自己寫且预,不牛的話就選一個現(xiàn)成的)槽袄,代價函數(shù),梯度算法锋谐”槌撸】



算法概念

(一)算法分類

I、按照輸出分類

1涮拗、分類

分類樹可以處理離散數(shù)據(jù)乾戏,也就是數(shù)據(jù)種類有限的數(shù)據(jù),它輸出的是樣本的類別三热。

2歧蕉、回歸

回歸是通過測試數(shù)據(jù)求出一條線,這條線使的所有測試點與線的絕對差或者方差最少康铭。

它是通過樣本的離散程度來求解。

新的樣本可以求得自己在線上的位置赌髓,得到結(jié)果从藤。

3、聚類

把相似數(shù)據(jù)并成一組(group)的方法锁蠕∫囊埃‘物以類聚,人以群分’不需要類別標(biāo)注的算法荣倾,直接從數(shù)據(jù)中學(xué)習(xí)模式悯搔。 所以,聚類是一種 數(shù)據(jù)探索 的分析方法舌仍,他幫助我們在大量數(shù)據(jù)中探索和發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)妒貌。

II、按照輸入

原子的铸豁、元素的灌曙、結(jié)構(gòu)的

III、按照數(shù)據(jù)是否標(biāo)注分類

1节芥、有監(jiān)督的學(xué)習(xí)

它指的是我們需要事先對數(shù)據(jù)打上分類標(biāo)簽在刺,這樣機器就知道這個數(shù)據(jù)屬于哪個分類。

2头镊、無監(jiān)督的學(xué)習(xí)

就是數(shù)據(jù)沒有被打上分類標(biāo)簽蚣驼,這可能是因為我們不具備先驗的知識,或者打標(biāo)簽的成本很高相艇。所以我們需要機器代我們部分完成這個工作颖杏,比如將數(shù)據(jù)進行聚類,方便后續(xù)人工對每個類進行分析坛芽。

IV输玷、按照學(xué)習(xí)策略分類

1队丝、批量學(xué)習(xí)(batch learning):大部分算法是集中處理所有的數(shù)據(jù),也就是一口氣對整個數(shù)據(jù)集進行建模與學(xué)習(xí)欲鹏,并得到最佳假設(shè)机久。

2、在線學(xué)習(xí)(online learning):和批量學(xué)習(xí)相對應(yīng)的是在線學(xué)習(xí)(online learning)赔嚎。在在線學(xué)習(xí)中膘盖,數(shù)據(jù)是以細水長流的方式一點點使用,算法也會根據(jù)數(shù)據(jù)的不斷饋入而動態(tài)地更新尤误。當(dāng)存儲和計算力不足以完成大規(guī)模的批量學(xué)習(xí)時侠畔,在線學(xué)習(xí)不失為一種現(xiàn)實的策略。

3损晤、主動學(xué)習(xí)(active learning):在學(xué)校中软棺,老師可以通過將學(xué)生代入學(xué)習(xí)過程,引導(dǎo)學(xué)生主動提問來加強學(xué)習(xí)效果尤勋。這種策略應(yīng)用在機器學(xué)習(xí)中就是主動學(xué)習(xí)(active learning)喘落。主動學(xué)習(xí)是策略導(dǎo)向的學(xué)習(xí)策略,通過有選擇地詢問無標(biāo)簽數(shù)據(jù)的標(biāo)簽來實現(xiàn)迭代式的學(xué)習(xí)最冰。當(dāng)數(shù)據(jù)的標(biāo)簽的獲取難度較高時瘦棋,這種方法尤其適用。

(二)模型分類

1暖哨、參數(shù)模型和非參數(shù)模型的區(qū)別體現(xiàn)的是全局普適性和局部適用性的區(qū)別赌朋;

2、數(shù)據(jù)模型和算法模型的區(qū)別體現(xiàn)的是可解釋性和精確性的區(qū)別篇裁;

3沛慢、生成模型和判別模型的區(qū)別體現(xiàn)的是聯(lián)合分布和條件分布的區(qū)別。

(三)算法

1达布、決策樹

【輸出的結(jié)果】有分類樹颠焦,也有回歸樹⊥妫【有監(jiān)督的學(xué)習(xí)】

分類樹:確定所有判斷條件對結(jié)果的概率影響能力伐庭,概率影響的能力越大,你就是樹的根節(jié)點分冈,以此向下類推圾另,直到找到目標(biāo)類別。比如基尼系數(shù)雕沉,信息增益集乔,信息增益率來判斷概率的大小

回歸樹:通過最小絕對差(LAD)或最小絕對方差來計算樣本數(shù)據(jù)獲得目標(biāo)函數(shù)。然后將樣本數(shù)據(jù)構(gòu)造成回歸樹,不斷的二分或者多分來將范圍縮小扰路。新數(shù)據(jù)按照離散程度來遍歷樹找到屬于自己的葉子節(jié)點尤溜,然后經(jīng)目標(biāo)函數(shù)算出數(shù)值。

【PS:決策樹是計算概率汗唱,準(zhǔn)確的說是計算頻率概率】

“信息熵”概念:

結(jié)果隨機性的程度宫莱,值越大(最大為1)隨機性就越高。

“純度”概念:

隨機性越高哩罪,純度越低授霸,純度可以理解成確定性

“信息增益”概念:

某個屬性特征對信息熵的影響,即用這個屬性特征做判斷际插,結(jié)果的確定性比較高碘耳,那么這個屬性的信息增益就比較高。

信息增益率容易讓決策算法死板框弛,也就是常說的過擬合辛辨。因為如果一個屬性,他的特征值比較多瑟枫,那么它的信息增益就容易比較大斗搞。

節(jié)點D的信息增益,等于節(jié)點D的信息熵減去 子節(jié)點D1力奋、D2的歸一化信息熵:

“信息增益率”概念:

信息增益率 = 信息增益 / 屬性熵

屬性熵也就是屬性信息熵,也就是這個屬性下面結(jié)果的隨機性幽七【耙螅【例如:Entropy(D1)+Entropy(D2)】

這樣即使歸一化信息商(增益率率公式里面括號部分)因為特征值過多而造成結(jié)果比較少,也可以通過?一個比較大的除數(shù)(屬性信息熵而不是歸一信息商)而平衡回來澡屡。

說的直白點猿挚,如果你的屬性特征值太多,我就認為你是過擬合的驶鹉,我要降低你的判斷權(quán)重绩蜻。

“基尼系數(shù)”概念:

基尼系數(shù)的計算方法和信息熵的計算方法在思路上是一致的,只是在計算概率的算法公式上存在著一定的差別室埋,一個求的是對數(shù)办绝,一個求的是平方和。

【PS:基尼指數(shù)是信息熵中﹣logP在P=1處一階泰勒展開后的結(jié)果信息熵與基尼指數(shù)的關(guān)系(一階泰勒展開)

節(jié)點 D 的基尼系數(shù)等于子節(jié)點 D1 和 D2 的歸一化基尼系數(shù)姚淆,歸一化基尼系數(shù)越小孕蝉,純度越高,分類越準(zhǔn)確腌逢。

“方差”概念:

方差為每個樣本值減去樣本均值的平方和除以樣本個數(shù):


2降淮、貝葉斯

在沒有太多可靠證據(jù)的情況下,怎么做出更符合數(shù)學(xué)邏輯的推測搏讶。

“先驗概率”概念:某個結(jié)果發(fā)生的可能性是多少佳鳖。P(B)

“條件概率”概念:事件 A 在另外一個事件 B 已經(jīng)發(fā)生條件下的發(fā)生概率霍殴,表示P(A|B),讀作“在 B 發(fā)生的條件下 A 發(fā)生的概率”系吩。

“后驗概率”概念:導(dǎo)致先驗概率里的結(jié)果的某個原因的可能性是多少来庭。是條件概率的一種,表示P(B|A)淑玫。

貝葉斯原理是通過求解后驗概率來找到某個原因?qū)е陆Y(jié)果的可能性巾腕,我們常常稱之為“逆向概率”。

【PS:這么看絮蒿,決策樹的信息熵尊搬、信息增益和貝葉斯的先驗概率、后驗概率在方向上很像啊土涝,都是發(fā)現(xiàn)大概率佛寿,那么區(qū)別是什么呢?適用范圍有什么樣的不同呢但壮?

因為計算方法的問題冀泻,如果數(shù)據(jù)比較片面,信息熵會掩蓋掉這個問題蜡饵,會造成決策樹的判斷過分的樂觀(過擬合)弹渔?而貝葉斯方法,在缺少數(shù)據(jù)的時候溯祸,后驗概率也會比較的公正肢专。】

“似然函數(shù)”概念:你可以把概率模型的訓(xùn)練過程理解為求參數(shù)估值的過程焦辅。似然函數(shù)就是用來衡量這個模型的參數(shù)的博杖。即我們通過觀測到的樣本數(shù)據(jù),來求得一個似然函數(shù)筷登。

后驗概率=似然函數(shù)P(A|Bi)×先驗概率P(Bi)/證據(jù)因子

3剃根、“樸素貝葉斯”

之所以稱為樸素貝葉斯,是因為它假設(shè)每個輸入變量是獨立的前方。也就是說條件和條件之間互相沒有影響狈醉,一個值的改變,并不影響另一個值惠险。而實際上這個假設(shè)并不太可能舔糖,所以如果遇到屬性特征之間關(guān)聯(lián)性比較強的時候,存在邏輯關(guān)系莺匠,會使得某些特征被強化金吗,出現(xiàn)過擬合,會使最后的結(jié)果不準(zhǔn)確。

類別的概率P(Cj):類別也就是我們最后把結(jié)果分類成那幾個摇庙。

條件概率P(Ai|Cj):條件概率旱物,是指在某個類別下的條件存在的概率。

P(A1A2A3) 都是固定的卫袒,我們想要尋找使得 P(Cj|A1A2A3) 的最大值宵呛,就等價于求 P(A1A2A3|Cj)P(Cj) 最大值。我們假定 Ai 之間是相互獨立的夕凝,那么:P(A1A2A3|Cj)=P(A1|Cj)P(A2|Cj)P(A3|Cj)

【PS:它的應(yīng)用宝穗?

樸素貝葉斯分類最適合的場景就是文本分類、情感分析和垃圾郵件識別码秉。其中情感分析和垃圾郵件識別都是通過文本來進行判斷逮矛。從這里你能看出來,這三個場景本質(zhì)上都是文本分類转砖,這也是樸素貝葉斯最擅長的地方须鼎。所以樸素貝葉斯也常用于自然語言處理 NLP 的工具。

決策樹對數(shù)據(jù)要求比較嚴格府蔗,數(shù)據(jù)缺失精度就不準(zhǔn)晋控,而貝葉斯則對缺失數(shù)據(jù)有一定的消解作用。

【PS:計算概率】


4姓赤、SVM支持向量機

說的直白點赡译,就是找到一條線,或者一個面不铆,讓不同分類的點到達這個線或者面的最小距離最大化蝌焚。

“分類間隔”:極限位置(越過了這個位置就會出現(xiàn)分類錯誤)到最優(yōu)決策面 (兩個極限位置的中間位置) 之間的距離,就是“分類間隔”狂男,英文叫margin综看。

“超平面”:將不同的樣本劃分開的平面品腹,線段岖食,或者其他形狀。

“支持向量”:離分界線最近的向量(向量直白點說的話就是數(shù)據(jù)點)舞吭,也就是說如果找到了某些點當(dāng)向量也就直接決定了一個超平面泡垃,所以找向量還是很講究的。

“支持向量機”:通過“支持向量”來生成一個超平面羡鸥,然后把那個擁有“最大間隔”(max margin)超平面就是 SVM 要找的最優(yōu)解蔑穴,從而讓不同分類的點到達這個超平面的最小距離最大化。

"硬間隔":假如數(shù)據(jù)是完全的線性可分的惧浴,那么學(xué)習(xí)到的模型可以稱為硬間隔支持向量機存和。換個說法,硬間隔指的就是完全分類準(zhǔn)確,不能存在分類錯誤的情況捐腿。

"軟間隔":就是允許一定量的樣本分類錯誤纵朋。【PS:這個有點像灰度的概念茄袖,在分類之間存在模糊地帶操软。】

“非線性SVM”:如果數(shù)據(jù)是非線性可分的宪祥,如下圖中的兩類數(shù)據(jù)聂薪,那么什么線性函數(shù)都無法處理,就需要用到“核函數(shù)”來進行升維來處理蝗羊。


“核函數(shù)”:它可以將樣本從原始空間映射到一個更高維的特質(zhì)空間中藏澳,使得樣本在新的空間中線性可分。

【PS:SVM 是有監(jiān)督的學(xué)習(xí)模型肘交,通嘲试兀可以幫我們模式識別、分類以及回歸分析涯呻×棺ぃ】

SVM本身是一種二分的分類器,無法支持多分類的情景复罐,不過我們可以通過“一對多法”和“一對一法”來處理涝登。

一對多法

(1)樣本 A 作為正集,B效诅,C胀滚,D 作為負集;

(2)樣本 B 作為正集乱投,A咽笼,C,D 作為負集戚炫;

(3)樣本 C 作為正集剑刑,A,B双肤,D 作為負集施掏;

(4)樣本 D 作為正集,A茅糜,B七芭,C 作為負集。

一對一法

(1)分類器 1:A蔑赘、B狸驳;

(2)分類器 2:A预明、C;

(3)分類器 3:B耙箍、C贮庞;

【PS:計算距離】

5、KNN

KNN是一種監(jiān)督學(xué)習(xí)算法究西,解決的分類問題窗慎,K代表與待分類的點最近的k個已分類的點。

KNN的工作原理:

? ? ① 計算待分類物體與其他物體之間的距離卤材;

? ? ② 統(tǒng)計距離最近的 K 個鄰居粘秆;

? ? ③ 對于 K 個最近的鄰居毫蚓,它們屬于哪個分類最多悴灵,待分類物體就屬于哪一類丹泉。

K值如何選擇?

? ? k值較小就會過擬合帆精,k值較大就會欠擬合较屿,所以k值要進行調(diào)整,通過訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)來調(diào)整出一個比較好的k值卓练。

? 計算距離的方法:

? ? 歐氏距離:

? ? 曼哈頓距離 :兩個點在坐標(biāo)系上絕對軸距總和

? ? 切比雪夫距離:

? ? 余弦距離:實際上計算的是兩個向量的夾角隘蝎,是在方向上計算兩者之間的差異

【PS:KNN還可以用來做回歸,那就是知道分類襟企,然后把相鄰的K個分類的值平均后給這個點嘱么,那么怎么找到這K個相鄰的點呢?】

【PS:計算距離】

6顽悼、K-means

K-Means 是一種非監(jiān)督學(xué)習(xí)算法曼振,解決的是聚類問題。K 代表類別個數(shù)蔚龙,Means是每一個類別的中心冰评,這個算法的本質(zhì)就是找到K類的中心點。當(dāng)找到了中心點也就完成了聚類木羹。

· 如何確定 K 類的中心點甲雅?· 如何將其他點劃分到 K 類中?

? ① 可以隨機取k個點做為初始的類中心點

? ②將每個點分配到最近的類中心點汇跨,這樣就形成了 K 個類务荆,然后重新計算類中心點

? ③重復(fù)第二步妆距,直到類不發(fā)生變化穷遂,或者你也可以設(shè)置最大迭代次數(shù),這樣即使類中心點發(fā)生變化娱据,但是只要達到最大迭代次數(shù)就會結(jié)束蚪黑。

? 類到中心點的距離怎么計算呢盅惜?

? ? 歐氏距離:

? ? 曼哈頓距離 :

? ? 切比雪夫距離:

? ? 余弦距離:

· 如何區(qū)分 K-Means 與 KNN?

首先忌穿,這兩個算法解決數(shù)據(jù)挖掘的兩類問題抒寂。K-Means 是聚類算法,KNN 是分類算法掠剑。

其次屈芜,這兩個算法分別是兩種不同的學(xué)習(xí)方式。K-Means 是非監(jiān)督學(xué)習(xí)朴译,KNN是監(jiān)督學(xué)習(xí)井佑,

最后,K 值的含義不同眠寿。K-Means 中的 K 值代表 K個分類躬翁,KNN 中的 K 值代表 K 個最接近的鄰居。

【PS:K的值怎么設(shè)置是個問題】

【PS:計算距離】


7盯拱、EM聚類

EM 的英文是 Expectation Maximization盒发,所以EM算法叫做最大期望值算法。

EM算法的過程

EM求解的過程就是不斷的循環(huán)執(zhí)行上面的步驟狡逢,直到滿足了觀察預(yù)期宁舰。

“最大似然”概念: 它指的就是一件事情已經(jīng)發(fā)生了,然后反推更有可能是什么因素造成的奢浑。

EM 算法是一種求解最大似然估計的方法明吩,通過觀測樣本,來找出樣本的模型參數(shù)殷费。

EM 聚類的工作方式:

我要聚出k個類印荔,每個類出現(xiàn)的概率是x,條件的判斷系數(shù)是y详羡,樣本進來以后仍律,發(fā)現(xiàn)算出的類的概率結(jié)果不是x是x1,那么調(diào)整參數(shù)y為y1实柠,然后重復(fù)輸入樣本水泉,發(fā)現(xiàn)概率結(jié)果不是x1,那么繼續(xù)調(diào)整y1為y2窒盐,反復(fù)進行下去草则,直到x和y的值不發(fā)生變化。

EM聚類可以采用很多的計算模型來進行概率分類計算蟹漓,比如 GMM(高斯混合模型)炕横,或者 HMM(隱馬爾科夫模型)。它們描述了估計參數(shù)和預(yù)期分類之間的函數(shù)關(guān)系葡粒。


【PS:計算概率】

【PS:EM 和K-means相比份殿,EM是軟分類膜钓,K-means是硬分類,】

【PS:跟計算概率相關(guān)的卿嘲,基本都會涉及到似然函數(shù)颂斜。

? ? ? ? ? ? 貝葉斯里要用到似然函數(shù),貝葉斯的模型框架是固定的(一個要解決的問題對應(yīng)著它的框架)拾枣,但是它的模型參數(shù)是不固定的沃疮,是根據(jù)輸入數(shù)據(jù)得到的。而我們要做的就是用訓(xùn)練數(shù)據(jù)獲得模型框架里的似然函數(shù)梅肤,這個函數(shù)負責(zé)生成模型參數(shù)忿磅。然后再用這個模型去處理現(xiàn)實問題,數(shù)據(jù)+似然函數(shù)=似然參數(shù)凭语,比如葱她,把郵件輸入到這個模型里,釋然函數(shù)會計算出來似然參數(shù)似扔,算法模型有了似然參數(shù)以后就可以算出郵件是不是垃圾郵件了吨些。

? ? ? ? ? ? EM算法也是如此,它有一個框架炒辉,但是它的參數(shù)是需要計算的豪墅,只不過它的計算不是監(jiān)督學(xué)習(xí),而是非監(jiān)督學(xué)習(xí)黔寇,它通過不斷的自我參數(shù)調(diào)整偶器,來讓聚類變的的穩(wěn)定,不再變化缝裤。


8屏轰、Apriori 算法、FP-Growth (關(guān)聯(lián)規(guī)則)

關(guān)聯(lián)規(guī)則挖掘可以讓我們從數(shù)據(jù)集中發(fā)現(xiàn)項與項(item 與 item)之間的關(guān)系憋飞,它在我們的生活中有很多應(yīng)用場景霎苗,“購物籃分析”就是一個常見的場景,這個場景可以從消費者交易記錄中發(fā)掘商品與商品之間的關(guān)聯(lián)關(guān)系榛做,進而通過商品捆綁銷售或者相關(guān)推薦的方式帶來更多的銷售量唁盏。

“支持度”

支持度是個百分比,它指的是某個商品組合出現(xiàn)的次數(shù)與總次數(shù)之間的比例检眯。支持度越高厘擂,代表這個組合出現(xiàn)的頻率越大。

“置信度”

它指的就是當(dāng)你購買了商品 A锰瘸,會有多大的概率購買商品 B刽严,置信度是個條件概念,就是說在 A 發(fā)生的情況下获茬,B 發(fā)生的概率港庄。

“提升度”

我們在做商品推薦的時候,重點考慮的是提升度恕曲,因為提升度代表的是“商品 A 的出現(xiàn)鹏氧,對商品 B 的出現(xiàn)概率提升的”程度。

提升度 (A→B)= 置信度 (A→B)/ 支持度 (B)

①提升度 (A→B)>1:代表有提升佩谣;

②提升度 (A→B)=1:代表有沒有提升把还,也沒有下降;

③提升度 (A→B)<1:代表有下降茸俭。

頻繁項集:

就是支持度大于等于最小支持度(Min Support) 閾值的項集吊履,所以小于最小值支持度的項目就是非頻繁項集,而大于等于最小支持度的項集就是頻繁項集调鬓。


Apriori算法工作原理:

Apriori 算法其實就是查找頻繁項集的過程艇炎。Apriori 算法的遞歸流程:

①K=1,計算 K 項集的支持度腾窝;

②篩選掉小于最小支持度的項集缀踪;

③如果項集為空,則對應(yīng) K-1 項集的結(jié)果為最終結(jié)果虹脯。

Apriori算法的缺點:

①可能產(chǎn)生大量的候選集驴娃。因為采用排列組合的方式,把可能的項集都組合出來了

②每次計算都需要重新掃描數(shù)據(jù)集循集,來計算每個項集的支持度唇敞。

FP-Growth算法工作原理:

與Apriori算法相比:

①創(chuàng)建了一棵 FP 樹來存儲頻繁項集。在創(chuàng)建前對不滿足最小支持度的項進行刪除咒彤,減少了存儲空間疆柔。

②整個生成過程只遍歷數(shù)據(jù)集 2 次,大大減少了計算量镶柱。


9婆硬、PageRank算法


10、集成算法AdaBoost

集成的含義就是集思廣益奸例,博取眾長彬犯,當(dāng)我們做決定的時候,我們先聽取多個專家的意見查吊,再做決定谐区。集成算法通常有兩種方式,分別是投票選舉(bagging)和再學(xué)習(xí)(boosting)逻卖。投票選舉的場景類似把專家召集到一個會議桌前宋列,當(dāng)做一個決定的時候,讓 K 個專家(K 個模型)分別進行分類评也,然后選擇出現(xiàn)次數(shù)最多的那個類作為最終的分類結(jié)果炼杖。再學(xué)習(xí)相當(dāng)于把 K 個專家(K 個分類器)進行加權(quán)融合灭返,形成一個新的超級專家(強分類器),讓這個超級專家做判斷坤邪。

所以你能看出來熙含,投票選舉和再學(xué)習(xí)還是有區(qū)別的。Boosting的含義是提升艇纺,它的作用是每一次訓(xùn)練的時候都對上一次的訓(xùn)練進行改進提升怎静,在訓(xùn)練的過程中這 K 個“專家”之間是有依賴性的,當(dāng)引入第 K 個“專家”(第 K 個分類器)的時候黔衡,實際上是對前 K-1 個專家的優(yōu)化蚓聘。而 bagging 在做投票選舉的時候可以并行計算,也就是 K 個“專家”在做判斷的時候是相互獨立的盟劫,不存在依賴性夜牡。

AdaBoost 的英文全稱是 Adaptive Boostting,中文含義是自適應(yīng)提升算法侣签。

AdaBoost 的工作原理



Adaboosting算法是一個框架氯材,框架型的算法,要么需要監(jiān)督學(xué)習(xí)來訓(xùn)練出參數(shù)硝岗,要么需要自我迭代達到平衡狀態(tài)氢哮,Adaboosting算法屬于自我迭代的方式。

11型檀、隨機森林算法(集成算法)

隨機森林是一種集成學(xué)習(xí)方法冗尤,構(gòu)成這座森林的每一顆樹都是決策樹,每一棵決策樹都用隨機選取數(shù)據(jù)和待選特征構(gòu)造出來胀溺,再按照少數(shù)服從多數(shù)的原則從所有決策樹的結(jié)果中得到最終輸出裂七。



【再簡潔一些】

人工智能就是隨著關(guān)聯(lián)關(guān)系的計算越來越復(fù)雜,越來越難發(fā)現(xiàn)也越來越難計算要素之間的關(guān)聯(lián)關(guān)系仓坞,所以機器學(xué)習(xí)出現(xiàn)了背零。

面對不同的結(jié)果(分類、聚類无埃、回歸)徙瓶,我們選用適用的計算模型。

如何選擇模型嫉称,你要看它的流派侦镇,它的思想,從而才能選擇正確的計算模型织阅,

如何選擇模型壳繁,還可以看看數(shù)據(jù)是不是需要標(biāo)注。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市闹炉,隨后出現(xiàn)的幾起案子蒿赢,更是在濱河造成了極大的恐慌,老刑警劉巖渣触,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件羡棵,死亡現(xiàn)場離奇詭異,居然都是意外死亡昵观,警方通過查閱死者的電腦和手機晾腔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門舌稀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來啊犬,“玉大人,你說我怎么就攤上這事壁查【踔粒” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵睡腿,是天一觀的道長语御。 經(jīng)常有香客問我,道長席怪,這世上最難降的妖魔是什么应闯? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮挂捻,結(jié)果婚禮上碉纺,老公的妹妹穿的比我還像新娘。我一直安慰自己刻撒,他們只是感情好骨田,可當(dāng)我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著声怔,像睡著了一般态贤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上醋火,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天悠汽,我揣著相機與錄音,去河邊找鬼芥驳。 笑死介粘,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的晚树。 我是一名探鬼主播姻采,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了慨亲?” 一聲冷哼從身側(cè)響起婚瓜,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎刑棵,沒想到半個月后巴刻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡蛉签,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年胡陪,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片碍舍。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡柠座,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出片橡,到底是詐尸還是另有隱情妈经,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布捧书,位于F島的核電站吹泡,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏经瓷。R本人自食惡果不足惜爆哑,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望舆吮。 院中可真熱鬧揭朝,春花似錦、人聲如沸歪泳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽呐伞。三九已至敌卓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間伶氢,已是汗流浹背趟径。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留癣防,地道東北人蜗巧。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像蕾盯,于是被迫代替她去往敵國和親幕屹。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容