Java學(xué)習(xí)筆記:十大數(shù)據(jù)挖掘算法
原文鏈接:https://blog.csdn.net/u014630431/article/details/78947653
數(shù)據(jù)挖掘基本任務(wù):分類與預(yù)測(cè)讳苦、聚類分析剃氧、關(guān)聯(lián)規(guī)則耍目、時(shí)序模式房交、偏差檢測(cè)、智能推薦等糙捺,幫助企業(yè)提取數(shù)據(jù)中蘊(yùn)含的商業(yè)價(jià)值诫咱,提高企業(yè)的競(jìng)爭(zhēng)力。
DM過(guò)程:
a.目標(biāo)定義(任務(wù)理解洪灯、指標(biāo)確定)
b.數(shù)據(jù)采集(建模抽樣坎缭、質(zhì)量把控竟痰、實(shí)時(shí)采集)
c.數(shù)據(jù)整理(數(shù)據(jù)探索、數(shù)據(jù)清洗掏呼、數(shù)據(jù)變換)
d.構(gòu)建模型(模式發(fā)現(xiàn)坏快、構(gòu)建模型、驗(yàn)證模型)
e.模型評(píng)價(jià)(設(shè)定評(píng)價(jià)標(biāo)準(zhǔn)憎夷、多模型對(duì)比莽鸿、模型優(yōu)化)
f.模型發(fā)布(模型部署、模型重構(gòu))
十大DM算法:
在香港舉辦的2006年度IEEE數(shù)據(jù)挖掘國(guó)際會(huì)議ICDM上拾给,與會(huì)專家遴選出了十個(gè)最有影響力的數(shù)據(jù)挖掘算法:C4.5祥得、k-means、SVM蒋得、Apriori级及、EM、PageRank额衙、AdaBoost饮焦、KNN、Na?veBayes和CART窍侧。
1县踢、k-means
k-means算法是一種常用的非監(jiān)督學(xué)習(xí)聚類算法,它的作用是在我們不知道有哪些類別的情況下疏之,將數(shù)據(jù)以K個(gè)類心殿雪,聚成K個(gè)聚類。通常我們會(huì)先確定一個(gè)相異度度量方法锋爪,常用的相異度有:歐式距離、曼哈頓距離爸业、馬氏距離其骄、余弦距離等。根據(jù)兩個(gè)數(shù)據(jù)間的“距離”來(lái)確定兩個(gè)數(shù)據(jù)之間的相異度扯旷。
k-means算法:
a 所有數(shù)據(jù)中取K個(gè)數(shù)據(jù)(可隨機(jī)拯爽,也可選定)作為K個(gè)聚類的初始類心。
b 遍歷所有數(shù)據(jù)钧忽,計(jì)算他們到K個(gè)類心的“距離”,并將其歸類到對(duì)應(yīng)“距離”最小的那個(gè)類心所在的聚類中毯炮。
c 根據(jù)聚類結(jié)果,重新計(jì)算K個(gè)聚類各自的中心耸黑,計(jì)算方法是取聚類中所有元素各自維度的算術(shù)平均數(shù)桃煎。
d 若新的類心與之前的類心不同,則重復(fù)b大刊、c步驟为迈,直到聚類結(jié)果不再變化。
e 將結(jié)果輸出。
相異度的計(jì)算:相異度就是兩個(gè)東西差別有多大葫辐。標(biāo)量搜锰、二元變量、分類變量耿战、序數(shù)變量蛋叼、向量的相異度有不同的計(jì)算方法。
A 標(biāo)量
歐幾里得距離:
曼哈頓距離:
閔可夫斯基距離:
歐氏距離和曼哈頓距離可以看做是閔可夫斯基距離在p=2和p=1下的特例.
下面要說(shuō)一下標(biāo)量的規(guī)格化問(wèn)題剂陡。上面這樣計(jì)算相異度的方式有一點(diǎn)問(wèn)題鸦列,就是取值范圍大的屬性對(duì)距離的影響高于取值范圍小的屬性。例如上述例子中第三個(gè)屬性的取值跨度遠(yuǎn)大于前兩個(gè)鹏倘,這樣不利于真實(shí)反映真實(shí)的相異度薯嗤,為了解決這個(gè)問(wèn)題,一般要對(duì)屬性值進(jìn)行規(guī)格化纤泵。所謂規(guī)格化就是將各個(gè)屬性值按比例映射到相同的取值區(qū)間骆姐,這樣是為了平衡各個(gè)屬性對(duì)距離的影響。通常將各個(gè)屬性均映射到[0,1]區(qū)間捏题,映射公式為:
其中max(ai)和min(ai)表示所有元素項(xiàng)中第i個(gè)屬性的最大值和最小值玻褪。
B 二元變量
所謂二元變量是只能取0和1兩種值變量,有點(diǎn)類似布爾值公荧,通常用來(lái)標(biāo)識(shí)是或不是這種二值屬性带射,相異度可用“取值不同的同位屬性數(shù)/單個(gè)元素的屬性位數(shù)”,或者非對(duì)稱二元相異度“取值不同的同位屬性數(shù)/(單個(gè)元素的屬性位數(shù)-同取0的位數(shù))”來(lái)標(biāo)識(shí)相異度循狰。
C 分類變量
分類變量是二元變量的推廣窟社,類似于程序中的枚舉變量,但各個(gè)值沒有數(shù)字或序數(shù)意義绪钥,如顏色灿里、民族等等,對(duì)于分類變量程腹,用“取值不同的同位屬性數(shù)/單個(gè)元素的全部屬性數(shù)”來(lái)標(biāo)識(shí)其相異度匣吊。
D 序數(shù)變量
序數(shù)變量是具有序數(shù)意義的分類變量,通炒缌剩可以按照一定順序意義排列色鸳,如冠軍、亞軍和季軍见转。對(duì)于序數(shù)變量命雀,一般為每個(gè)值分配一個(gè)數(shù),叫做這個(gè)值的秩池户,然后以秩代替原值當(dāng)做標(biāo)量屬性計(jì)算相異度咏雌。
E 向量
對(duì)于向量凡怎,由于它不僅有大小而且有方向,所以閔可夫斯基距離不是度量其相異度的好辦法赊抖,一種流行的做法是用兩個(gè)向量的余弦度量统倒,其度量公式為:
其中||X||表示X的歐幾里得范數(shù)(
)。要注意氛雪,余弦度量度量的不是兩者的相異度房匆,而是相似度!
2报亩、Apriori
Apriori是最經(jīng)典的關(guān)聯(lián)規(guī)則算法浴鸿,它的作用是依據(jù)數(shù)據(jù),挖掘各個(gè)事物之間的可能關(guān)聯(lián)(eg:啤酒尿布問(wèn)題)弦追。Apriori算法使用頻繁項(xiàng)集的先驗(yàn)知識(shí)岳链,使用一種稱作逐層搜索的迭代方法妓忍,k項(xiàng)集用于探索(k+1)項(xiàng)集哥力。首先,通過(guò)掃描事務(wù)(交易)記錄筋栋,找出所有的頻繁1項(xiàng)集零远,該集合記做L1苗分,然后利用L1找頻繁2項(xiàng)集的集合L2,L2找L3牵辣,如此下去摔癣,直到不能再找到任何頻繁k項(xiàng)集。最后再在所有的頻繁集中找出強(qiáng)規(guī)則纬向,即產(chǎn)生用戶感興趣的關(guān)聯(lián)規(guī)則择浊。
定理1:如果一個(gè)項(xiàng)集是頻繁的,那么其所有的子集(subsets)也一定是頻繁的罢猪。
定理2:如果一個(gè)項(xiàng)集是非頻繁的近她,那么其所有的超集(supersets)也一定是非頻繁的。
定理3:如果規(guī)則X?Y?X不滿足置信度閾值膳帕,則對(duì)于X的子集X′,規(guī)則X′?Y?X′也不滿足置信度閾值薇缅。
Apriori算法:
Apriori算法采用連接步和剪枝步兩種方式來(lái)找出所有的頻繁項(xiàng)集危彩。
這條關(guān)聯(lián)規(guī)則的支持度:support = P(A并B)
這條關(guān)聯(lián)規(guī)則的置信度:confidence= support(A并B)/suport(A)
1) 連接步
為找出Lk(所有的頻繁k項(xiàng)集的集合),通過(guò)將Lk-1(所有的頻繁k-1項(xiàng)集的集合)與自身連接產(chǎn)生候選k項(xiàng)集的集合泳桦。候選集合記作Ck汤徽。設(shè)l1和l2是Lk-1中的成員。記li[j]表示li中的第j項(xiàng)灸撰。假設(shè)Apriori算法對(duì)事務(wù)或項(xiàng)集中的項(xiàng)按字典次序排序谒府,即對(duì)于(k-1)項(xiàng)集li拼坎,li[1] <li[2]<……….li[k-1]。將Lk-1與自身連接完疫,如果(l1[1]=l2[1])&&(l1[2]=l2[2])&&……..&& (l1[k-2]=l2[k-2])&&(l1[k-1]<l2[k-1])泰鸡,那認(rèn)為l1和l2是可連接。連接l1和l2 產(chǎn)生的結(jié)果是{l1[1],l1[2],……,l1[k-1],l2[k-1]}壳鹤。
2) 剪枝步
CK是LK的超集盛龄,也就是說(shuō),CK的成員可能是也可能不是頻繁的芳誓。通過(guò)掃描所有的事務(wù)(交易)余舶,確定CK中每個(gè)候選的計(jì)數(shù),判斷是否小于最小支持度計(jì)數(shù)锹淌,如果不是匿值,則認(rèn)為該候選是頻繁的。為了壓縮Ck,可以利用Apriori性質(zhì):任一頻繁項(xiàng)集的所有非空子集也必須是頻繁的赂摆,反之挟憔,如果某個(gè)候選的非空子集不是頻繁的,那么該候選肯定不是頻繁的库正,從而可以將其從CK中刪除曲楚。
(Tip:為什么要壓縮CK呢?因?yàn)閷?shí)際情況下事務(wù)記錄往往是保存在外存儲(chǔ)上褥符,比如數(shù)據(jù)庫(kù)或者其他格式的文件上龙誊,在每次計(jì)算候選計(jì)數(shù)時(shí)都需要將候選與所有事務(wù)進(jìn)行比對(duì),眾所周知喷楣,訪問(wèn)外存的效率往往都比較低趟大,因此Apriori加入了所謂的剪枝步,事先對(duì)候選集進(jìn)行過(guò)濾铣焊,以減少訪問(wèn)外存的次數(shù)逊朽。可能產(chǎn)生大量的候選集曲伊,以及可能需要重復(fù)掃描數(shù)據(jù)庫(kù)叽讳,是Apriori算法的兩大缺點(diǎn)。)
eg:
3坟募、Na?ve Bayes(樸素貝葉斯)
樸素貝葉斯是很經(jīng)典的統(tǒng)計(jì)分類方法岛蚤,屬于監(jiān)督學(xué)習(xí),它的理論依據(jù)是貝葉斯原理懈糯。
即
涤妒,也是最為簡(jiǎn)單的貝葉斯分類器。
叫它樸素貝葉斯分類是因?yàn)檫@種方法的思想真的很樸素赚哗,樸素貝葉斯的思想基礎(chǔ)是這樣的:對(duì)于給出的待分類項(xiàng)她紫,求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率硅堆,哪個(gè)最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別贿讹。通俗來(lái)說(shuō)渐逃,就好比這么個(gè)道理,你在街上看到一個(gè)黑人围详,我問(wèn)你你猜這哥們哪里來(lái)的朴乖,你十有八九猜非洲。為什么呢助赞?因?yàn)楹谌酥蟹侵奕说谋嚷首罡呗蛐撸?dāng)然人家也可能是美洲人或亞洲人,但在沒有其它可用信息下雹食,我們會(huì)選擇條件概率最大的類別畜普,這就是樸素貝葉斯的思想基礎(chǔ)。
NaiveBayes算法:
A 假設(shè)有一個(gè)可由n個(gè)獨(dú)立屬性表示的待分類項(xiàng)
其中
為n個(gè)獨(dú)立屬性.
B 已知有m個(gè)類別
C 求條件概率
D 取上面條件概率的最大值群叶,其對(duì)應(yīng)的類別即為待分類項(xiàng)所在的類別
可見吃挑,條件概率的計(jì)算是算法中的關(guān)鍵與難點(diǎn),這個(gè)時(shí)候就需要用到貝葉斯公式了街立。假設(shè)我們有一定量的訓(xùn)練樣本舶衬,其中是已經(jīng)分類過(guò)的待分類項(xiàng)。下面是條件概率的計(jì)算步驟:
A 統(tǒng)計(jì)計(jì)算每個(gè)類別的頻率赎离,即
B 統(tǒng)計(jì)計(jì)算每個(gè)特征屬性在每個(gè)類別中的條件概率逛犹,即
C 以及貝葉斯公式可得
(一個(gè)屬性下某類別的概率 = 某類別的概率*某類別下此屬性的概率/此屬性在所有類別下的概率總和)
又因?yàn)閷傩?div id="qujjel7" class="image-package">
image
相互獨(dú)立,可得
另外根據(jù)全概率公式可知
根據(jù)以上公式梁剔,即可求得待分類項(xiàng)對(duì)于每個(gè)類別的條件概率虽画。
實(shí)驗(yàn)上,我們通常用一部分?jǐn)?shù)據(jù)作為訓(xùn)練樣本荣病,用一部分?jǐn)?shù)據(jù)作為測(cè)試樣本码撰,以避免過(guò)度擬合。理論上說(shuō)个盆,樸素貝葉斯的分類效果應(yīng)該優(yōu)于決策樹分類的脖岛,但是實(shí)際生活中樸素貝葉斯的效果卻不太理想,因?yàn)楹茈y保證各特征屬性相互獨(dú)立颊亮。
樸素貝葉斯的分類流程:
4鸡岗、KNN(K近鄰算法)
KNN(K Nearest Neighbor)算法與K-Means算法有相似之處,但是KNN算法嚴(yán)格來(lái)說(shuō)是一種歸類算法编兄,應(yīng)屬于半監(jiān)督學(xué)習(xí)。KNN算法算是最簡(jiǎn)單的歸類算法了声登,這個(gè)算法是機(jī)器學(xué)習(xí)里面一個(gè)比較經(jīng)典的算法狠鸳, 總體來(lái)說(shuō)KNN算法是相對(duì)比較容易理解的算法揣苏。其中的K表示最接近自己的K個(gè)數(shù)據(jù)樣本。KNN算法和K-Means算法不同的是件舵,K-Means算法用來(lái)聚類卸察,用來(lái)判斷哪些東西是一個(gè)比較相近的類型,而KNN算法是用來(lái)做歸類的铅祸,也就是說(shuō)坑质,有一個(gè)樣本空間里的樣本分成很幾個(gè)類型,然后临梗,給定一個(gè)待分類的數(shù)據(jù)涡扼,通過(guò)計(jì)算接近自己最近的K個(gè)樣本來(lái)判斷這個(gè)待分類數(shù)據(jù)屬于哪個(gè)分類。你可以簡(jiǎn)單的理解為由那離自己最近的K個(gè)點(diǎn)來(lái)投票決定待分類數(shù)據(jù)歸為哪一類盟庞。
與K-means算法相同吃沪,這里面同樣涉及到了相異度度量的問(wèn)題,我們需要設(shè)定一個(gè)度量想法來(lái)確定兩個(gè)項(xiàng)之間的相異度什猖,如票彪,歐氏距離,余弦距離不狮,曼哈頓距離等降铸。
wikipedia官方解釋上有這樣一張圖片:
問(wèn)其中帶問(wèn)號(hào)的點(diǎn)屬于什么類別,
· 當(dāng)K==3,那么我們統(tǒng)計(jì)得到摇零,離帶問(wèn)號(hào)的點(diǎn)最接近的3個(gè)點(diǎn)中2個(gè)紅色三角推掸,1個(gè)藍(lán)色正方,那么根據(jù)KNN算法遂黍,該點(diǎn)與紅色三角屬于同一類別终佛。
· 當(dāng)K==5,那么我們統(tǒng)計(jì)得到,離帶問(wèn)號(hào)的點(diǎn)最接近的3個(gè)點(diǎn)中2個(gè)紅色三角雾家,3個(gè)藍(lán)色正方铃彰,那么根據(jù)KNN算法,該點(diǎn)與藍(lán)色正方屬于同一類別芯咧。
由此可見牙捉,K的取值對(duì)于待分類項(xiàng)是一個(gè)關(guān)鍵問(wèn)題
· 如果選擇較小的K值,就相當(dāng)于用較小的領(lǐng)域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)敬飒,“學(xué)習(xí)”近似誤差會(huì)減小邪铲,只有與輸入實(shí)例較近或相似的訓(xùn)練實(shí)例才會(huì)對(duì)預(yù)測(cè)結(jié)果起作用,與此同時(shí)帶來(lái)的問(wèn)題是“學(xué)習(xí)”的估計(jì)誤差會(huì)增大无拗,換句話說(shuō)带到,K值的減小就意味著整體模型變得復(fù)雜,容易發(fā)生過(guò)擬合英染;
· 如果選擇較大的K值揽惹,就相當(dāng)于用較大領(lǐng)域中的訓(xùn)練實(shí)例進(jìn)行預(yù)測(cè)被饿,其優(yōu)點(diǎn)是可以減少學(xué)習(xí)的估計(jì)誤差,但缺點(diǎn)是學(xué)習(xí)的近似誤差會(huì)增大搪搏。這時(shí)候狭握,與輸入實(shí)例較遠(yuǎn)(不相似的)訓(xùn)練實(shí)例也會(huì)對(duì)預(yù)測(cè)器作用,使預(yù)測(cè)發(fā)生錯(cuò)誤疯溺,且K值的增大就意味著整體的模型變得簡(jiǎn)單论颅。
· K=N,則完全不足取囱嫩,因?yàn)榇藭r(shí)無(wú)論輸入實(shí)例是什么恃疯,都只是簡(jiǎn)單的預(yù)測(cè)它屬于在訓(xùn)練實(shí)例中最多的累,模型過(guò)于簡(jiǎn)單挠说,忽略了訓(xùn)練實(shí)例中大量有用信息澡谭。
5、SVM(支持向量機(jī)算法)
支持向量機(jī)算法應(yīng)用領(lǐng)域十分廣泛损俭,圖像分類蛙奖,數(shù)據(jù)分類,統(tǒng)計(jì)回歸等等杆兵,是十分經(jīng)典的監(jiān)督式學(xué)習(xí)算法雁仲。
最簡(jiǎn)單的SVM分類就是線性分類,如下圖
這個(gè)圖大家應(yīng)該都不陌生琐脏,就是用一個(gè)線性方程將所有數(shù)據(jù)分為兩類攒砖,當(dāng)然這也是最簡(jiǎn)單的情況了,況且就算這樣簡(jiǎn)單的情況下日裙,線性方程也仍然不唯一吹艇,如下圖
哪種分法最好呢?昂拂?一般來(lái)說(shuō)受神,能夠與兩個(gè)類別的界限越明晰,分類越好格侯,怎么理解鼻听,如下圖
藍(lán)點(diǎn)和紅點(diǎn)分別是兩個(gè)類別中距離分類線最近的點(diǎn),它們與分類線的距離越大联四,那么分類效果就越好撑碴,這幾個(gè)點(diǎn)就是支持向量。這個(gè)原則也也成為Maximum Marginal(最大間距)朝墩,是SVM的一個(gè)理論基礎(chǔ)之一醉拓。
當(dāng)然你一定也想到了,當(dāng)所有的點(diǎn)并不能用一條線分類的時(shí)候怎么辦,就如下面的圖
左邊的圖明顯不能用一條直線劃分廉嚼,這個(gè)時(shí)候玫镐,我們有兩種選擇
a. 將數(shù)據(jù)從原來(lái)的線性空間投射到高維的空間里,并在高維的空間里進(jìn)行超平面劃分怠噪,如果還是不行,就向更高維空間投射(記得看過(guò)一本書說(shuō)總能在某一個(gè)高維空間進(jìn)行劃分杜跷,不知道是否嚴(yán)謹(jǐn))傍念,關(guān)于投射變換,就跟核函數(shù)有關(guān)系葛闷,核函數(shù)有很多種
b. 依舊使用線性劃分憋槐,但是允許誤差,這里面又會(huì)引入懲罰函數(shù)的概念
** 6淑趾、Decision Tree(決策樹算法)**
** 決策樹**(decision tree)是一個(gè)樹結(jié)構(gòu)(可以是二叉樹或非二叉樹)阳仔。其每個(gè)非葉節(jié)點(diǎn)表示一個(gè)特征屬性上的測(cè)試,每個(gè)分支代表這個(gè)特征屬性在某個(gè)值域上的輸出扣泊,而每個(gè)葉節(jié)點(diǎn)存放一個(gè)類別近范。使用決策樹進(jìn)行決策的過(guò)程就是從根節(jié)點(diǎn)開始,測(cè)試待分類項(xiàng)中相應(yīng)的特征屬性延蟹,并按照其值選擇輸出分支评矩,直到到達(dá)葉子節(jié)點(diǎn),將葉子節(jié)點(diǎn)存放的類別作為決策結(jié)果阱飘。
決策樹在決策分析與風(fēng)險(xiǎn)評(píng)估等領(lǐng)域有十分廣泛的應(yīng)用斥杜,屬于監(jiān)督學(xué)習(xí),它在一定程度上可以作為趨勢(shì)探測(cè)沥匈。樸素貝葉斯分類與貝葉斯網(wǎng)絡(luò)兩種分類算法都以貝葉斯定理為基礎(chǔ)蔗喂,可以對(duì)分類及決策問(wèn)題進(jìn)行概率推斷。相比貝葉斯算法高帖,決策樹的優(yōu)勢(shì)在于構(gòu)造過(guò)程不需要任何領(lǐng)域知識(shí)或參數(shù)設(shè)置缰儿,因此在實(shí)際應(yīng)用中,對(duì)于探測(cè)式的知識(shí)發(fā)現(xiàn)棋恼,決策樹更加適用返弹。
如下圖是預(yù)測(cè)一個(gè)人是否擁有電腦的簡(jiǎn)單決策樹模型:
這種圖相信大家都一眼能夠看懂,在建立這個(gè)樹的時(shí)候爪飘,我們假設(shè)每個(gè)數(shù)據(jù)項(xiàng)都有屬性“年齡”义起,“是否學(xué)生”,“信用等級(jí)”等特征屬性师崎,那么我們?cè)诮涞臅r(shí)候默终,就需要考慮每到一個(gè)結(jié)點(diǎn)應(yīng)該使用什么屬性合適。這里就要引入三個(gè)概念,一個(gè)是“熵”齐蔽,一個(gè)是“期望熵”两疚,另一個(gè)是“信息增益”:
· 熵:熵是接收的每條消息中包含的信息的平均量,信息論中含滴,熵的計(jì)算方法是:
诱渤,其中P(xi)是指第i個(gè)類別在整個(gè)訓(xùn)練樣本中的比例
· 期望熵:我們以屬性A對(duì)訓(xùn)練樣本進(jìn)行劃分,那么期望熵即為
谈况,按照屬性A勺美,訓(xùn)練樣本可以劃分為v個(gè)類別。
· 信息增益:兩個(gè)概率分布相異度的一種度量碑韵,非對(duì)稱的(來(lái)之維基百科)赡茸,其定義
,對(duì)于分類來(lái)講,信息增益越大分類效果越好祝闻,決策樹也就越簡(jiǎn)潔占卧。就比如兩個(gè)分類,我們以天氣來(lái)決策是否出去:1.不下雨就出去联喘,下雨就不出去华蜒。2.不下雨可能出去可能不出去,不下雨就不出去耸袜。那么分類1就會(huì)比分類2的效果好一點(diǎn)友多,對(duì)于天氣這個(gè)屬性來(lái)說(shuō),分類1的信息增益也會(huì)比分類2的信息增益大堤框。
由上面我們可以知道域滥,在每次選擇屬性作為決策結(jié)點(diǎn)時(shí),我們通常選擇當(dāng)前信息增益最大的屬性蜈抓。這也是數(shù)據(jù)挖掘領(lǐng)域經(jīng)典的ID3算法启绰。
ID3算法的一個(gè)缺陷就是偏向于選擇取值多的屬性。為了解決這個(gè)問(wèn)題沟使,又引入了C4.5算法委可,其基于ID3算法做了部分改進(jìn),其中最主要的一條就是將信息增益換做了增益率來(lái)選擇屬性作為決策結(jié)點(diǎn)腊嗡。
C4.5算法首先定義了“分裂信息”着倾,其定義可以表示成:
設(shè)D為用類別對(duì)訓(xùn)練元組進(jìn)行的劃分,然后燕少,增益率被定義為:
C4.5選擇具有最大增益率的屬性作為分裂屬性卡者,其具體應(yīng)用與ID3類似
另外,決策樹模型在應(yīng)用的時(shí)候客们,也常和啟發(fā)式方法結(jié)合崇决,可以達(dá)到優(yōu)化的效果材诽。
在決策樹構(gòu)造過(guò)程中可能會(huì)出現(xiàn)這種情況:所有屬性都作為分裂屬性用光了,但有的子集還不是純凈集恒傻,即集合內(nèi)的元素不屬于同一類別脸侥。在這種情況下,由于沒有更多信息可以使用了盈厘,一般對(duì)這些子集進(jìn)行“多數(shù)表決”睁枕,即使用此子集中出現(xiàn)次數(shù)最多的類別作為此節(jié)點(diǎn)類別,然后將此節(jié)點(diǎn)作為葉子節(jié)點(diǎn)扑庞。
在實(shí)際構(gòu)造決策樹時(shí)譬重,通常要進(jìn)行剪枝,這時(shí)為了處理由于數(shù)據(jù)中的噪聲和離群點(diǎn)導(dǎo)致的過(guò)分?jǐn)M合問(wèn)題罐氨。剪枝有兩種:
先剪枝——在構(gòu)造過(guò)程中,當(dāng)某個(gè)節(jié)點(diǎn)滿足剪枝條件滩援,則直接停止此分支的構(gòu)造栅隐。
后剪枝——先構(gòu)造完成完整的決策樹,再通過(guò)某些條件遍歷樹進(jìn)行剪枝玩徊。
7租悄、EM算法(最大期望算法)
EM算法預(yù)備知識(shí):
- 極大似然估計(jì)
極大似然估計(jì)就是用來(lái)估計(jì)模型參數(shù)的統(tǒng)計(jì)學(xué)方法。
eg: 經(jīng)典問(wèn)題——學(xué)生身高問(wèn)題
我們需要調(diào)查我們學(xué)校的男生和女生的身高分布恩袱。 假設(shè)你在校園里隨便找了100個(gè)男生和100個(gè)女生泣棋。他們共200個(gè)人。將他們按照性別劃分為兩組畔塔,然后先統(tǒng)計(jì)抽樣得到的100個(gè)男生的身高潭辈。假設(shè)他們的身高是服從高斯分布的。但是這個(gè)分布的均值u和方差?2我們不知道澈吨,這兩個(gè)參數(shù)就是我們要估計(jì)的把敢。記作θ=[u, ?]T。
問(wèn)題:我們知道樣本所服從的概率分布的模型和一些樣本谅辣,而不知道該模型中的參數(shù)修赞。
問(wèn)題數(shù)學(xué)化:(1)樣本集X={x1,x2,…,xN} N=100(2)概率密度:p(xi|θ)抽到男生i(的身高)的概率 100個(gè)樣本之間獨(dú)立同分布,所以我同時(shí)抽到這100個(gè)男生的概率就是他們各自概率的乘積桑阶。就是從分布是p(x|θ)的總體樣本中抽取到這100個(gè)樣本的概率柏副,也就是樣本集X中各個(gè)樣本的聯(lián)合概率,用下式表示:
這個(gè)概率反映了蚣录,在概率密度函數(shù)的參數(shù)是θ時(shí)割择,得到X這組樣本的概率。需要找到一個(gè)參數(shù)θ包归,其對(duì)應(yīng)的似然函數(shù)L(θ)最大锨推,也就是說(shuō)抽到這100個(gè)男生(的身高)概率最大铅歼。這個(gè)叫做θ的最大似然估計(jì)量,記為
求最大似然函數(shù)估計(jì)值的一般步驟
首先换可,寫出似然函數(shù):
其次椎椰,對(duì)似然函數(shù)取對(duì)數(shù),并整理:
然后沾鳄,求導(dǎo)數(shù)慨飘,令導(dǎo)數(shù)為0,得到似然方程译荞;
最后瓤的,解似然方程,得到的參數(shù)即為所求吞歼。
總結(jié):多數(shù)情況下我們是根據(jù)已知條件來(lái)推算結(jié)果圈膏,而極大似然估計(jì)是已經(jīng)知道了結(jié)果,然后尋求使該結(jié)果出現(xiàn)的可能性最大的條件篙骡,以此作為估計(jì)值稽坤。
2)** Jensen****不等式**
凸函數(shù):設(shè)f是定義域?yàn)閷?shí)數(shù)的函數(shù),如果對(duì)于所有的實(shí)數(shù)x糯俗,f(x)的二次導(dǎo)數(shù)大于等于0尿褪,那么f是凸函數(shù)(數(shù)學(xué)中是凸)。
Jensen不等式表述如下:如果f是凸函數(shù)得湘,X是隨機(jī)變量杖玲,那么E[f(X)]>=f(E[X])。當(dāng)且僅當(dāng)X是常量時(shí)淘正,上式取等號(hào)摆马。
eg:
圖中,實(shí)線f是凸函數(shù)跪帝,X是隨機(jī)變量今膊,有0.5的概率是a,有0.5的概率是b伞剑。X的期望值就是a和b的中值了斑唬,圖中可以看到E[f(X)]>=f(E[X])成立。
Jensen不等式應(yīng)用于凹函數(shù)時(shí)黎泣,不等號(hào)方向反向恕刘。
傳統(tǒng)EM算法詳述:
eg:我們抽取的100個(gè)男生和100個(gè)女生樣本的身高,但是我們不知道抽取的那200個(gè)人里面的每一個(gè)人到底是從男生的那個(gè)身高分布里面抽取的抒倚,還是女生的那個(gè)身高分布抽取的褐着。用數(shù)學(xué)的語(yǔ)言就是,抽取得到的每個(gè)樣本都不知道是從哪個(gè)分布抽取的托呕。這個(gè)時(shí)候含蓉,對(duì)于每一個(gè)樣本频敛,就有兩個(gè)東西需要猜測(cè)或者估計(jì):(1)這個(gè)人是男的還是女的匙监?(2)男生和女生對(duì)應(yīng)的身高的高斯分布的參數(shù)是多少洋只?
EM算法要解決的問(wèn)題是:(1)求出每一個(gè)樣本屬于哪個(gè)分布(2)求出每一個(gè)分布對(duì)應(yīng)的參數(shù)
身高問(wèn)題使用EM算法求解步驟:
(1)初始化參數(shù):先初始化男生身高的正態(tài)分布的參數(shù):如均值=1.7秋度,方差=0.1
(2)計(jì)算每一個(gè)人更可能屬于男生分布或者女生分布侠碧;
(3)通過(guò)分為男生的n個(gè)人來(lái)重新估計(jì)男生身高分布的參數(shù)(最大似然估計(jì)),女生分布也按照相同的方式估計(jì)出來(lái)驶冒,更新分布殊轴。
(4)這時(shí)候兩個(gè)分布的概率也變了嚎杨,然后重復(fù)步驟(1)至(3)蓄喇,直到參數(shù)不發(fā)生變化為止发侵。
算法推導(dǎo):
已知:樣本集X={x(1),…,x(m)},包含m個(gè)獨(dú)立的樣本妆偏;
未知:每個(gè)樣本i對(duì)應(yīng)的類別z(i)是未知的(相當(dāng)于聚類)刃鳄;
輸出:我們需要估計(jì)概率模型p(x,z)的參數(shù)θ;
目標(biāo):找到適合的θ和z讓L(θ)最大钱骂。
要使L(θ)最大铲汪,我們可以不斷最大化下界J,來(lái)使得L(θ)不斷提高罐柳,達(dá)到最大值。
問(wèn)題:
什么時(shí)候下界J(z,Q)與L(θ)在此點(diǎn)θ處相等狰住?
根據(jù)Jensen不等式张吉,自變量X是常數(shù),等式成立催植。即:
由于
肮蛹,則可以得到:分子的和等于c
在固定參數(shù)θ后,使下界拉升的Q(z)的計(jì)算公式创南,解決了Q(z)如何選擇的問(wèn)題伦忠。這一步就是E步,建立L(θ)的下界稿辙。接下來(lái)的M步昆码,就是在給定Q(z)后,調(diào)整θ邻储,去極大化L(θ)的下界J赋咽。
算法流程:
1)初始化分布參數(shù)θ;重復(fù)以下步驟直到收斂:
E步驟:根據(jù)參數(shù)初始值或上一次迭代的模型參數(shù)來(lái)計(jì)算出隱性變量的后驗(yàn)概率吨娜,其實(shí)就是隱性變量的期望脓匿。作為隱藏變量的現(xiàn)估計(jì)值:
M步驟:將似然函數(shù)最大化以獲得新的參數(shù)值:
總結(jié):期望最大算法(EM算法)是一種從不完全數(shù)據(jù)或有數(shù)據(jù)丟失的數(shù)據(jù)集(存在隱含變量)中求解概率模型參數(shù)的最大似然估計(jì)方法。傳統(tǒng)的EM算法對(duì)初始值敏感宦赠,聚類結(jié)果隨不同的初始值而波動(dòng)較大陪毡∶啄福總的來(lái)說(shuō),EM算法收斂的優(yōu)劣很大程度上取決于其初始參數(shù)毡琉。
eg:
這是一個(gè)拋硬幣的例子铁瞒,H表示正面向上,T表示反面向上绊起,參數(shù)θ表示正面朝上的概率精拟。硬幣有兩個(gè),A和B虱歪,硬幣是有偏的蜂绎。本次實(shí)驗(yàn)總共做了5組,每組隨機(jī)選一個(gè)硬幣笋鄙,連續(xù)拋10次师枣。如果知道每次拋的是哪個(gè)硬幣,那么計(jì)算參數(shù)θ就非常簡(jiǎn)單了萧落,如上圖所示践美。
如果不知道每次拋的是哪個(gè)硬幣呢?那么找岖,我們就需要用EM算法陨倡,基本步驟為:1、給θA和θB一個(gè)初始值许布;2兴革、(E-step)估計(jì)每組實(shí)驗(yàn)是硬幣A的概率(本組實(shí)驗(yàn)是硬幣B的概率=1-本組實(shí)驗(yàn)是硬幣A的概率)。分別計(jì)算每組實(shí)驗(yàn)中蜜唾,選擇A硬幣且正面朝上次數(shù)的期望值杂曲,選擇B硬幣且正面朝上次數(shù)的期望值;3袁余、(M-step)利用第三步求得的期望值重新計(jì)算θA和θB擎勘;4、當(dāng)?shù)揭欢ù螖?shù)颖榜,或者算法收斂到一定精度棚饵,結(jié)束算法,否則朱转,回到第2步蟹地。
稍微解釋一下上圖的計(jì)算過(guò)程。初始值θA=0.6,θB=0.5藤为。
圖中的0.45是怎么得來(lái)的呢怪与?由兩個(gè)硬幣的初始值0.6和0.5,容易得出投擲出5正5反的概率是pA=C(10,5)(0.6^5)(0.45)缅疟,pB=C(10,5)*(0.55)*(0.5^5), pA/(pA+pB)=0.449, 0.45就是0.449近似而來(lái)的分别,表示第一組實(shí)驗(yàn)選擇的硬幣是A的概率為0.45遍愿。圖中的2.2H,2.2T是怎么得來(lái)的呢耘斩? 0.449 * 5H = 2.2H 沼填,0.449 * 5T = 2.2T,表示第一組實(shí)驗(yàn)選擇A硬幣且正面朝上次數(shù)的期望值是2.2括授。其他的值依次類推坞笙。
8、AdaBoost算法
<pre style="box-sizing: border-box; outline: 0px; margin: 0px 0px 24px; padding: 8px; font-weight: 400; position: relative; font-family: Consolas, Inconsolata, Courier, monospace; white-space: pre-wrap; overflow-wrap: break-word; overflow-x: auto; font-size: 14px; line-height: 22px; color: rgb(0, 0, 0); font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; letter-spacing: normal; orphans: 2; text-align: start; text-indent: 0px; text-transform: none; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; text-decoration-style: initial; text-decoration-color: initial; background: rgb(255, 255, 255);">Adaboost(Adaptive Boosting)算法是boost算法中最為經(jīng)典的算法了荚虚,也是分類效果很好的監(jiān)督式學(xué)習(xí)算法薛夜。“boost”顧名思義就是“提升”的意思版述,將弱分類器提升為強(qiáng)分類器梯澜,它的核心思想先針對(duì)同一訓(xùn)練集訓(xùn)練出一定量的弱分類器,然后將這些弱分類器集合成一個(gè)強(qiáng)分類器渴析。 下圖是Adaboost算法的官方說(shuō)明:</pre>
y1...yn是n個(gè)弱分類器晚伙,通過(guò)一定方式合并可以得到強(qiáng)分類器YM,當(dāng)然每個(gè)弱分類器的貢獻(xiàn)度不同俭茧。一般來(lái)說(shuō)咆疗,越到后面的弱分類器貢獻(xiàn)度應(yīng)該越高。 為什么呢母债?舉個(gè)例子民傻,y2的獲得與y1參與有關(guān),我們?cè)谟?xùn)練某個(gè)弱分類器的時(shí)候场斑,對(duì)于它之前的弱分類器訓(xùn)練錯(cuò)誤的數(shù)據(jù),我們將加大他們的權(quán)重牵署,著重訓(xùn)練漏隐。而對(duì)于訓(xùn)練正確的數(shù)據(jù),我們就會(huì)減小權(quán)重奴迅。也就是說(shuō)青责,后面訓(xùn)練成的分類器,一定程度上“學(xué)習(xí)了它之前的分類器”取具,這又是adaboost的另一個(gè)理論基礎(chǔ)脖隶。
算法具體過(guò)程:
a初始化所有訓(xùn)練樣例的權(quán)重為1 / N,其中N是樣例數(shù)
b for m=1,……M:
1).訓(xùn)練弱分類器ym(),使其最小化權(quán)重誤差函數(shù)(在訓(xùn)練數(shù)據(jù)集上的誤差率等于將這幾個(gè)數(shù)據(jù)的權(quán)值相加)(weightederror function):
2)接下來(lái)計(jì)算該弱分類器的話語(yǔ)權(quán)α(在最終分類器中所占的權(quán)重暇检,誤差率低的弱分類器在最終分類器中占的權(quán)重較大):
3)更新訓(xùn)練樣本的權(quán)值分布:
其中Zm:
是規(guī)范化因子产阱,使所有w的和為1。(這里比較懵)
c最后块仆,按弱分類器權(quán)重組合各個(gè)弱分類器构蹬,通過(guò)符號(hào)函數(shù)sign的作用得到一個(gè)強(qiáng)分類器:
算法實(shí)例:http://blog.csdn.net/gyqjn/article/details/45501185
9王暗、PageRank算法
PageRank算法被廣泛應(yīng)用于信息檢索等領(lǐng)域,這和TF-IDF算法一樣庄敛,但是他們之間又有本質(zhì)的區(qū)別俗壹。
PageRank是用來(lái)對(duì)網(wǎng)頁(yè)進(jìn)行排序的,我們?cè)谑褂盟阉饕娴臅r(shí)候藻烤,會(huì)先輸入搜索語(yǔ)句绷雏,通常會(huì)檢索出成千上萬(wàn)個(gè)結(jié)果,每一個(gè)結(jié)果都對(duì)應(yīng)一個(gè)網(wǎng)頁(yè)怖亭,我們自然是不可能打開每個(gè)網(wǎng)頁(yè)查看涎显。這個(gè)時(shí)候,這些檢索出來(lái)的網(wǎng)頁(yè)排序就顯得即為重要依许,因?yàn)榘凑找话闳肆?xí)慣棺禾,最多只會(huì)點(diǎn)進(jìn)排名靠前的幾個(gè)或者十幾個(gè)網(wǎng)頁(yè)。如果你排名靠前的網(wǎng)頁(yè)內(nèi)容不相關(guān)或質(zhì)量較差峭跳,會(huì)極大地影響用戶體驗(yàn)膘婶。
PageRank中的“Page”并不是網(wǎng)頁(yè)的意思,而是這個(gè)算法創(chuàng)始人的名字佩奇蛀醉,也是谷歌創(chuàng)始人之一悬襟。這個(gè)算法使得當(dāng)時(shí)的谷歌從眾多的搜索引擎中脫穎而出,成為它的制勝法寶拯刁。直到現(xiàn)在脊岳,這個(gè)算法通過(guò)不斷改進(jìn),也成為各大搜索引擎核心理論基礎(chǔ)垛玻。
在這個(gè)算法出現(xiàn)之前割捅,TF-IDF算法為通用的算法,通過(guò)關(guān)鍵字出現(xiàn)頻率等對(duì)網(wǎng)頁(yè)進(jìn)行排序帚桩,導(dǎo)致很多網(wǎng)頁(yè)開發(fā)商為了瀏覽量大量刷新熱點(diǎn)詞等亿驾。導(dǎo)致檢索出來(lái)的網(wǎng)頁(yè)質(zhì)量都較差。
PangRank算法的核心思想就是一種自動(dòng)投票機(jī)制账嚎,與學(xué)術(shù)引用機(jī)制相仿莫瞬,一篇論文被別的論文引用次數(shù)越多,說(shuō)明這個(gè)論文質(zhì)量越高郭蕉,越權(quán)威疼邀。相似的,一個(gè)網(wǎng)頁(yè)被鏈接得越多召锈,說(shuō)明這個(gè)網(wǎng)頁(yè)越加被其他網(wǎng)頁(yè)信任旁振,他的質(zhì)量就會(huì)更高。如果它也是被檢索出的網(wǎng)頁(yè)之一,那么在排序時(shí)规求,這個(gè)網(wǎng)頁(yè)就能獲得較高權(quán)重筐付,很有可能排在前面。
所以每個(gè)網(wǎng)頁(yè)都會(huì)有一個(gè)PR值阻肿,分值從1到10瓦戚。而且分值間的差距并不是線性的,5到6之間的差距可能是4到5之間差距的5丛塌、6倍较解。每個(gè)網(wǎng)頁(yè)會(huì)對(duì)它鏈接的網(wǎng)頁(yè)貢獻(xiàn)PR值,它鏈接的網(wǎng)頁(yè)越多赴邻,那么它向每個(gè)網(wǎng)頁(yè)貢獻(xiàn)的PR值就會(huì)越小印衔,可以有效防止刷鏈接的現(xiàn)象。這樣所有網(wǎng)頁(yè)就會(huì)組成一個(gè)網(wǎng)絡(luò)姥敛,每個(gè)網(wǎng)頁(yè)為一個(gè)結(jié)點(diǎn)奸焙,需要定時(shí)的更新每個(gè)網(wǎng)頁(yè)的PR值。
這是Pagerank的核心思想彤敛,但是仍然有很多缺陷与帆,比如新加入的網(wǎng)頁(yè)很容易受到忽略,排名靠前網(wǎng)頁(yè)可能內(nèi)容不夠相關(guān)等等墨榄。所以實(shí)際應(yīng)用的算法應(yīng)該復(fù)雜得多玄糟。
下面鏈接詳細(xì)講解了有關(guān)PageRank算法的內(nèi)容,包括個(gè)人很感興趣的搜索引擎
http://blog.codinglabs.org/articles/intro-to-pagerank.html
10袄秩、TF-IDF算法
TF-IDF算法的思想也很簡(jiǎn)單阵翎,它被廣泛應(yīng)用于關(guān)鍵字搜索,它的作用就是通過(guò)統(tǒng)計(jì)的方法給每個(gè)關(guān)鍵字賦予權(quán)值之剧。 舉一個(gè)例子:每個(gè)人的身份證號(hào)可以唯一標(biāo)記一個(gè)人的身份郭卫,但是我們仔細(xì)觀察可以發(fā)現(xiàn),很多人身份證的前6位是一樣的背稼,那么這六位對(duì)于識(shí)別人就沒有那么大的貢獻(xiàn)箱沦,而后面的12位基本很難出現(xiàn)相同,那么這12位對(duì)于標(biāo)記一個(gè)人信息就會(huì)有較大的貢獻(xiàn)度雇庙。那么我們?cè)趺创_定一個(gè)關(guān)鍵詞的貢獻(xiàn)度呢?
TF-IDF的全名是term frequency–inverse documentfrequency灶伊,翻譯過(guò)來(lái)也就是詞頻-逆文檔頻率疆前,下面我們就詞頻和逆文檔頻率分別講解TF-IDF算法:
· TF(詞頻):若一個(gè)關(guān)鍵詞在一個(gè)文檔中大量出現(xiàn),那么這個(gè)關(guān)鍵詞極有可能標(biāo)識(shí)著這個(gè)文檔的內(nèi)容聘萨,所以一個(gè)關(guān)鍵詞對(duì)標(biāo)記一個(gè)文檔的貢獻(xiàn)度與其在該文檔中出現(xiàn)的頻率正相關(guān)竹椒。
· IDF(逆文檔頻率):很容易想到,一些能夠在文檔中大量出現(xiàn)的詞不一定具有代表性米辐。如胸完,“的”“與”這些詞大量使用但是對(duì)標(biāo)記文檔并沒有太大的貢獻(xiàn)书释。所以如果一個(gè)關(guān)鍵詞在所有文檔中都高頻出現(xiàn),那么我們就需要大大減小它的貢獻(xiàn)度赊窥。
一句話說(shuō)爆惧,TF-IDF與一個(gè)詞在文檔中的出現(xiàn)次數(shù)成正相關(guān),與該詞在整個(gè)文檔中的出現(xiàn)次數(shù)成負(fù)相關(guān)锨能。
TF-IDF算法常用于提取關(guān)鍵詞扯再,也可以和余弦相似原理結(jié)合來(lái)判斷兩個(gè)文件的相似度。實(shí)際上址遇,TF-IDF算法也常和K-Means算法結(jié)合熄阻,來(lái)給每個(gè)類心賦予權(quán)值。類似問(wèn)題倔约,TF-IDF算法均可應(yīng)用秃殉,不僅僅局限于關(guān)鍵詞搜索領(lǐng)域。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
序言:七十年代末浸剩,一起剝皮案震驚了整個(gè)濱河市钾军,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌乒省,老刑警劉巖巧颈,帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異袖扛,居然都是意外死亡砸泛,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382 文/潘曉璐 我一進(jìn)店門蛆封,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)唇礁,“玉大人,你說(shuō)我怎么就攤上這事惨篱≌悼穑” “怎么了?”我有些...
文/不壞的土叔 我叫張陵砸讳,是天一觀的道長(zhǎng)琢融。 經(jīng)常有香客問(wèn)我,道長(zhǎng)簿寂,這世上最難降的妖魔是什么漾抬? 我笑而不...
正文 為了忘掉前任,我火速辦了婚禮常遂,結(jié)果婚禮上纳令,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好平绩,可當(dāng)我...
文/花漫 我一把揭開白布圈匆。 她就那樣靜靜地躺著,像睡著了一般捏雌。 火紅的嫁衣襯著肌膚如雪跃赚。 梳的紋絲不亂的頭發(fā)上,一...
那天腹忽,我揣著相機(jī)與錄音来累,去河邊找鬼。 笑死窘奏,一個(gè)胖子當(dāng)著我的面吹牛嘹锁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播着裹,決...
沈念sama閱讀 38,276評(píng)論 3贊 399 文/蒼蘭香墨 我猛地睜開眼领猾,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了骇扇?” 一聲冷哼從身側(cè)響起摔竿,我...
序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎少孝,沒想到半個(gè)月后继低,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300 正文 獨(dú)居荒郊野嶺守林人離奇死亡稍走,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
正文 我和宋清朗相戀三年袁翁,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片婿脸。...
序言:一個(gè)原本活蹦亂跳的男人離奇死亡粱胜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出狐树,到底是詐尸還是另有隱情焙压,我是刑警寧澤,帶...
沈念sama閱讀 33,646評(píng)論 4贊 322 正文 年R本政府宣布抑钟,位于F島的核電站涯曲,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏在塔。R本人自食惡果不足惜幻件,卻給世界環(huán)境...
文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望心俗。 院中可真熱鬧,春花似錦、人聲如沸城榛。這莊子的主人今日做“春日...
文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)狠持。三九已至疟位,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間喘垂,已是汗流浹背甜刻。 一陣腳步聲響...
我被黑心中介騙來(lái)泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留正勒,地道東北人得院。 一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像章贞,于是被迫代替她去往敵國(guó)和親祥绞。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
算法是我的信仰.. 因?yàn)樗幌窨蚣芤粯友枷蓿l(shuí)都做得了.. blog.jobbole.com/90316/ 1. C4...
整理里一晚上的數(shù)據(jù)挖掘算法蜕径,其中主要引自wiki和一些論壇。發(fā)布到簡(jiǎn)書上作為知識(shí)共享败京,但是發(fā)現(xiàn)Latex的公式轉(zhuǎn)碼...
國(guó)際權(quán)威的學(xué)術(shù)組織the IEEE International Conference on Data Mining...
久違的晴天兜喻,家長(zhǎng)會(huì)。 家長(zhǎng)大會(huì)開好到教室時(shí)赡麦,離放學(xué)已經(jīng)沒多少時(shí)間了朴皆。班主任說(shuō)已經(jīng)安排了三個(gè)家長(zhǎng)分享經(jīng)驗(yàn)。 放學(xué)鈴聲...
飄雪兒5閱讀 7,492評(píng)論 16贊 22 創(chuàng)業(yè)是很多人的夢(mèng)想隧甚,多少人為了理想和不甘選擇了創(chuàng)業(yè)來(lái)實(shí)現(xiàn)自我價(jià)值车荔,我就是其中一個(gè)。 創(chuàng)業(yè)后戚扳,我由女人變成了超人忧便,什...