數(shù)據(jù)挖掘:理論與算法筆記2-數(shù)據(jù)預(yù)處理

上一篇: 數(shù)據(jù)挖掘:理論與算法筆記1-走進(jìn)數(shù)據(jù)科學(xué)
下一篇: [數(shù)據(jù)挖掘:理論與算法筆記3-從貝葉斯到?jīng)Q策樹]
(http://www.reibang.com/p/61e5ea13dfc8)

2. 數(shù)據(jù)預(yù)處理: 抽絲剝繭,去偽存真

2.1 數(shù)據(jù)清洗

數(shù)據(jù)缺失有以下幾種類型
a. Missing completely at random: 缺失的概率是隨機(jī)的寝凌,比如門店的計(jì)數(shù)器因?yàn)閿嚯姅嗑W(wǎng)等原因在某個(gè)時(shí)段數(shù)據(jù)為空柒傻。
b. Missing conditionally at random: 數(shù)據(jù)是否缺失取決于另外一個(gè)屬性,比如一些女生不愿意填寫自己的體重较木。
c. Not missing at random: 數(shù)據(jù)缺失與自身的值有關(guān)红符,比如高收入的人可能不愿意填寫收入。

處理的辦法也有幾種類型
a. 刪數(shù)據(jù)伐债,如果缺失數(shù)據(jù)的記錄占比比較小预侯,直接把這些記錄刪掉完事。
b. 手工填補(bǔ)泳赋,或者重新收集數(shù)據(jù)雌桑,或者根據(jù)domain knowledge來補(bǔ)數(shù)據(jù)喇喉。
c. 自動(dòng)填補(bǔ)祖今,簡(jiǎn)單的就是均值填充,或者再加一個(gè)概率分布看起來更真實(shí)些,也可以結(jié)合實(shí)際情況通過公式計(jì)算千诬,比如門店計(jì)數(shù)缺失耍目,我們就是參考過往的客流數(shù)據(jù),轉(zhuǎn)化數(shù)據(jù)徐绑,缺失時(shí)段的銷售額邪驮,用一個(gè)簡(jiǎn)單公式自動(dòng)計(jì)算回補(bǔ)。

Outlier(離群點(diǎn))

Outlier在數(shù)據(jù)挖掘中是一件很麻煩的事情傲茄,比如我們收集了一堆身高數(shù)據(jù)毅访,其中有一個(gè)人是姚明,他的身高值就會(huì)顯得特別突兀盘榨。這對(duì)某些算法影響很大喻粹,比如最小二乘,

2.2 異常值與重復(fù)數(shù)據(jù)監(jiān)測(cè)

局部離群點(diǎn)因子(Local Outlier Factor, LOF)

對(duì)比某一點(diǎn)的局部密度和臨近區(qū)域的密度, A點(diǎn)的局部密度遠(yuǎn)低于其臨近區(qū)域的密度草巡,所以A就是一個(gè)離群點(diǎn)

LOF算法邏輯如下:
a. 計(jì)算k-distance of A:點(diǎn)A的第k距離守呜,也就距離A第k遠(yuǎn)的點(diǎn)的距離,不包括A, 記為k-distance(p)

b. 計(jì)算k-distance neighborhood of A:點(diǎn)A的第k距離鄰域山憨,就是A的第k距離以內(nèi)的所有點(diǎn)查乒,包括第k距離, 記為Nk(A) [k為下角標(biāo)]

c. 計(jì)算reachability-distance:可達(dá)距離,若小于第k距離郁竟,則可達(dá)距離為第k距離玛迄,若大于第k距離,則可達(dá)距離為真實(shí)距離

d. 計(jì)算local reachability density:局部可達(dá)密度, 密度越高則可達(dá)距離之和越小枪孩,而LRD越大

e. 計(jì)算local outlier factor: 局部離群因子

下圖來自wikipedia, 上面的數(shù)字標(biāo)明了相應(yīng)點(diǎn)的LOF得分憔晒,可以讓人對(duì)LOF有一個(gè)直觀的印象。

Duplicate Records

如果高度疑似的樣本是挨著的蔑舞,就可以用滑動(dòng)窗口對(duì)比拒担,為了讓相似記錄相鄰,可以每條記錄生成一個(gè)hash key, 根據(jù)key去排序攻询。

2.3 類型轉(zhuǎn)換與采樣

經(jīng)過了缺失填充和去重从撼,有了error free的數(shù)據(jù)集之后還需要做一些轉(zhuǎn)換工作,比如說類型钧栖。數(shù)據(jù)類型有Continues低零,DiscreteOrdinal(比如優(yōu)良中差), Nominal(比如職業(yè)), Nominal比較特殊拯杠,我們用one-hot encoding就好了掏婶。

采樣

為了解決數(shù)據(jù)庫IO瓶頸,可以通過對(duì)數(shù)據(jù)采樣來降低時(shí)間復(fù)雜度潭陪,Aggregation也是減少數(shù)據(jù)量的一種方式雄妥。

大多數(shù)機(jī)器學(xué)習(xí)算法假設(shè)數(shù)據(jù)是均勻分布的最蕾,實(shí)際上經(jīng)常會(huì)遇到不平衡數(shù)據(jù)集,老厌,此時(shí)多數(shù)類主導(dǎo)少數(shù)類瘟则,分類器更偏向于多數(shù)類。當(dāng)數(shù)據(jù)量足夠大的時(shí)候應(yīng)當(dāng)考慮減少多數(shù)類的大小來平衡數(shù)據(jù)集枝秤,這叫欠采樣醋拧,當(dāng)數(shù)據(jù)量不足時(shí)應(yīng)該嘗試增加稀有樣本數(shù)量來平衡數(shù)據(jù)集,這叫過采樣淀弹。如果少數(shù)類樣本實(shí)在采集不到了丹壕,考慮通過隨機(jī)過采樣算法合成少數(shù)類,比如SMOTE(Synthetic Minority Oversampling Technique)

整體準(zhǔn)確率不適用與不平衡數(shù)據(jù)集薇溃,需要引入新的度量模式比如G-mean, 它會(huì)看正類上的準(zhǔn)確率雀费,再看負(fù)類上的準(zhǔn)確率,然后兩者相乘痊焊。

另一種度量模式是F-measure, 常見于衡量推薦算法盏袄。F-Measure是Precision和Recall加權(quán)調(diào)和平均:

當(dāng)參數(shù)α=1時(shí)就是最常見的F1

2.4 數(shù)據(jù)描述與可視化

正則化

因?yàn)閿?shù)據(jù)的衡量單位不一,可以用Normalization把數(shù)據(jù)映射到[0.1]區(qū)間薄啥,常見的有min-max normalizationz-score normalization.

均值度量

數(shù)據(jù)的一般性描述有mean, median, mode, variance.
mean是均值辕羽,median取數(shù)據(jù)排序后在中間位置的值,避免因?yàn)闃O端離群點(diǎn)影響客觀評(píng)價(jià), mode是出現(xiàn)頻率最高的元素垄惧,其實(shí)用的比較少刁愿,variance則是衡量數(shù)據(jù)集與其均值的偏離。

數(shù)據(jù)相關(guān)性

統(tǒng)計(jì)學(xué)之父Pearson有兩個(gè)相關(guān)系數(shù)公式
Pearson correlation coefficient如下:

r是一個(gè)-1到1之間的值到逊,r>0則正相關(guān)铣口,r<0則負(fù)相關(guān), 注意r=0嚴(yán)格意義也不能說不相關(guān),只能說非線性相關(guān)觉壶。

Pearson chi-square公式如下:

這兩公式都是計(jì)算相關(guān)性的脑题,顯然前者適用與有metric data的情況,后者適用于分類統(tǒng)計(jì)的情況铜靶。

可視化

一維數(shù)據(jù)圓餅圖叔遂,柱狀圖;二維數(shù)據(jù)散點(diǎn)圖争剿;三維數(shù)據(jù)用三維坐標(biāo)呈現(xiàn)已艰;高維數(shù)據(jù)需要先做轉(zhuǎn)換或映射,比如用matlab的Box Plots蚕苇,也可以用平行坐標(biāo)呈現(xiàn)哩掺。

最后介紹了兩個(gè)軟件
CiteSpace(呈現(xiàn)文章引用情況), Gephi可以把元素之間關(guān)系用網(wǎng)絡(luò)形式展現(xiàn)(如社交關(guān)系),下圖為Gephi生成:


要對(duì)Gephi了解更多可以看底部reference中知乎的一篇文章涩笤。

2.5 特征選擇

這節(jié)開始介紹Feature SelectionFeature Extraction兩個(gè)核心算法
當(dāng)我們做特定分析的時(shí)候嚼吞,可能屬性非常多幔嫂,但有些屬性是不相關(guān)的,有些屬性是重復(fù)的誊薄,所以我們需要用Feature Selection挑選出來最相關(guān)的屬性降低問題難度。

熵增益(Entropy Information Gain)

假設(shè)我們遇到的特定問題是要猜測(cè)某個(gè)人的性別锰茉,男女比例的概率各一半呢蔫,如果沒有任何額外信息我們隨機(jī)猜測(cè)的結(jié)果只能是五五分。再假設(shè)有60%的人不抽煙飒筑,40%的人是煙民片吊,而且抽煙的人95%是男人,5%是女人协屡,不抽煙的人當(dāng)中80%是女人俏脊,20%是男人。知道一個(gè)是否抽煙以后再判斷他/她的性別就有把握多了肤晓。

此處引入(Entropy)的概率來衡量系統(tǒng)的不確定性爷贫,下圖第一行是計(jì)算熵的公式,如果不知道是否抽煙的信息补憾,則熵值為1漫萄,即不確定性最高。然后分別計(jì)算出不抽煙人群的熵值為0.7219盈匾,抽煙人群的熵值為0.2864腾务,整體熵值為0.5477, 1-0.5477=0.4523, 這個(gè)數(shù)字就是信息增量(Information Gain)

Branch and Bound(分支定界)

如果我們想從n個(gè)屬性中挑選出m個(gè)最優(yōu)屬性削饵,需要注意算法復(fù)雜度會(huì)隨n的增長(zhǎng)呈現(xiàn)指數(shù)級(jí)爆炸增長(zhǎng)岩瘦,計(jì)算量會(huì)變得非常大,為了降低復(fù)雜度這里引入了分支定界的剪枝算法窿撬。比如我們要從5個(gè)屬性中挑選出兩個(gè)相關(guān)性最強(qiáng)的屬性启昧,可以先畫一個(gè)top-down的搜索樹,每當(dāng)往下推一層就減少一個(gè)屬性劈伴,根據(jù)屬性的單調(diào)性假設(shè)箫津,屬性越少效能越低,所以如果發(fā)現(xiàn)節(jié)點(diǎn)(1,3,4,5)小于左邊某個(gè)只有兩個(gè)屬性的節(jié)點(diǎn)(2,3)的效能宰啦,則可以忽略節(jié)點(diǎn)(1,3,4,5)下面的計(jì)算苏遥,把這一整支都直接刪除,從而減少計(jì)算量赡模。

特征選擇還有sequential forward, sequential backward, simulated annealing(模擬退火), tabu search(競(jìng)技搜索), genetic algorithms(遺傳算法)等方式去優(yōu)化田炭。

2.6 主成分分析

這一節(jié)講Feature Extraction, 圖像深度識(shí)別提取edge就屬于Feature Extraction.

Principal Component Analysis(主成分分析)

PCA又是Pearson最早提出的胎食,主要目的是降維策泣,分析主成分提取最大的個(gè)體差異變量,削減回歸分析和聚類分析中變量的數(shù)目,方式是通過正交變換將一系列可能線性相關(guān)的變量轉(zhuǎn)換為一組線性不相關(guān)的新變量杠人。

我們先看一個(gè)二維圖像的例子,左邊是原始數(shù)據(jù)徒欣,橫軸和縱軸可以當(dāng)作高和寬炼杖,經(jīng)過轉(zhuǎn)換,實(shí)際是把坐標(biāo)順時(shí)針轉(zhuǎn)動(dòng)了45度景用,這樣一來縱軸的差異就很小了, 這需要一點(diǎn)線性代數(shù)知識(shí)來生成轉(zhuǎn)置矩陣涵叮。

下面講一點(diǎn)數(shù)學(xué)(稍微有點(diǎn)繞,還求助了師兄伞插,我真是愧為數(shù)學(xué)系的)割粮,我們希望Y是一個(gè)對(duì)角陣,如果要讓坐標(biāo)變化就要讓原矩陣X乘以一個(gè)旋轉(zhuǎn)矩陣P, n只是一個(gè)scale可以忽略媚污。要確保Y是一個(gè)對(duì)角陣舀瓢,那么P和Q必須互逆,即Q就是P的轉(zhuǎn)置矩陣耗美。

從另外一個(gè)角度再看京髓,我們希望原點(diǎn)和映射點(diǎn)的距離的平方和最小,即目標(biāo)函數(shù)J(e)最小商架,經(jīng)過幾步推到可以看到要讓J(e)最小其實(shí)也就是要讓右下角的S最大朵锣。

這就成了一個(gè)帶條件的約束問題,可以用拉格朗日乘數(shù)法來求解甸私。對(duì)e進(jìn)行求導(dǎo)诚些,S是一個(gè)方陣,e是一個(gè)向量皇型,λ是一個(gè)數(shù)值(也就是拉格朗日乘數(shù))诬烹,所以這是一個(gè)矩陣分解問題。再看上一張圖的推導(dǎo)弃鸦,其實(shí)我們就是要將λ最大化绞吁,而λ也就是特征值。

再看一個(gè)三維圖像的例子唬格,經(jīng)過映射家破,pc1的差異最明顯,而pc3被拋棄了购岗,從而變成了二維圖像

我們甚至可以看一個(gè)17維的轉(zhuǎn)換汰聋,英國各地人民對(duì)食物的偏好

經(jīng)過PCA轉(zhuǎn)換后會(huì)發(fā)現(xiàn)北愛爾蘭是個(gè)離群點(diǎn)

看回前面的表確實(shí)北愛爾蘭人吃更多fresh patatoes, 但是少消耗很多fresh fruits, cheese, fish and alcoholic drinks

想像一下,不管多少維空間喊积,我們可以用一根投影軸線插進(jìn)去烹困,讓空間中的每個(gè)點(diǎn)與這個(gè)線上某個(gè)點(diǎn)的距離的平方和最小,線上的這個(gè)點(diǎn)就是高維空間的投影了乾吻。

2.7 線性判別分析

PCA屬于非監(jiān)督學(xué)習(xí)髓梅,不考慮class information, 如果是有標(biāo)簽的數(shù)據(jù)我們就要用LDA了, 它能夠保留區(qū)分信息拟蜻。

Linear Discriminant Analysis

LDA的原理是,將帶上標(biāo)簽的數(shù)據(jù)(點(diǎn))枯饿,通過投影的方法酝锅,投影到維度更低的空間中,使得投影后的點(diǎn)奢方,會(huì)形成按類別區(qū)分搔扁,一簇一簇的情況,相同類別的點(diǎn)袱巨,將會(huì)在投影后的空間中更接近。雖然也是降維碳抄,但好的LDA算法對(duì)不同類別是有明顯的區(qū)分度的愉老。


LDA的目標(biāo)函數(shù)如下: 分類的目標(biāo)是,使得類別內(nèi)的點(diǎn)距離越近越好(集中)剖效,類別間的點(diǎn)越遠(yuǎn)越好嫉入。分母表示每一個(gè)類別內(nèi)的方差之和,方差越大表示一個(gè)類別內(nèi)的點(diǎn)越分散璧尸,分子為兩個(gè)類別各自的中心點(diǎn)的距離的平方咒林,我們最大化J(w)就可以求出最優(yōu)的w了, 求解同樣會(huì)用到拉格朗日乘數(shù)法

具體的推導(dǎo)我就偷懶省去了,有興趣的可以看底部reference中的鏈接爷光。

上一篇: 數(shù)據(jù)挖掘:理論與算法筆記1-走進(jìn)數(shù)據(jù)科學(xué)
下一篇: [數(shù)據(jù)挖掘:理論與算法筆記3-從貝葉斯到?jīng)Q策樹]
(http://www.reibang.com/p/61e5ea13dfc8)

references:
機(jī)器學(xué)習(xí)-異常檢測(cè)算法(二):Local Outlier Factor
局部異常因子算法-LOF
Local outlier factor
Fast Branch & Bound Algorithm in Feature Selection
Principal Component AnalysisExplained Visually
降維算法二:LDA(Linear Discriminant Analysis)
介紹用Gephi進(jìn)行數(shù)據(jù)可視化

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末垫竞,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子蛀序,更是在濱河造成了極大的恐慌欢瞪,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,884評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件徐裸,死亡現(xiàn)場(chǎng)離奇詭異遣鼓,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)重贺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,347評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門骑祟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人气笙,你說我怎么就攤上這事次企。” “怎么了潜圃?”我有些...
    開封第一講書人閱讀 157,435評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵抒巢,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我秉犹,道長(zhǎng)蛉谜,這世上最難降的妖魔是什么稚晚? 我笑而不...
    開封第一講書人閱讀 56,509評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮型诚,結(jié)果婚禮上客燕,老公的妹妹穿的比我還像新娘。我一直安慰自己狰贯,他們只是感情好也搓,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,611評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著涵紊,像睡著了一般傍妒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上摸柄,一...
    開封第一講書人閱讀 49,837評(píng)論 1 290
  • 那天颤练,我揣著相機(jī)與錄音,去河邊找鬼驱负。 笑死嗦玖,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的跃脊。 我是一名探鬼主播宇挫,決...
    沈念sama閱讀 38,987評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼酪术!你這毒婦竟也來了器瘪?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,730評(píng)論 0 267
  • 序言:老撾萬榮一對(duì)情侶失蹤绘雁,失蹤者是張志新(化名)和其女友劉穎娱局,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體咧七,經(jīng)...
    沈念sama閱讀 44,194評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡衰齐,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,525評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了继阻。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片耻涛。...
    茶點(diǎn)故事閱讀 38,664評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖瘟檩,靈堂內(nèi)的尸體忽然破棺而出抹缕,到底是詐尸還是另有隱情,我是刑警寧澤墨辛,帶...
    沈念sama閱讀 34,334評(píng)論 4 330
  • 正文 年R本政府宣布卓研,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏奏赘。R本人自食惡果不足惜寥闪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,944評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望磨淌。 院中可真熱鬧疲憋,春花似錦、人聲如沸梁只。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,764評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽搪锣。三九已至秋忙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間构舟,已是汗流浹背灰追。 一陣腳步聲響...
    開封第一講書人閱讀 31,997評(píng)論 1 266
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旁壮,地道東北人监嗜。 一個(gè)月前我還...
    沈念sama閱讀 46,389評(píng)論 2 360
  • 正文 我出身青樓谐檀,卻偏偏與公主長(zhǎng)得像抡谐,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子桐猬,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,554評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容

  • 機(jī)器學(xué)習(xí)是做NLP和計(jì)算機(jī)視覺這類應(yīng)用算法的基礎(chǔ)麦撵,雖然現(xiàn)在深度學(xué)習(xí)模型大行其道,但是懂一些傳統(tǒng)算法的原理和它們之間...
    在河之簡(jiǎn)閱讀 20,488評(píng)論 4 65
  • 機(jī)器學(xué)習(xí)是做NLP和計(jì)算機(jī)視覺這類應(yīng)用算法的基礎(chǔ)溃肪,雖然現(xiàn)在深度學(xué)習(xí)模型大行其道免胃,但是懂一些傳統(tǒng)算法的原理和它們之間...
    城市中迷途小書童閱讀 1,102評(píng)論 0 11
  • 一日一景 幽深古巷草上墻, 半技秋葉映淺黃惫撰。 文人騷客常造訪羔沙, 千年文脈個(gè)中藏。
    吉光片羽_9bc2閱讀 567評(píng)論 5 20
  • 心里忐忑厨钻,一直以來都害怕被落單扼雏,每次都要花很大的力氣融入一個(gè)集體,真的很尷尬夯膀,明天會(huì)好過嗎诗充,咬緊牙關(guān)一直往前沖吧,...
    符小喵閱讀 162評(píng)論 0 0
  • 雨中花 細(xì)絲穿花針诱建, 繡出新江城蝴蜓。 百卉沾露珠, 搖曳弄精神。 人流滿街巷茎匠, 傘花綻繽紛格仲。 喜看紅濕處, 油然放歌...
    紅葉陳建華閱讀 140評(píng)論 0 0