機(jī)器學(xué)習(xí)--數(shù)據(jù)預(yù)處理

一. 數(shù)據(jù)預(yù)處理:
將未加工數(shù)據(jù)轉(zhuǎn)換成適合分析的形式偏竟,包括多數(shù)據(jù)源的數(shù)據(jù)融合、
數(shù)據(jù)清洗敞峭、維規(guī)約等等踊谋。

二、為什么要進(jìn)行預(yù)處理:
原始數(shù)據(jù)普遍存在問題旋讹,必須加以處理才能用于分析殖蚕,一方面要提高數(shù)據(jù)質(zhì)量轿衔,另一方面為了更好的使數(shù)據(jù)適應(yīng)特定的數(shù)據(jù)挖掘技術(shù)及工具。


三.數(shù)據(jù)預(yù)處理的功能
① 數(shù)據(jù)集成(Data Integration)
統(tǒng)一原始數(shù)據(jù)的矛盾之處(如命名睦疫、結(jié)構(gòu)害驹、單位、含義):
如字段的同名異義蛤育、異名同義宛官、單位不統(tǒng)一、字長不一致等,并非簡單的復(fù)制過程缨伊。
② 數(shù)據(jù)變換( Bata Trartsformstian )
通常用多維數(shù)據(jù)立方(Data Cube)組織數(shù)據(jù)摘刑,采用數(shù)據(jù)倉庫中的切換进宝、旋轉(zhuǎn)和投影技
術(shù)刻坊,把數(shù)據(jù)空間按照不同的層次、粒度和維度進(jìn)行抽象和聚集(即數(shù)據(jù)泛化)党晋,從而生
成在不同抽象級別上的數(shù)據(jù)集谭胚。



③ 數(shù)據(jù)清洗(Data Cleaning )
Sklearn自帶的數(shù)據(jù),譬如iris數(shù)據(jù)集未玻,波士頓房價(jià)數(shù)據(jù)集灾而,質(zhì)量都很高,沒有缺失值扳剿,沒有異常點(diǎn)旁趟,也沒有噪音。
真實(shí)數(shù)據(jù)中庇绽,我們拿到的數(shù)據(jù)可能包含了大量的缺失值锡搜,噪音,也可能因?yàn)槿斯や浫脲e誤導(dǎo)致有異常點(diǎn)存在瞧掺,所以我們需要通過一些方法耕餐,盡量提高數(shù)據(jù)的質(zhì)量。


數(shù)據(jù)清洗常見問題

觀測量(Measurement) = 真實(shí)數(shù)據(jù)(True Data) + 噪聲 (Noise)
噪聲:被測量的變量的隨機(jī)誤差或者方差(一般指錯誤的數(shù)據(jù))
離群點(diǎn):數(shù)據(jù)集中包含一些數(shù)據(jù)對象辟狈,他們與數(shù)據(jù)的一般行為或模型不一致肠缔。
(正常值,但偏離大多數(shù)數(shù)據(jù))

四. 數(shù)據(jù)降維
(1)概念:將數(shù)據(jù)從高維特征空間向低緯特征空間映射的過程哼转。
(2)目的:直觀地好處是維度降低了明未,便于計(jì)算和可視化,其更深層次的意義在于有效信息的提取綜合及無用信息的擯棄壹蔓。

五. 為什么要數(shù)據(jù)降維


數(shù)據(jù)降維原因匯總

六. 數(shù)據(jù)降維的好處
有時候也存在特征矩陣過大趟妥, 導(dǎo)致計(jì)算量比較大,訓(xùn)練時間長的問題庶溶。
降維可以方便數(shù)據(jù)可視化+數(shù)據(jù)分析+數(shù)據(jù)壓縮+數(shù)據(jù)提取等煮纵。

七. 常見的降維方法



(1)LDA(線性判別式分析)法:
LDA的思想可以用一句話概括懂鸵,就是“投影后類內(nèi)方差最小,類間方差最大”行疏。我們要將數(shù)據(jù)在低維度上進(jìn)行投影匆光,投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大酿联。


LDA

(2)PCA(主成分分析)法:
主成分分析(Principal components analysis终息,以下簡稱PCA)是重要的降維方法之一。

PCA顧名思義贞让,就是找出數(shù)據(jù)里最主要的方面周崭,用數(shù)據(jù)里最主要的方面來代替原始數(shù)據(jù)。


PCA

PCA在數(shù)據(jù)壓縮消除冗余和數(shù)據(jù)噪音消除等領(lǐng)域都有廣泛的應(yīng)用,是不考慮樣本類別輸出的無監(jiān)督降維技術(shù)喳张。

八 . PCA與LDA方法的區(qū)別:
不同:
1)在降維過程中可以使用類別的先驗(yàn)知識經(jīng)驗(yàn)续镇,而像PCA這樣的無監(jiān)督學(xué)習(xí)則無法使用類別先驗(yàn)知識。
2)LDA在樣本分類信息依賴均值而不是方差的時候销部,比PCA之類的算法較優(yōu)摸航。
3)LDA不適合對非高斯分布樣本進(jìn)行降維,PCA也有這個問題舅桩。
4)LDA降維最多降到類別數(shù)k-1的維數(shù)酱虎,如果我們降維的維度大于k-1,則不能使用LDA擂涛。當(dāng)然目前有一些LDA的進(jìn)化版算法可以繞過這個問題读串。
5)LDA在樣本分類信息依賴方差而不是均值的時候,降維效果不好撒妈。
6)LDA可能過度擬合數(shù)據(jù)
7)LDA是有監(jiān)督的降維方法恢暖,而PCA是無監(jiān)督的降維方法
8)LDA降維最多降到類別數(shù)k-1的維數(shù),而PCA沒有這個限制踩身。
9)LDA除了可以用于降維胀茵,還可以用于分類。
10)LDA選擇分類性能最好的投影方向挟阻,而PCA選擇樣本點(diǎn)投影具有最大方差的方向琼娘。

相同:
1)兩者均可以對數(shù)據(jù)進(jìn)行降維。
2)兩者在降維時均使用了矩陣特征分解的思想附鸽。
3)兩者都假設(shè)數(shù)據(jù)符合高斯分布脱拼。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市坷备,隨后出現(xiàn)的幾起案子熄浓,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,042評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件赌蔑,死亡現(xiàn)場離奇詭異俯在,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)娃惯,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,996評論 2 384
  • 文/潘曉璐 我一進(jìn)店門跷乐,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人趾浅,你說我怎么就攤上這事愕提。” “怎么了皿哨?”我有些...
    開封第一講書人閱讀 156,674評論 0 345
  • 文/不壞的土叔 我叫張陵浅侨,是天一觀的道長。 經(jīng)常有香客問我证膨,道長如输,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,340評論 1 283
  • 正文 為了忘掉前任椎例,我火速辦了婚禮挨决,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘订歪。我一直安慰自己,他們只是感情好肆捕,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,404評論 5 384
  • 文/花漫 我一把揭開白布刷晋。 她就那樣靜靜地躺著,像睡著了一般慎陵。 火紅的嫁衣襯著肌膚如雪眼虱。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,749評論 1 289
  • 那天席纽,我揣著相機(jī)與錄音捏悬,去河邊找鬼。 笑死润梯,一個胖子當(dāng)著我的面吹牛过牙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播纺铭,決...
    沈念sama閱讀 38,902評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼寇钉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了舶赔?” 一聲冷哼從身側(cè)響起扫倡,我...
    開封第一講書人閱讀 37,662評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎竟纳,沒想到半個月后撵溃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體疚鲤,經(jīng)...
    沈念sama閱讀 44,110評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年缘挑,在試婚紗的時候發(fā)現(xiàn)自己被綠了石咬。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,577評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡卖哎,死狀恐怖鬼悠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情亏娜,我是刑警寧澤焕窝,帶...
    沈念sama閱讀 34,258評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站维贺,受9級特大地震影響它掂,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜溯泣,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,848評論 3 312
  • 文/蒙蒙 一虐秋、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧垃沦,春花似錦客给、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,726評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至池充,卻和暖如春桩引,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背收夸。 一陣腳步聲響...
    開封第一講書人閱讀 31,952評論 1 264
  • 我被黑心中介騙來泰國打工坑匠, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卧惜。 一個月前我還...
    沈念sama閱讀 46,271評論 2 360
  • 正文 我出身青樓厘灼,卻偏偏與公主長得像,于是被迫代替她去往敵國和親序苏。 傳聞我的和親對象是個殘疾皇子手幢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,452評論 2 348

推薦閱讀更多精彩內(nèi)容