一. 數(shù)據(jù)預(yù)處理:
將未加工數(shù)據(jù)轉(zhuǎn)換成適合分析的形式偏竟,包括多數(shù)據(jù)源的數(shù)據(jù)融合、
數(shù)據(jù)清洗敞峭、維規(guī)約等等踊谋。
二、為什么要進(jìn)行預(yù)處理:
原始數(shù)據(jù)普遍存在問題旋讹,必須加以處理才能用于分析殖蚕,一方面要提高數(shù)據(jù)質(zhì)量轿衔,另一方面為了更好的使數(shù)據(jù)適應(yīng)特定的數(shù)據(jù)挖掘技術(shù)及工具。
三.數(shù)據(jù)預(yù)處理的功能
① 數(shù)據(jù)集成(Data Integration)
統(tǒng)一原始數(shù)據(jù)的矛盾之處(如命名睦疫、結(jié)構(gòu)害驹、單位、含義):
如字段的同名異義蛤育、異名同義宛官、單位不統(tǒng)一、字長不一致等,并非簡單的復(fù)制過程缨伊。
② 數(shù)據(jù)變換( Bata Trartsformstian )
通常用多維數(shù)據(jù)立方(Data Cube)組織數(shù)據(jù)摘刑,采用數(shù)據(jù)倉庫中的切換进宝、旋轉(zhuǎn)和投影技
術(shù)刻坊,把數(shù)據(jù)空間按照不同的層次、粒度和維度進(jìn)行抽象和聚集(即數(shù)據(jù)泛化)党晋,從而生
成在不同抽象級別上的數(shù)據(jù)集谭胚。
③ 數(shù)據(jù)清洗(Data Cleaning )
Sklearn自帶的數(shù)據(jù),譬如iris數(shù)據(jù)集未玻,波士頓房價(jià)數(shù)據(jù)集灾而,質(zhì)量都很高,沒有缺失值扳剿,沒有異常點(diǎn)旁趟,也沒有噪音。
真實(shí)數(shù)據(jù)中庇绽,我們拿到的數(shù)據(jù)可能包含了大量的缺失值锡搜,噪音,也可能因?yàn)槿斯や浫脲e誤導(dǎo)致有異常點(diǎn)存在瞧掺,所以我們需要通過一些方法耕餐,盡量提高數(shù)據(jù)的質(zhì)量。
觀測量(Measurement) = 真實(shí)數(shù)據(jù)(True Data) + 噪聲 (Noise)
噪聲:被測量的變量的隨機(jī)誤差或者方差(一般指錯誤的數(shù)據(jù))
離群點(diǎn):數(shù)據(jù)集中包含一些數(shù)據(jù)對象辟狈,他們與數(shù)據(jù)的一般行為或模型不一致肠缔。
(正常值,但偏離大多數(shù)數(shù)據(jù))
四. 數(shù)據(jù)降維
(1)概念:將數(shù)據(jù)從高維特征空間向低緯特征空間映射的過程哼转。
(2)目的:直觀地好處是維度降低了明未,便于計(jì)算和可視化,其更深層次的意義在于有效信息的提取綜合及無用信息的擯棄壹蔓。
五. 為什么要數(shù)據(jù)降維
六. 數(shù)據(jù)降維的好處
有時候也存在特征矩陣過大趟妥, 導(dǎo)致計(jì)算量比較大,訓(xùn)練時間長的問題庶溶。
降維可以方便數(shù)據(jù)可視化+數(shù)據(jù)分析+數(shù)據(jù)壓縮+數(shù)據(jù)提取等煮纵。
七. 常見的降維方法
(1)LDA(線性判別式分析)法:
LDA的思想可以用一句話概括懂鸵,就是“投影后類內(nèi)方差最小,類間方差最大”行疏。我們要將數(shù)據(jù)在低維度上進(jìn)行投影匆光,投影后希望每一種類別數(shù)據(jù)的投影點(diǎn)盡可能的接近,而不同類別的數(shù)據(jù)的類別中心之間的距離盡可能的大酿联。
(2)PCA(主成分分析)法:
主成分分析(Principal components analysis终息,以下簡稱PCA)是重要的降維方法之一。
PCA顧名思義贞让,就是找出數(shù)據(jù)里最主要的方面周崭,用數(shù)據(jù)里最主要的方面來代替原始數(shù)據(jù)。
PCA在數(shù)據(jù)壓縮消除冗余和數(shù)據(jù)噪音消除等領(lǐng)域都有廣泛的應(yīng)用,是不考慮樣本類別輸出的無監(jiān)督降維技術(shù)喳张。
八 . PCA與LDA方法的區(qū)別:
不同:
1)在降維過程中可以使用類別的先驗(yàn)知識經(jīng)驗(yàn)续镇,而像PCA這樣的無監(jiān)督學(xué)習(xí)則無法使用類別先驗(yàn)知識。
2)LDA在樣本分類信息依賴均值而不是方差的時候销部,比PCA之類的算法較優(yōu)摸航。
3)LDA不適合對非高斯分布樣本進(jìn)行降維,PCA也有這個問題舅桩。
4)LDA降維最多降到類別數(shù)k-1的維數(shù)酱虎,如果我們降維的維度大于k-1,則不能使用LDA擂涛。當(dāng)然目前有一些LDA的進(jìn)化版算法可以繞過這個問題读串。
5)LDA在樣本分類信息依賴方差而不是均值的時候,降維效果不好撒妈。
6)LDA可能過度擬合數(shù)據(jù)
7)LDA是有監(jiān)督的降維方法恢暖,而PCA是無監(jiān)督的降維方法
8)LDA降維最多降到類別數(shù)k-1的維數(shù),而PCA沒有這個限制踩身。
9)LDA除了可以用于降維胀茵,還可以用于分類。
10)LDA選擇分類性能最好的投影方向挟阻,而PCA選擇樣本點(diǎn)投影具有最大方差的方向琼娘。
相同:
1)兩者均可以對數(shù)據(jù)進(jìn)行降維。
2)兩者在降維時均使用了矩陣特征分解的思想附鸽。
3)兩者都假設(shè)數(shù)據(jù)符合高斯分布脱拼。