數(shù)據(jù)探索 —— 數(shù)據(jù)預(yù)處理 4

Python主要數(shù)據(jù)預(yù)處理函數(shù)

下表給出了本節(jié)要介紹的Python中的插值二拐、數(shù)據(jù)歸一化、主成分分析等與數(shù)據(jù)預(yù)處理相關(guān)的函數(shù)凳兵。

Python主要數(shù)據(jù)預(yù)處理函數(shù)

（1）interpolate

功能：interpolate是Scipy的一個(gè)子庫百新，包含了大量的插值函數(shù)，如拉格朗日插值庐扫、樣條插值饭望、高維插值等。使用前需要用from scipy.interpolate import *引入相應(yīng)的插值函數(shù)形庭。
使用格式：f = scipy.interpolate.lagrange(x, y)杰妓。這里僅僅展示了一維數(shù)據(jù)的拉格朗日插值的命令，其中x碘勉，y為對應(yīng)的自變量和因變量數(shù)據(jù)。插值完成后桩卵，可以通過f(a)計(jì)算新的插值結(jié)果验靡。類似的還有樣條插值倍宾、多維數(shù)據(jù)插值等。

（2） unique

功能：去除數(shù)據(jù)中的重復(fù)元素胜嗓，得到單值元素列表高职。它既是Numpy庫的一個(gè)函數(shù)（np.unique()），也是Series對象的一個(gè)方法辞州。
使用格式：

np.unique(D)怔锌，D是一維數(shù)據(jù)，可以是list变过、array埃元、Series;
D.unique()，D是Pandas的Series對象媚狰。

實(shí)例：求向量A中的單值元素岛杀，并返回相關(guān)索引。

>>> D = pd.Series([1, 1, 2, 3, 5])
>>> D.unique()
array([1, 2, 3, 5], dtype=int64)
>>> np.unique(D)
array([1, 2, 3, 5], dtype=int64)

（3）isnull/notnull

功能：判斷每個(gè)元素是否空值/非空值
使用格式：D.isnull()/D.notnull()崭孤。這里的D要求是Series對象类嗤，返回一個(gè)布爾Series”娉瑁可以通過D[D.isnull()]或D[D.notnull()]找出D中的空值/非空值遗锣。

（4）random

功能：random是Numpy的一個(gè)子庫（Python本身也自帶了random，但Numpy的更加強(qiáng)大）嗤形，可以用該庫的各種函數(shù)生成服從特定分布的隨機(jī)矩陣精偿，抽樣時(shí)可使用。
使用格式：

np.random.rand(k, m, n,...)生成一個(gè)k×m×n×...隨機(jī)矩陣派殷，其元素均勻分布在區(qū)間（0, 1）上;
np.random.randn(k, m, n,...)生成一個(gè)k×m×n×...隨機(jī)矩陣还最，其元素服從標(biāo)準(zhǔn)正態(tài)分布。

（5）PCA

功能：對指標(biāo)變量矩陣進(jìn)行主成分分析毡惜。使用前需要用from sklearn.decomposition import PCA引入該函數(shù)拓轻。
使用格式：model = PCA()。注意经伙，Scikit-Learn下的PCA是一個(gè)建模式的對象扶叉，也就是說，一般的流程是建模帕膜，然后是訓(xùn)練model.fit(D)枣氧，D為要進(jìn)行主成分分析的數(shù)據(jù)矩陣，訓(xùn)練結(jié)束后獲取模型的參數(shù)垮刹，如.components_獲取特征向量达吞，以及.explained_variance_ratio_獲取各個(gè)屬性的貢獻(xiàn)率等。
實(shí)例：使用PCA()對一個(gè)10×4維的隨機(jī)矩陣進(jìn)行主成分分析荒典。

>>>from sklearn.decomposition import PCA
>>>D = np.random.rand(10,4)
>>>pca = PCA()
>>>pca.fit(D)
PCA(copy=True, iterated_power='auto', n_components=None, random_state=None, svd_solver='auto', tol=0.0, whiten=False)
>>>pca.components_  # 返回模型的各個(gè)特征向量
array([[-0.06811883,  0.51265709,  0.77200257, -0.3695329 ],
       [-0.37378143, -0.70298054,  0.15371729, -0.58521517],
       [ 0.9163908 , -0.18585149,  0.03542612, -0.35274936],
       [-0.12599668,  0.45657452, -0.61573372, -0.62971146]])
>>>pca.explained_variance_ratio_  # 返回各個(gè)成分各自的方差百分比
array([0.5431792 , 0.26934177, 0.14385656, 0.04362248])

最后編輯于：2019.01.05 14:09:39

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末酪劫，一起剝皮案震驚了整個(gè)濱河市吞鸭，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌覆糟，老刑警劉巖刻剥，帶你破解...
沈念sama閱讀 219,366評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異滩字，居然都是意外死亡造虏，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,521評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門麦箍，熙熙樓的掌柜王于貴愁眉苦臉地迎上來漓藕，“玉大人，你說我怎么就攤上這事内列∧焓酰” “怎么了？”我有些...
開封第一講書人閱讀 165,689評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵话瞧，是天一觀的道長嫩与。經(jīng)常有香客問我，道長交排，這世上最難降的妖魔是什么划滋？我笑而不...
開封第一講書人閱讀 58,925評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮埃篓，結(jié)果婚禮上处坪，老公的妹妹穿的比我還像新娘。我一直安慰自己架专，他們只是感情好同窘，可當(dāng)我...
茶點(diǎn)故事閱讀 67,942評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著部脚，像睡著了一般想邦。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上委刘，一...
開封第一講書人閱讀 51,727評論 1贊 305
城市分裂傳說
那天丧没，我揣著相機(jī)與錄音，去河邊找鬼锡移。笑死呕童，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的淆珊。我是一名探鬼主播夺饲，決...
沈念sama閱讀 40,447評論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了往声？” 一聲冷哼從身側(cè)響起茫蛹，我...
開封第一講書人閱讀 39,349評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎烁挟，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骨坑，經(jīng)...
沈念sama閱讀 45,820評論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡撼嗓，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,990評論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了欢唾。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片且警。...
茶點(diǎn)故事閱讀 40,127評論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖礁遣，靈堂內(nèi)的尸體忽然破棺而出斑芜，到底是詐尸還是另有隱情，我是刑警寧澤祟霍，帶...
沈念sama閱讀 35,812評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布杏头，位于F島的核電站，受9級特大地震影響沸呐，放射性物質(zhì)發(fā)生泄漏醇王。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,471評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一崭添、第九天我趴在偏房一處隱蔽的房頂上張望寓娩。院中可真熱鬧，春花似錦呼渣、人聲如沸棘伴。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,017評論 0贊 22
一樁弒父案屁置，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽焊夸。三九已至，卻和暖如春缰犁，著一層夾襖步出監(jiān)牢的瞬間淳地，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,142評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工帅容，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留颇象，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,388評論 3贊 373
代替公主和親
正文我出身青樓并徘，卻偏偏與公主長得像遣钳，于是被迫代替她去往敵國和親。傳聞我的和親對象是個(gè)殘疾皇子麦乞，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,066評論 2贊 355

數(shù)據(jù)探索 —— 數(shù)據(jù)預(yù)處理 4

Python主要數(shù)據(jù)預(yù)處理函數(shù)

（1）interpolate

（2） unique

（3）isnull/notnull

（4）random

（5）PCA

推薦閱讀更多精彩內(nèi)容