數(shù)據(jù)探索 —— 數(shù)據(jù)預(yù)處理 4

Python主要數(shù)據(jù)預(yù)處理函數(shù)

下表給出了本節(jié)要介紹的Python中的插值二拐、數(shù)據(jù)歸一化、主成分分析等與數(shù)據(jù)預(yù)處理相關(guān)的函數(shù)凳兵。


Python主要數(shù)據(jù)預(yù)處理函數(shù)

(1)interpolate

  1. 功能:interpolate是Scipy的一個(gè)子庫百新,包含了大量的插值函數(shù),如拉格朗日插值庐扫、樣條插值饭望、高維插值等。使用前需要用from scipy.interpolate import *引入相應(yīng)的插值函數(shù)形庭。
  2. 使用格式:f = scipy.interpolate.lagrange(x, y)杰妓。這里僅僅展示了一維數(shù)據(jù)的拉格朗日插值的命令,其中x碘勉,y為對應(yīng)的自變量和因變量數(shù)據(jù)。插值完成后桩卵,可以通過f(a)計(jì)算新的插值結(jié)果验靡。類似的還有樣條插值倍宾、多維數(shù)據(jù)插值等。

(2) unique

  1. 功能:去除數(shù)據(jù)中的重復(fù)元素胜嗓,得到單值元素列表高职。它既是Numpy庫的一個(gè)函數(shù)(np.unique()),也是Series對象的一個(gè)方法辞州。
  2. 使用格式:
  • np.unique(D)怔锌,D是一維數(shù)據(jù),可以是list变过、array埃元、Series;
  • D.unique(),D是Pandas的Series對象媚狰。
  1. 實(shí)例:求向量A中的單值元素岛杀,并返回相關(guān)索引。
>>> D = pd.Series([1, 1, 2, 3, 5])
>>> D.unique()
array([1, 2, 3, 5], dtype=int64)
>>> np.unique(D)
array([1, 2, 3, 5], dtype=int64)

(3)isnull/notnull

  1. 功能:判斷每個(gè)元素是否空值/非空值
  2. 使用格式:D.isnull()/D.notnull()崭孤。這里的D要求是Series對象类嗤,返回一個(gè)布爾Series”娉瑁可以通過D[D.isnull()]D[D.notnull()]找出D中的空值/非空值遗锣。

(4)random

  1. 功能:random是Numpy的一個(gè)子庫(Python本身也自帶了random,但Numpy的更加強(qiáng)大)嗤形,可以用該庫的各種函數(shù)生成服從特定分布的隨機(jī)矩陣精偿,抽樣時(shí)可使用。
  2. 使用格式:
  • np.random.rand(k, m, n,...)生成一個(gè)k×m×n×...隨機(jī)矩陣派殷,其元素均勻分布在區(qū)間(0, 1)上;
  • np.random.randn(k, m, n,...)生成一個(gè)k×m×n×...隨機(jī)矩陣还最,其元素服從標(biāo)準(zhǔn)正態(tài)分布。

(5)PCA

  1. 功能:對指標(biāo)變量矩陣進(jìn)行主成分分析毡惜。使用前需要用from sklearn.decomposition import PCA引入該函數(shù)拓轻。
  2. 使用格式:model = PCA()。注意经伙,Scikit-Learn下的PCA是一個(gè)建模式的對象扶叉,也就是說,一般的流程是建模帕膜,然后是訓(xùn)練model.fit(D)枣氧,D為要進(jìn)行主成分分析的數(shù)據(jù)矩陣,訓(xùn)練結(jié)束后獲取模型的參數(shù)垮刹,如.components_獲取特征向量达吞,以及.explained_variance_ratio_獲取各個(gè)屬性的貢獻(xiàn)率等。
  3. 實(shí)例:使用PCA()對一個(gè)10×4維的隨機(jī)矩陣進(jìn)行主成分分析荒典。
>>>from sklearn.decomposition import PCA
>>>D = np.random.rand(10,4)
>>>pca = PCA()
>>>pca.fit(D)
PCA(copy=True, iterated_power='auto', n_components=None, random_state=None, svd_solver='auto', tol=0.0, whiten=False)
>>>pca.components_  # 返回模型的各個(gè)特征向量
array([[-0.06811883,  0.51265709,  0.77200257, -0.3695329 ],
       [-0.37378143, -0.70298054,  0.15371729, -0.58521517],
       [ 0.9163908 , -0.18585149,  0.03542612, -0.35274936],
       [-0.12599668,  0.45657452, -0.61573372, -0.62971146]])
>>>pca.explained_variance_ratio_  # 返回各個(gè)成分各自的方差百分比
array([0.5431792 , 0.26934177, 0.14385656, 0.04362248])
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末酪劫,一起剝皮案震驚了整個(gè)濱河市吞鸭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌覆糟,老刑警劉巖刻剥,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異滩字,居然都是意外死亡造虏,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進(jìn)店門麦箍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來漓藕,“玉大人,你說我怎么就攤上這事内列∧焓酰” “怎么了?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵话瞧,是天一觀的道長嫩与。 經(jīng)常有香客問我,道長交排,這世上最難降的妖魔是什么划滋? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮埃篓,結(jié)果婚禮上处坪,老公的妹妹穿的比我還像新娘。我一直安慰自己架专,他們只是感情好同窘,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著部脚,像睡著了一般想邦。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上委刘,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天丧没,我揣著相機(jī)與錄音,去河邊找鬼锡移。 笑死呕童,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的淆珊。 我是一名探鬼主播夺饲,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了往声?” 一聲冷哼從身側(cè)響起茫蛹,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎烁挟,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體骨坑,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡撼嗓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了欢唾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片且警。...
    茶點(diǎn)故事閱讀 40,127評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖礁遣,靈堂內(nèi)的尸體忽然破棺而出斑芜,到底是詐尸還是另有隱情,我是刑警寧澤祟霍,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布杏头,位于F島的核電站,受9級特大地震影響沸呐,放射性物質(zhì)發(fā)生泄漏醇王。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一崭添、第九天 我趴在偏房一處隱蔽的房頂上張望寓娩。 院中可真熱鬧,春花似錦呼渣、人聲如沸棘伴。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽焊夸。三九已至,卻和暖如春缰犁,著一層夾襖步出監(jiān)牢的瞬間淳地,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工帅容, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留颇象,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓并徘,卻偏偏與公主長得像遣钳,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子麦乞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容

  • Scipy scipy包含致力于科學(xué)計(jì)算中常見問題的各個(gè)工具箱蕴茴。它的不同子模塊相應(yīng)于不同的應(yīng)用劝评。像插值,積分倦淀,優(yōu)化...
    Aieru閱讀 34,772評論 3 59
  • 原來用markdown寫的蒋畜,簡書公式編輯比較麻煩。所以正常公式版本可以戳以下鏈接https://www.zybul...
    hainingwyx閱讀 20,936評論 11 97
  • 數(shù)據(jù)形式 數(shù)據(jù)讀取 數(shù)據(jù)預(yù)處理 數(shù)據(jù)收集及讀取 很多人認(rèn)為數(shù)據(jù)分析就是將數(shù)據(jù)可視化或者對數(shù)據(jù)趨勢做出預(yù)測撞叽,其實(shí)是不...
    Clemente閱讀 2,155評論 0 5
  • 天氣還是有點(diǎn)冷 在這寒冷的南方蔓延 我們都在尋找一絲溫暖 火辣辣的辣椒和餃子 讓這個(gè)冬日暖和了一點(diǎn) 表面笑得多開心...
    Jay1972閱讀 313評論 4 6
  • 一樣的青春愿棋,卻是不一樣的我們 原創(chuàng):蔣好著好著學(xué)長7月17日 夏天·青春 支教·青春 總想寫點(diǎn)東西科展,有關(guān)于支教生活...
    艸者閱讀 790評論 0 0