python大數(shù)據(jù)準備--pandas

文/michaelgbw

import numpy,pandas

python這個語言有著天然的數(shù)據(jù)計算優(yōu)勢，numpy,scipy,pandas這些拓展的出現(xiàn)更是如虎添翼~更有ML的sklearn等，這里我們先打好基礎独泞。

# encoding=utf-8
from __future__ import division

import pandas as pd 
import numpy as np

spark DF

說起pandas凿宾，我總會和spark做比較短条，spark將RDD轉為DF叶堆，然后一句SQL搞定，不要太爽~

val str = "XXX,XXX,XXX,XXX"
val field = str.split(",")
         .map(fieldName => 
         StructField(fieldName, StringType, nullable = true))
val schema = StructType(field)
         world.foreachRDD{
                rdd =>
                val rowRDD = rdd.map(a=>  Row(a(1),a(2),a(3),a(4)))
                val rechargeDF = sqc.createDataFrame(rowRDD, schema)
         rechargeDF.registerTempTable("test")
                var query = sqc.sql("select count(*) from test")
}
}

而且sql中可以添加UDF即用戶自己的function流礁，更是即為靈活
大家參考這個 http://www.tuicool.com/articles/yiMneyI

pandas

我們言歸正傳

來來來，我們跟著這個一起學習

# encoding=utf-8
from __future__ import division

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt 
import scipy as sy

dates = pd.date_range('20170228',periods=10)#從2017-02-28開始共10天
#randn(10,4)正太分布
df = pd.DataFrame(np.random.randn(10,4), index=dates, columns=list('ABCD'))
#randint整型隨機
df = pd.DataFrame(np.random.randint(1,10,size=(10,4)), index=dates, columns=list('ABCD'))
#可以自己制定DF
df2 = pd.DataFrame({ 'A' : 1.,
            'B' : pd.Timestamp('20130102'),
                        'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                        'D' : np.array([3] * 4,dtype='int32'),
                        'E' : pd.Categorical(["test","train","test","train"]),
                        'F' : 'foo' })
df.describe()
#count 每列的數(shù)量
#mean 每列的均值
#std 每列的標準差
#std 每列的標準差
#XX% 每列的個分位數(shù)
#max 每列的最大值

pd.read_csv()  #讀scv
df.to_csv('xx.csv')  #輸出為scv
df.sort_index(axis=1, ascending=False) #按列關鍵字排序
df.sort_values(by='B',ascending=False) #按值排序

df3 = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                            'foo', 'bar', 'foo', 'foo'],
                        'B' : ['one', 'one', 'two', 'three',
                            'two', 'two', 'one', 'three'],
                        'C' : np.random.randn(8),
                        'D' : np.random.randn(8)})
df.groupby(['A','B']).sum() #select sum(`A`),sum(`B`) from df group by A,B
df.groupby(['A']).count() #select count(`A`) from df group by A

而我們整理好的dataframe 轉化為其他數(shù)據(jù)類型也十分方便罗丰。

numpy,scipy,pandas區(qū)別

numpy主要是用于數(shù)值計算神帅，包括sin、cos萌抵、exp等枕稀，同時提供N維數(shù)據(jù)對象；
pandas提供了數(shù)據(jù)結構和數(shù)據(jù)分析工具；
scipy 則是基于numpy萎坷，提供了一個在python中做科學計算的工具集凹联，也就是說它是更上一個層次的庫；

結語

先知道有這個東西哆档，然后多在實際中應用哦~

最后編輯于：2017.12.06 02:07:48

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末蔽挠，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子瓜浸，更是在濱河造成了極大的恐慌澳淑，老刑警劉巖，帶你破解...
沈念sama閱讀 216,997評論 6贊 502
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件插佛，死亡現(xiàn)場離奇詭異杠巡，居然都是意外死亡，警方通過查閱死者的電腦和手機雇寇，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,603評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門氢拥，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人锨侯，你說我怎么就攤上這事嫩海。” “怎么了囚痴？”我有些...
開封第一講書人閱讀 163,359評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵叁怪，是天一觀的道長。經(jīng)常有香客問我深滚，道長奕谭，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,309評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任痴荐，我火速辦了婚禮血柳，結果婚禮上，老公的妹妹穿的比我還像新娘蹬昌。我一直安慰自己混驰，他們只是感情好，可當我...
茶點故事閱讀 67,346評論 6贊 390
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布皂贩。她就那樣靜靜地躺著栖榨，像睡著了一般。火紅的嫁衣襯著肌膚如雪明刷。梳的紋絲不亂的頭發(fā)上婴栽，一...
開封第一講書人閱讀 51,258評論 1贊 300
城市分裂傳說
那天，我揣著相機與錄音辈末，去河邊找鬼愚争。笑死映皆，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的轰枝。我是一名探鬼主播捅彻，決...
沈念sama閱讀 40,122評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼鞍陨！你這毒婦竟也來了步淹？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 38,970評論 0贊 275
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤诚撵，失蹤者是張志新（化名）和其女友劉穎缭裆，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體寿烟，經(jīng)...
沈念sama閱讀 45,403評論 1贊 313
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡澈驼，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,596評論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了筛武。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缝其。...
茶點故事閱讀 39,769評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖畅铭，靈堂內(nèi)的尸體忽然破棺而出氏淑，到底是詐尸還是另有隱情勃蜘，我是刑警寧澤硕噩，帶...
沈念sama閱讀 35,464評論 5贊 344
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站缭贡，受9級特大地震影響炉擅，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜阳惹，卻給世界環(huán)境...
茶點故事閱讀 41,075評論 3贊 327
男人毒藥：我在死后第九天來索命
文/蒙蒙一谍失、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧莹汤，春花似錦快鱼、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,705評論 0贊 22
一樁弒父案抹竹，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至止潮，卻和暖如春窃判，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背喇闸。一陣腳步聲響...
開封第一講書人閱讀 32,848評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工袄琳，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留询件，地道東北人。一個月前我還...
沈念sama閱讀 47,831評論 2贊 370
代替公主和親
正文我出身青樓唆樊，卻偏偏與公主長得像宛琅，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子逗旁，可洞房花燭夜當晚...
茶點故事閱讀 44,678評論 2贊 354

python大數(shù)據(jù)準備--pandas

import numpy,pandas

spark DF

pandas

numpy,scipy,pandas區(qū)別

結語

推薦閱讀更多精彩內(nèi)容