python大數(shù)據(jù)準備--pandas

文/michaelgbw

import numpy,pandas

python這個語言有著天然的數(shù)據(jù)計算優(yōu)勢,numpy,scipy,pandas這些拓展的出現(xiàn)更是如虎添翼~更有ML的sklearn等,這里我們先打好基礎独泞。

# encoding=utf-8
from __future__ import division

import pandas as pd 
import numpy as np

spark DF

說起pandas凿宾,我總會和spark做比較短条,spark將RDD轉為DF叶堆,然后一句SQL搞定,不要太爽~

val str = "XXX,XXX,XXX,XXX"
val field = str.split(",")
         .map(fieldName => 
         StructField(fieldName, StringType, nullable = true))
val schema = StructType(field)
         world.foreachRDD{
                rdd =>
                val rowRDD = rdd.map(a=>  Row(a(1),a(2),a(3),a(4)))
                val rechargeDF = sqc.createDataFrame(rowRDD, schema)
         rechargeDF.registerTempTable("test")
                var query = sqc.sql("select count(*) from test")
}
}

而且sql中可以添加UDF即用戶自己的function流礁,更是即為靈活
大家參考這個 http://www.tuicool.com/articles/yiMneyI

pandas

我們言歸正傳

來來來,我們跟著這個一起學習

# encoding=utf-8
from __future__ import division

import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt 
import scipy as sy

dates = pd.date_range('20170228',periods=10)#從2017-02-28開始共10天
#randn(10,4)正太分布
df = pd.DataFrame(np.random.randn(10,4), index=dates, columns=list('ABCD'))
#randint整型隨機
df = pd.DataFrame(np.random.randint(1,10,size=(10,4)), index=dates, columns=list('ABCD'))
#可以自己制定DF
df2 = pd.DataFrame({ 'A' : 1.,
            'B' : pd.Timestamp('20130102'),
                        'C' : pd.Series(1,index=list(range(4)),dtype='float32'),
                        'D' : np.array([3] * 4,dtype='int32'),
                        'E' : pd.Categorical(["test","train","test","train"]),
                        'F' : 'foo' })
df.describe()
#count 每列的數(shù)量
#mean 每列的均值
#std 每列的標準差
#std 每列的標準差
#XX% 每列的個分位數(shù)
#max 每列的最大值

pd.read_csv()  #讀scv
df.to_csv('xx.csv')  #輸出為scv
df.sort_index(axis=1, ascending=False) #按列關鍵字排序
df.sort_values(by='B',ascending=False) #按值排序

df3 = pd.DataFrame({'A' : ['foo', 'bar', 'foo', 'bar',
                            'foo', 'bar', 'foo', 'foo'],
                        'B' : ['one', 'one', 'two', 'three',
                            'two', 'two', 'one', 'three'],
                        'C' : np.random.randn(8),
                        'D' : np.random.randn(8)})
df.groupby(['A','B']).sum() #select sum(`A`),sum(`B`) from df group by A,B
df.groupby(['A']).count() #select count(`A`) from df group by A

而我們整理好的dataframe 轉化為其他數(shù)據(jù)類型也十分方便罗丰。

numpy,scipy,pandas區(qū)別

  • numpy主要是用于數(shù)值計算神帅,包括sin、cos萌抵、exp等枕稀,同時提供N維數(shù)據(jù)對象;
  • pandas提供了數(shù)據(jù)結構和數(shù)據(jù)分析工具;
  • scipy 則是基于numpy萎坷,提供了一個在python中做科學計算的工具集凹联,也就是說它是更上一個層次的庫;

結語

先知道有這個東西哆档,然后多在實際中應用哦~

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蔽挠,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子瓜浸,更是在濱河造成了極大的恐慌澳淑,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,997評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件插佛,死亡現(xiàn)場離奇詭異杠巡,居然都是意外死亡,警方通過查閱死者的電腦和手機雇寇,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,603評論 3 392
  • 文/潘曉璐 我一進店門氢拥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人锨侯,你說我怎么就攤上這事嫩海。” “怎么了囚痴?”我有些...
    開封第一講書人閱讀 163,359評論 0 353
  • 文/不壞的土叔 我叫張陵叁怪,是天一觀的道長。 經(jīng)常有香客問我深滚,道長奕谭,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,309評論 1 292
  • 正文 為了忘掉前任痴荐,我火速辦了婚禮血柳,結果婚禮上,老公的妹妹穿的比我還像新娘蹬昌。我一直安慰自己混驰,他們只是感情好,可當我...
    茶點故事閱讀 67,346評論 6 390
  • 文/花漫 我一把揭開白布皂贩。 她就那樣靜靜地躺著栖榨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪明刷。 梳的紋絲不亂的頭發(fā)上婴栽,一...
    開封第一講書人閱讀 51,258評論 1 300
  • 那天,我揣著相機與錄音辈末,去河邊找鬼愚争。 笑死映皆,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的轰枝。 我是一名探鬼主播捅彻,決...
    沈念sama閱讀 40,122評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鞍陨!你這毒婦竟也來了步淹?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 38,970評論 0 275
  • 序言:老撾萬榮一對情侶失蹤诚撵,失蹤者是張志新(化名)和其女友劉穎缭裆,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體寿烟,經(jīng)...
    沈念sama閱讀 45,403評論 1 313
  • 正文 獨居荒郊野嶺守林人離奇死亡澈驼,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,596評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了筛武。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片缝其。...
    茶點故事閱讀 39,769評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖畅铭,靈堂內(nèi)的尸體忽然破棺而出氏淑,到底是詐尸還是另有隱情勃蜘,我是刑警寧澤硕噩,帶...
    沈念sama閱讀 35,464評論 5 344
  • 正文 年R本政府宣布,位于F島的核電站缭贡,受9級特大地震影響炉擅,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜阳惹,卻給世界環(huán)境...
    茶點故事閱讀 41,075評論 3 327
  • 文/蒙蒙 一谍失、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧莹汤,春花似錦快鱼、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,705評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至止潮,卻和暖如春窃判,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背喇闸。 一陣腳步聲響...
    開封第一講書人閱讀 32,848評論 1 269
  • 我被黑心中介騙來泰國打工袄琳, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留询件,地道東北人。 一個月前我還...
    沈念sama閱讀 47,831評論 2 370
  • 正文 我出身青樓唆樊,卻偏偏與公主長得像宛琅,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子逗旁,可洞房花燭夜當晚...
    茶點故事閱讀 44,678評論 2 354

推薦閱讀更多精彩內(nèi)容