pandas筆記(Summarizing and Computing Descriptive Statistics)

Correlation and Covariance(相關性和協(xié)方差)

一些總結性的統(tǒng)計信息霹陡,如相關性和協(xié)方差瑞信,是從一對參數(shù)中計算出來的仇奶。舉個例子:使用add-on pandas-datareader軟件包進行一些統(tǒng)計操作。如果您還沒有安裝循未,可以通過conda或pip安裝:

conda install pandas-datareader

我們使用這個包里自帶的一些數(shù)據(jù)進行練習:

In [1]: import pandas_datareader.data as web

In [2]: import pandas as pd

In [3]: all_data = {ticker: web.get_data_yahoo(ticker)
   ...: for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}

In [4]: price = pd.DataFrame({ticker: data['Adj Close']
   ...: for ticker, data in all_data.items()})

In [5]: volume = pd.DataFrame({ticker: data['Volume']
   ...: for ticker, data in all_data.items()})

In [6]: returns = price.pct_change()

In [7]: returns.tail()
Out[7]:
                AAPL       IBM      MSFT      GOOG
Date
2020-06-10  0.025728 -0.015166  0.037092  0.006654
2020-06-11 -0.048010 -0.091322 -0.053698 -0.042303
2020-06-12  0.008634  0.033048  0.007892  0.006653
2020-06-15  0.012367 -0.002133  0.006392  0.004720
2020-06-16  0.026502  0.028771  0.024505  0.016107

In [8]: returns['MSFT'].corr(returns['IBM']) #相關性
Out[8]: 0.5961744396638181

In [9]: returns['MSFT'].cov(returns['IBM']) #協(xié)方差
Out[9]: 0.0001662046843830794

In [10]: returns.corr() #求所有公司之間的相關性燕雁,所以這里自己與自己的相關性就是1.0
Out[10]:
          AAPL       IBM      MSFT      GOOG
AAPL  1.000000  0.530127  0.713621  0.644238
IBM   0.530127  1.000000  0.596174  0.528073
MSFT  0.713621  0.596174  1.000000  0.751929
GOOG  0.644238  0.528073  0.751929  1.000000

In [12]: returns.cov() #顯示所有的協(xié)方差
Out[12]:
          AAPL       IBM      MSFT      GOOG
AAPL  0.000332  0.000156  0.000225  0.000201
IBM   0.000156  0.000259  0.000166  0.000146
MSFT  0.000225  0.000166  0.000300  0.000223
GOOG  0.000201  0.000146  0.000223  0.000295

你還可以指定計算某一列與其他幾列的相關性:

In [13]: returns.corrwith(returns.IBM)
Out[13]:
AAPL    0.530127
IBM     1.000000
MSFT    0.596174
GOOG    0.528073
dtype: float64

Unique Values, Value Counts(唯一數(shù)值岖妄、數(shù)值計數(shù))

unique功能可以為你提取一個Series里的唯一數(shù)值宫仗,即不重復數(shù)值:

In [14]: obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])

In [15]: uniques = obj.unique()

In [16]: uniques
Out[16]: array(['c', 'a', 'd', 'b'], dtype=object)

你會發(fā)現(xiàn)返回值沒有進行sort挤庇,你也可以對返回值進行排序:

In [17]: uniques.sort()

In [18]: uniques
Out[18]: array(['a', 'b', 'c', 'd'], dtype=object)

value_counts功能可以計算每一個元素出現(xiàn)的頻率:

In [19]: obj.value_counts()
Out[19]:
a    3
c    3
b    2
d    1
dtype: int64

isin功能可以幫助檢查某一個元素是否存在在數(shù)組里:

In [21]: mask = obj.isin(['b','c'])

In [22]: mask #先判斷b和c是否在每一項里
Out[22]:
0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [23]: obj[mask] #返回判斷為“True”的那些項
Out[23]:
0    c
5    b
6    b
7    c
8    c
dtype: object

與上面的'isin功能相似的還有一個是Index.get_indexer钞速,可以感受一下:

In [24]: to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a']) #第一個Series

In [25]: unique_vals = pd.Series(['c', 'b', 'a']) #第2個Series

In [26]: pd.Index(unique_vals).get_indexer(to_match) #判斷第二個series里的元素在第一個里的索引位置
Out[26]: array([0, 2, 1, 1, 0, 2])

那么對于dataframe來說,如何顯示每一個元素出現(xiàn)的次數(shù)呢嫡秕?

In [27]: data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
    ...: 'Qu2': [2, 3, 1, 2, 3],
    ...: 'Qu3': [1, 5, 2, 4, 4]})

In [28]: data
Out[28]:
   Qu1  Qu2  Qu3
0    1    2    1
1    3    3    5
2    4    1    2
3    3    2    4
4    4    3    4

In [29]: result = data.apply(pd.value_counts).fillna(0) #計算每一個元素出現(xiàn)的次數(shù)玉工,如果遇到?jīng)]有出現(xiàn)過的元素,則顯示0

In [30]: result
Out[30]:
   Qu1  Qu2  Qu3
1  1.0  1.0  1.0
2  0.0  2.0  1.0
3  2.0  2.0  0.0
4  2.0  0.0  2.0
5  0.0  0.0  1.0
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
禁止轉載淘菩,如需轉載請通過簡信或評論聯(lián)系作者。
  • 序言:七十年代末屠升,一起剝皮案震驚了整個濱河市潮改,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌腹暖,老刑警劉巖汇在,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異脏答,居然都是意外死亡糕殉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門殖告,熙熙樓的掌柜王于貴愁眉苦臉地迎上來阿蝶,“玉大人,你說我怎么就攤上這事黄绩∠劢啵” “怎么了?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵爽丹,是天一觀的道長筑煮。 經(jīng)常有香客問我,道長粤蝎,這世上最難降的妖魔是什么真仲? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮初澎,結果婚禮上秸应,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好灸眼,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布卧檐。 她就那樣靜靜地躺著,像睡著了一般焰宣。 火紅的嫁衣襯著肌膚如雪霉囚。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天匕积,我揣著相機與錄音盈罐,去河邊找鬼。 笑死闪唆,一個胖子當著我的面吹牛盅粪,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播悄蕾,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼票顾,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了帆调?” 一聲冷哼從身側響起奠骄,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎番刊,沒想到半個月后含鳞,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡芹务,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年蝉绷,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片枣抱。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡熔吗,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出沃但,到底是詐尸還是另有隱情磁滚,我是刑警寧澤,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布宵晚,位于F島的核電站垂攘,受9級特大地震影響,放射性物質發(fā)生泄漏淤刃。R本人自食惡果不足惜晒他,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望逸贾。 院中可真熱鬧陨仅,春花似錦津滞、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至狐赡,卻和暖如春撞鹉,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背颖侄。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工鸟雏, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人览祖。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓孝鹊,卻偏偏與公主長得像,于是被迫代替她去往敵國和親展蒂。 傳聞我的和親對象是個殘疾皇子又活,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345