Lesson 30 交叉分析(cross-over analysis)
通常用于分析兩個或兩個以上,分組變量之間的關(guān)系,以交叉表形式進行變量間關(guān)系的對比分析
數(shù)據(jù)透視表函數(shù)
pivot_table(values, index, columns, aggfunc, fill_value)
values: 數(shù)據(jù)透視表中的值
index: 數(shù)據(jù)透視表中的行
columns: 數(shù)據(jù)透視表中的列
aggfunc: 統(tǒng)計函數(shù)
fill_value: NA值的統(tǒng)一替換
Lesson 31 結(jié)構(gòu)分析(structure analysis)
在分組以及交叉分析的基礎(chǔ)上,計算各組成部分所占的比重,進而分析總體的內(nèi)部特征的分析方法
主要是指定性分組, e.g.性別結(jié)構(gòu)谢澈,股權(quán)結(jié)構(gòu),市場結(jié)構(gòu)御板,地區(qū)結(jié)構(gòu)
通常使用餅圖锥忿,如果結(jié)構(gòu)成分較少,可考慮圓環(huán)圖
axis:
0 -> 按列運算 default
1 -> 按行運算
數(shù)據(jù)框外運算函數(shù):add, sub, multiply, div
數(shù)據(jù)框內(nèi)運算函數(shù):sum, mean, var, sd
Lesson 32 相關(guān)分析(correlation analysis)
研究兩個或兩個以上隨機變量之間互相依存關(guān)系的方向和密切程度
可分成線性相關(guān)和非線性相關(guān)
線性相關(guān)關(guān)系主要采用皮爾遜相關(guān)系數(shù)r來度量連續(xù)變量之間線性相關(guān)強度
-1<=r<=1
線性相關(guān)系數(shù)r絕對值取值范圍 | 相關(guān)程度
----|------|----
0 <= r絕對值 < 0.3 | 低度相關(guān)
0.3 <= r絕對值 < 0.8 | 中度相關(guān)
0.8 <= r絕對值 <= 1 | 高度相關(guān)
相關(guān)分析函數(shù)
#計算每個列兩兩之間的相關(guān)度怠肋,并返回DataFrame
DataFrame.corr()
#只計算該序列與傳入的序列之間的相關(guān)度, 返回一個數(shù)值型敬鬓,大小為相關(guān)度
Series.corr(other)