pandas read_csv函數(shù)
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html?
%matplotlib inline的作用
%matplotlib inline是在使用jupyter notebook 或者 jupyter qtconsole的時(shí)候购公,才會(huì)經(jīng)常用到哪审。用處是當(dāng)你調(diào)用matplotlib.pyplot的繪圖函數(shù)plot()進(jìn)行繪圖的時(shí)候养篓,或者生成一個(gè)figure畫布的時(shí)候泡躯,可以直接在你的python console里面生成圖像旗们。省略plt.show()
鏈接:http://www.reibang.com/p/2dda5bb8ce7d
sklearn中, fit痛倚,fit_transform,transform的區(qū)別與聯(lián)系
https://blog.csdn.net/ljyljyok/article/details/79722089
matplotlib
matplotlib的pyplot子庫提供了和matlab類似的繪圖API咬展,方便用戶快速繪制2D圖表
一般用以下形式導(dǎo)入:import matplotlib.pyplot as plt
一般用法:
1丰刊、plt.figure(figsize=(8,4)):創(chuàng)建一個(gè)指定大小的figure隘谣,單位英寸,若不創(chuàng)建figure直接plot則會(huì)默認(rèn)創(chuàng)建figure
2啄巧、plt.plot(x,y,label="$sin(x)$",color="red",linewidth=2):
x和y一般為numpy創(chuàng)建的數(shù)組
label : 給所繪制的曲線一個(gè)名字寻歧,此名字在圖示(legend)中顯示。只要在字符串前后添加"$"符號(hào)秩仆,matplotlib就會(huì)使用其內(nèi)嵌的latex引擎繪制的數(shù)學(xué)公式码泛。
color : 指定曲線的顏色
linewidth : 指定曲線的寬度
3、plt.xlabel("")澄耍,plt.ylabel(""):設(shè)置坐標(biāo)軸名字
4噪珊、plt.title(""):設(shè)置圖表標(biāo)題
5、plt.xlim()齐莲,plt.ylim():設(shè)置坐標(biāo)軸范圍
6卿城、plt.legend():顯示圖例
7、plt.show():顯示創(chuàng)建的所有繪圖對(duì)象結(jié)果
8铅搓、plt.subplot(numRows, numCols, plotNum):將整個(gè)繪圖區(qū)域等分為numRows行 * numCols列個(gè)子區(qū)域瑟押,當(dāng)繪圖對(duì)象中有多個(gè)軸的時(shí)候,可以通過工具欄中的Configure Subplots按鈕星掰,交互式地調(diào)節(jié)軸之間的間距和軸與邊框之間的距離多望。如果希望在程序中調(diào)節(jié)的話,可以調(diào)用subplots_adjust函數(shù)氢烘,它有l(wèi)eft, right, bottom, top, wspace, hspace等幾個(gè)關(guān)鍵字參數(shù)怀偷,這些參數(shù)的值都是0到1之間的小數(shù),它們是以繪圖區(qū)域的寬高為1進(jìn)行正規(guī)化之后的坐標(biāo)或者長(zhǎng)度播玖。
9椎工、以上是一般的基礎(chǔ)用法,進(jìn)階用法是對(duì)Artist進(jìn)行操作,Artists分為簡(jiǎn)單類型和容器類型兩種维蒙。簡(jiǎn)單類型的Artists為標(biāo)準(zhǔn)的繪圖元件掰吕,例如Line2D、 Rectangle颅痊、 Text殖熟、AxesImage 等等。而容器類型則可以包含許多簡(jiǎn)單類型的Artists斑响,使它們組織成一個(gè)整體菱属,例如Axis、 Axes舰罚、Figure等
簡(jiǎn)單說每個(gè)獨(dú)立部分都是一個(gè)獨(dú)立的Artists纽门,通過對(duì)每個(gè)Artists的屬性進(jìn)行設(shè)置(set_*),可以得到最終理想的結(jié)果营罢,具體參考http://old.sebug.net/paper/books/scipydoc/matplotlib_intro.html
特征處理:
sklearn.preprocessing.LabelEncoder 可以把無序變量或者分類變量編碼成數(shù)字
測(cè)試集訓(xùn)練集區(qū)分 cross_validation.train_test_split
from sklearn import cross_validation,preprocessing
X= processed_df.drop(['survived'],axis=1).values
y= processed_df['survived'].values
X_train,X_test, y_train,y_test= cross_validation.train_test_split(X,y,test_size=0.2)
gbdt的sklearn調(diào)用方法
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html
from sklearn.ensemble import GradientBoostingClassifier
gbdt=GradientBoostingClassifier(n_estimators=50)
gbdt.fit(X_train, y_train)
gbdt.score(X_test, y_test)
features = pd.DataFrame()
features['feature'] = ['pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked']
features['importance'] = gbdt.feature_importances_
features.sort_values(by=['importance'], ascending=True, inplace=True)
features.set_index('feature', inplace=True)
features.plot(kind='barh',figsize=(10,5),fontsize=10)