pandas

1序调,讀取cs


training_raw = pd.read_csv('dataset/adult.data',? ?header=None,? ?names=headers,? ? ?sep=',\s',? ?na_values=["?"],? ?engine='python')

sep? 分隔符湖雹,na_values將嗜桌?設(shè)置為na

dtype={'onpromotion': bool},? ? ? ? ?指定數(shù)據(jù)格式

? ? converters={'unit_sales': lambda u: np.log1p(

? ? ? ? float(u)) if float(u) > 0 else 0},? ? ? 數(shù)據(jù)轉(zhuǎn)換

? ? parse_dates=["date"],? ? ? ? ? 將數(shù)據(jù)轉(zhuǎn)換成時(shí)間數(shù)據(jù),并放在第一列

? ? skiprows=range(1, 66458909)? ? ? ? 跳過這兩行不讀

2好港,存儲(chǔ)csv


df1.to_csv('test.csv', encoding='utf-8', index=False)

index=False 為不要索引

3愉镰,讀取excel


pd.read_excel?

可指定sheet_name 如sheet_name='Sheet1',

keep_default_na=False 使默認(rèn)空值變?yōu)?'媚狰,

header=None不要表頭

4岛杀,DataFrame


pd.DataFrame(x_test, columns=columns)

數(shù)據(jù)表內(nèi)容為x_test阔拳,columns為數(shù)據(jù)表所有屬性值

DataFrame.columns 為取數(shù)據(jù)表所有屬性值

5崭孤,loc,iloc


df1.loc[:, '營銷是否成功'] = y_test

loc可指定不存在的屬性,iloc只可指定存在的屬性

6糊肠,取索引的值


df.iloc[:, :-1].values

取除最后一列辨宠,所有行的值

7,取所有索引


index_list = data.index.values

8货裹,改變數(shù)據(jù)表的值


data.iloc[i +1, 0] = name

9嗤形,顯示數(shù)字型特征和標(biāo)量型特征

數(shù)字型:?可計(jì)算.

標(biāo)量型:?任何包含類別或文本的特征.

# 顯示所有數(shù)字型特征

dataset_raw.describe()

# 標(biāo)量型特征

dataset_raw.describe(include=['0'])

10,顯示該列數(shù)據(jù)類型

dataset_raw.dtypes['fnlwgt']

11弧圆,predclass列大于50設(shè)為1

dataset_raw.loc[dataset_raw['predclass'] == '>50K', 'predclass'] = 1

12赋兵,cut 分箱

dataset_bin['age'] = pd.cut(dataset_raw['age'], 10)

10為分箱個(gè)數(shù)

13笔咽,pandas提供對(duì)one-hot編碼的函數(shù)是:pd.get_dummies()

dataset_bin_enc = pd.get_dummies(dataset_bin, columns=one_hot_cols)

14,astype? 設(shè)定字符類型

dataset_con = dataset_con.astype(str)

?將非數(shù)字特征轉(zhuǎn)化為數(shù)字特征

grid_df[col] = grid_df[col].astype('category')

15,刪除某一列

dataset_con_enc.drop('predclass', axis=1)

16霹期,根據(jù)某值進(jìn)行排序

importance.sort_values(by='Importance', ascending=True)

# 可以通過subset參數(shù)來刪除在age和sex中含有空數(shù)據(jù)的全部行叶组,空值值np.nan????

new_titanic_survival = titanic_survival.dropna(subset=["age","sex"])

17,刪除空行,去除缺失值

train = train.dropna(axis=0)

18历造,空值填充

dataset.fillna(-1,inplace=True)

19,分組甩十,gruop by?

http://www.reibang.com/p/50fb023f208c

20? ?reset_index? 添加索引

https://blog.csdn.net/weixin_43655282/article/details/97889398

#drop=True: 把原來的索引index列去掉,丟掉

21, merge? 合并

https://blog.csdn.net/Asher117/article/details/84725199

22,value_counts() 計(jì)算每一列有多少重復(fù)值

dropna=False,不去除空值吭产,normalize 計(jì)算每個(gè)值的占比

http://www.reibang.com/p/f773b4b82c66

23,iterrows

https://blog.csdn.net/Softdiamonds/article/details/80218777

24侣监,pandas group分組與agg聚合

https://blog.csdn.net/u012706792/article/details/80892510

25,map,apply

https://blog.csdn.net/u010814042/article/details/76401133

26,quantile

#quantile 四分位數(shù)函數(shù)

?group[group < group.quantile(.05)] = group.quantile(.05)

27,transform

http://www.reibang.com/p/509d7b97088c

28.drop_duplicates? ? 數(shù)據(jù)去重

https://blog.csdn.net/ghr5582/article/details/80693882

29臣淤,nunique??即返回的是唯一值的個(gè)數(shù)

https://blog.csdn.net/feizxiang3/article/details/93380525

30,sample? 混排

x_data = x_data.sample(frac=1, random_state=1).reset_index(drop=True)

https://www.cnblogs.com/webRobot/p/11484648.html

31,tail

tail()?方法就是從數(shù)據(jù)集尾部開始顯示了橄霉,同樣默認(rèn) 5 條,可自定義邑蒋。

32,相關(guān)系數(shù)酪劫,corr()

https://blog.csdn.net/walking_visitor/article/details/85128461

32?as_matrix

https://www.cnblogs.com/key221/p/9394051.html

33,.transpose

行列轉(zhuǎn)換

pd.DataFrame(deck_percentages).transpose()

34,.levels

層級(jí)索引寺董,只有g(shù)roupby之后會(huì)用到

35覆糟,qcut? 分箱

pd.qcut(df_all['Fare'], 13)

36,數(shù)據(jù)切分? split

df_all['Title'] = df_all['Name'].str.split(', ', expand=True)[1].str.split('.', expand=True)[0]

# expand : 布爾值,默認(rèn)為False.如果為真返回?cái)?shù)據(jù)框(DataFrame)或復(fù)雜索引(MultiIndex);如果為假,返回序列(Series)或者索引(Index)

37,.cat 連接字符串

https://blog.csdn.net/zbrj12345/article/details/81181015

38,melt

index_columns = ['id','item_id','dept_id','cat_id','store_id','state_id']

#id_vars 指數(shù)據(jù)的id(標(biāo)識(shí),不變的量)遮咖,剩下的列為目標(biāo)變量滩字,變化之后變量名字為var_name,指的名字為value_name

train_df = train_df.melt(id_vars = index_columns,var_name='d',value_name='sales')

前:

34,shift

數(shù)據(jù)在df中移位

https://www.cnblogs.com/liulangmao/p/9301032.html

35,rolling 處理時(shí)間序列方法

https://blog.csdn.net/liuhaolei1992/article/details/89421212

36,reindex? ? 改變索引御吞,可以做到增改的操作

https://blog.csdn.net/missyougoon/article/details/83409717

37,diff? ? ?diff用于計(jì)算一列中某元素與該列中另一個(gè)元素的差值

https://jingyan.baidu.com/article/2a13832852b1d1464a134f90.html

38? ??add_prefix

帶有字符串前綴的前綴標(biāo)簽

,https://www.cjavapy.com/article/276/

39? resamle? ?重新采樣

https://www.jb51.net/article/164438.htm

40麦箍,slice 切分?jǐn)?shù)據(jù)

https://blog.csdn.net/claroja/article/details/64925356

41,assign? 直接向DF中添加一列

https://www.cnblogs.com/jason--/p/11502710.html

42,to_pickle

保存數(shù)據(jù)

43,日期格式方法

grid_df['date'] = pd.to_datetime(grid_df['date'])

grid_df['tm_d'] = grid_df['date'].dt.day.astype(np.int8)

grid_df['tm_w'] = grid_df['date'].dt.week.astype(np.int8)

grid_df['tm_m'] = grid_df['date'].dt.month.astype(np.int8)

grid_df['tm_y'] = grid_df['date'].dt.year

grid_df['tm_y'] = (grid_df['tm_y'] - grid_df['tm_y'].min()).astype(np.int8)

grid_df['tm_wm'] = grid_df['tm_d'].apply(lambda x: ceil(x/7)).astype(np.int8) 全年的第幾個(gè)星期

grid_df['tm_dw'] = grid_df['date'].dt.dayofweek.astype(np.int8)

grid_df['tm_w_end'] = (grid_df['tm_dw']>=5).astype(np.int8)是否為周末

44,train['SalePrice'].skew()? 偏度

train['SalePrice'].kurt()? ? 峰度

45, crosstable 交叉表

https://www.cnblogs.com/rachelross/p/10468589.html

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末陶珠,一起剝皮案震驚了整個(gè)濱河市挟裂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌揍诽,老刑警劉巖诀蓉,帶你破解...
    沈念sama閱讀 216,651評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異暑脆,居然都是意外死亡渠啤,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,468評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門添吗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來沥曹,“玉大人,你說我怎么就攤上這事〖嗣溃” “怎么了僵腺?”我有些...
    開封第一講書人閱讀 162,931評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長壶栋。 經(jīng)常有香客問我想邦,道長,這世上最難降的妖魔是什么委刘? 我笑而不...
    開封第一講書人閱讀 58,218評(píng)論 1 292
  • 正文 為了忘掉前任丧没,我火速辦了婚禮,結(jié)果婚禮上锡移,老公的妹妹穿的比我還像新娘呕童。我一直安慰自己,他們只是感情好淆珊,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,234評(píng)論 6 388
  • 文/花漫 我一把揭開白布夺饲。 她就那樣靜靜地躺著,像睡著了一般施符。 火紅的嫁衣襯著肌膚如雪往声。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,198評(píng)論 1 299
  • 那天戳吝,我揣著相機(jī)與錄音浩销,去河邊找鬼。 笑死听哭,一個(gè)胖子當(dāng)著我的面吹牛慢洋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播陆盘,決...
    沈念sama閱讀 40,084評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼普筹,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼!你這毒婦竟也來了隘马?” 一聲冷哼從身側(cè)響起太防,我...
    開封第一講書人閱讀 38,926評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎酸员,沒想到半個(gè)月后蜒车,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,341評(píng)論 1 311
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡沸呐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,563評(píng)論 2 333
  • 正文 我和宋清朗相戀三年醇王,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了呢燥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片崭添。...
    茶點(diǎn)故事閱讀 39,731評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖叛氨,靈堂內(nèi)的尸體忽然破棺而出呼渣,到底是詐尸還是另有隱情棘伴,我是刑警寧澤,帶...
    沈念sama閱讀 35,430評(píng)論 5 343
  • 正文 年R本政府宣布屁置,位于F島的核電站焊夸,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏蓝角。R本人自食惡果不足惜阱穗,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,036評(píng)論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望使鹅。 院中可真熱鬧揪阶,春花似錦、人聲如沸患朱。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,676評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽裁厅。三九已至冰沙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間执虹,已是汗流浹背拓挥。 一陣腳步聲響...
    開封第一講書人閱讀 32,829評(píng)論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留袋励,地道東北人撞叽。 一個(gè)月前我還...
    沈念sama閱讀 47,743評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像插龄,于是被迫代替她去往敵國和親愿棋。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,629評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容