pandas

1序调，讀取cs

training_raw = pd.read_csv('dataset/adult.data',? ?header=None,? ?names=headers,? ? ?sep=',\s',? ?na_values=["?"],? ?engine='python')

sep? 分隔符湖雹，na_values將嗜桌？設(shè)置為na

dtype={'onpromotion': bool},? ? ? ? ?指定數(shù)據(jù)格式

? ? converters={'unit_sales': lambda u: np.log1p(

? ? ? ? float(u)) if float(u) > 0 else 0},? ? ? 數(shù)據(jù)轉(zhuǎn)換

? ? parse_dates=["date"],? ? ? ? ? 將數(shù)據(jù)轉(zhuǎn)換成時(shí)間數(shù)據(jù)，并放在第一列

? ? skiprows=range(1, 66458909)? ? ? ? 跳過這兩行不讀

2好港，存儲(chǔ)csv

df1.to_csv('test.csv', encoding='utf-8', index=False)

index=False 為不要索引

3愉镰，讀取excel

pd.read_excel?

可指定sheet_name 如sheet_name='Sheet1'，

keep_default_na=False 使默認(rèn)空值變?yōu)?'媚狰，

header=None不要表頭

4岛杀，DataFrame

pd.DataFrame(x_test, columns=columns)

數(shù)據(jù)表內(nèi)容為x_test阔拳，columns為數(shù)據(jù)表所有屬性值

DataFrame.columns 為取數(shù)據(jù)表所有屬性值

5崭孤，loc，iloc

df1.loc[:, '營銷是否成功'] = y_test

loc可指定不存在的屬性,iloc只可指定存在的屬性

6糊肠，取索引的值

df.iloc[:, :-1].values

取除最后一列辨宠，所有行的值

7，取所有索引

index_list = data.index.values

8货裹，改變數(shù)據(jù)表的值

data.iloc[i +1, 0] = name

9嗤形，顯示數(shù)字型特征和標(biāo)量型特征

數(shù)字型:?可計(jì)算.

標(biāo)量型:?任何包含類別或文本的特征.

# 顯示所有數(shù)字型特征

dataset_raw.describe()

# 標(biāo)量型特征

dataset_raw.describe(include=['0'])

10，顯示該列數(shù)據(jù)類型

dataset_raw.dtypes['fnlwgt']

11弧圆，predclass列大于50設(shè)為1

dataset_raw.loc[dataset_raw['predclass'] == '>50K', 'predclass'] = 1

12赋兵，cut 分箱

dataset_bin['age'] = pd.cut(dataset_raw['age'], 10)

10為分箱個(gè)數(shù)

13笔咽，pandas提供對(duì)one-hot編碼的函數(shù)是：pd.get_dummies()

dataset_bin_enc = pd.get_dummies(dataset_bin, columns=one_hot_cols)

14，astype? 設(shè)定字符類型

dataset_con = dataset_con.astype(str)

?將非數(shù)字特征轉(zhuǎn)化為數(shù)字特征

grid_df[col] = grid_df[col].astype('category')

15,刪除某一列

dataset_con_enc.drop('predclass', axis=1)

16霹期，根據(jù)某值進(jìn)行排序

importance.sort_values(by='Importance', ascending=True)

# 可以通過subset參數(shù)來刪除在age和sex中含有空數(shù)據(jù)的全部行叶组，空值值np.nan????

new_titanic_survival = titanic_survival.dropna(subset=["age","sex"])

17,刪除空行，去除缺失值

train = train.dropna(axis=0)

18历造，空值填充

dataset.fillna(-1,inplace=True)

19,分組甩十，gruop by?

http://www.reibang.com/p/50fb023f208c

20? ?reset_index? 添加索引

https://blog.csdn.net/weixin_43655282/article/details/97889398

#drop=True: 把原來的索引index列去掉，丟掉

21, merge? 合并

https://blog.csdn.net/Asher117/article/details/84725199

22,value_counts() 計(jì)算每一列有多少重復(fù)值

dropna=False,不去除空值吭产，normalize 計(jì)算每個(gè)值的占比

http://www.reibang.com/p/f773b4b82c66

23,iterrows

https://blog.csdn.net/Softdiamonds/article/details/80218777

24侣监，pandas group分組與agg聚合

https://blog.csdn.net/u012706792/article/details/80892510

25,map,apply

https://blog.csdn.net/u010814042/article/details/76401133

26，quantile

#quantile 四分位數(shù)函數(shù)

?group[group < group.quantile(.05)] = group.quantile(.05)

27,transform

http://www.reibang.com/p/509d7b97088c

28.drop_duplicates? ? 數(shù)據(jù)去重

https://blog.csdn.net/ghr5582/article/details/80693882

29臣淤，nunique??即返回的是唯一值的個(gè)數(shù)

https://blog.csdn.net/feizxiang3/article/details/93380525

30,sample? 混排

x_data = x_data.sample(frac=1, random_state=1).reset_index(drop=True)

https://www.cnblogs.com/webRobot/p/11484648.html

31,tail

tail()?方法就是從數(shù)據(jù)集尾部開始顯示了橄霉，同樣默認(rèn) 5 條，可自定義邑蒋。

32,相關(guān)系數(shù)酪劫，corr()

https://blog.csdn.net/walking_visitor/article/details/85128461

32?as_matrix

https://www.cnblogs.com/key221/p/9394051.html

33，.transpose

行列轉(zhuǎn)換

pd.DataFrame(deck_percentages).transpose()

34,.levels

層級(jí)索引寺董，只有g(shù)roupby之后會(huì)用到

35覆糟，qcut? 分箱

pd.qcut(df_all['Fare'], 13)

36,數(shù)據(jù)切分? split

df_all['Title'] = df_all['Name'].str.split(', ', expand=True)[1].str.split('.', expand=True)[0]

# expand : 布爾值,默認(rèn)為False.如果為真返回?cái)?shù)據(jù)框(DataFrame)或復(fù)雜索引(MultiIndex);如果為假,返回序列(Series)或者索引(Index)

37,.cat 連接字符串

https://blog.csdn.net/zbrj12345/article/details/81181015

38,melt

index_columns = ['id','item_id','dept_id','cat_id','store_id','state_id']

#id_vars 指數(shù)據(jù)的id(標(biāo)識(shí)，不變的量)遮咖，剩下的列為目標(biāo)變量滩字，變化之后變量名字為var_name,指的名字為value_name

train_df = train_df.melt(id_vars = index_columns,var_name='d',value_name='sales')

前：

后

34,shift

數(shù)據(jù)在df中移位

https://www.cnblogs.com/liulangmao/p/9301032.html

35,rolling 處理時(shí)間序列方法

https://blog.csdn.net/liuhaolei1992/article/details/89421212

36，reindex? ? 改變索引御吞，可以做到增改的操作

https://blog.csdn.net/missyougoon/article/details/83409717

37,diff? ? ?diff用于計(jì)算一列中某元素與該列中另一個(gè)元素的差值

https://jingyan.baidu.com/article/2a13832852b1d1464a134f90.html

38? ??add_prefix

帶有字符串前綴的前綴標(biāo)簽

,https://www.cjavapy.com/article/276/

39? resamle? ?重新采樣

https://www.jb51.net/article/164438.htm

40麦箍，slice 切分?jǐn)?shù)據(jù)

https://blog.csdn.net/claroja/article/details/64925356

41,assign? 直接向DF中添加一列

https://www.cnblogs.com/jason--/p/11502710.html

42,to_pickle

保存數(shù)據(jù)

43,日期格式方法

grid_df['date'] = pd.to_datetime(grid_df['date'])

grid_df['tm_d'] = grid_df['date'].dt.day.astype(np.int8)

grid_df['tm_w'] = grid_df['date'].dt.week.astype(np.int8)

grid_df['tm_m'] = grid_df['date'].dt.month.astype(np.int8)

grid_df['tm_y'] = grid_df['date'].dt.year

grid_df['tm_y'] = (grid_df['tm_y'] - grid_df['tm_y'].min()).astype(np.int8)

grid_df['tm_wm'] = grid_df['tm_d'].apply(lambda x: ceil(x/7)).astype(np.int8) 全年的第幾個(gè)星期

grid_df['tm_dw'] = grid_df['date'].dt.dayofweek.astype(np.int8)

grid_df['tm_w_end'] = (grid_df['tm_dw']>=5).astype(np.int8)是否為周末

44，train['SalePrice'].skew()? 偏度

train['SalePrice'].kurt()? ? 峰度

45, crosstable 交叉表

https://www.cnblogs.com/rachelross/p/10468589.html

最后編輯于：2020.07.26 10:43:24

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末陶珠，一起剝皮案震驚了整個(gè)濱河市挟裂，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌揍诽，老刑警劉巖诀蓉，帶你破解...
沈念sama閱讀 216,651評(píng)論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異暑脆，居然都是意外死亡渠啤，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,468評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門添吗，熙熙樓的掌柜王于貴愁眉苦臉地迎上來沥曹，“玉大人，你說我怎么就攤上這事〖嗣溃” “怎么了僵腺？”我有些...
開封第一講書人閱讀 162,931評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長壶栋。經(jīng)常有香客問我想邦，道長，這世上最難降的妖魔是什么委刘？我笑而不...
開封第一講書人閱讀 58,218評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任丧没，我火速辦了婚禮，結(jié)果婚禮上锡移，老公的妹妹穿的比我還像新娘呕童。我一直安慰自己，他們只是感情好淆珊，可當(dāng)我...
茶點(diǎn)故事閱讀 67,234評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布夺饲。她就那樣靜靜地躺著，像睡著了一般施符。火紅的嫁衣襯著肌膚如雪往声。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,198評(píng)論 1贊 299
城市分裂傳說
那天戳吝，我揣著相機(jī)與錄音浩销，去河邊找鬼。笑死听哭，一個(gè)胖子當(dāng)著我的面吹牛慢洋，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播陆盘，決...
沈念sama閱讀 40,084評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼普筹，長吁一口氣：“原來是場噩夢(mèng)啊……” “哼！你這毒婦竟也來了隘马？” 一聲冷哼從身側(cè)響起太防，我...
開封第一講書人閱讀 38,926評(píng)論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎酸员，沒想到半個(gè)月后蜒车，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,341評(píng)論 1贊 311
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡沸呐，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,563評(píng)論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年醇王，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了呢燥。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片崭添。...
茶點(diǎn)故事閱讀 39,731評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖叛氨，靈堂內(nèi)的尸體忽然破棺而出呼渣，到底是詐尸還是另有隱情棘伴，我是刑警寧澤，帶...
沈念sama閱讀 35,430評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布屁置，位于F島的核電站焊夸，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏蓝角。R本人自食惡果不足惜阱穗，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,036評(píng)論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望使鹅。院中可真熱鬧揪阶，春花似錦、人聲如沸患朱。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,676評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽裁厅。三九已至冰沙，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間执虹，已是汗流浹背拓挥。一陣腳步聲響...
開封第一講書人閱讀 32,829評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留袋励，地道東北人撞叽。一個(gè)月前我還...
沈念sama閱讀 47,743評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像插龄，于是被迫代替她去往敵國和親愿棋。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,629評(píng)論 2贊 354

pandas

推薦閱讀更多精彩內(nèi)容