一鸿染、sort_values函數(shù)(python-pandas庫)
sort_values(by,axis=0,ascending=True,inplace=False,kind='quicksort',na_position='last')
參數(shù)說明:
by:?可以填入字符串或者字符串組成的列表咖杂。也就是說,如果axis=0走净,那么by="列名";如果axis=1囊嘉,那么by="行名"温技。
axis:?{0 or ‘index’, 1 or ‘columns’}, default 0,意思就是如果axis=0扭粱,就按照索引排序舵鳞,即縱向排序;如果axis=1琢蛤,則按列排序蜓堕,即橫向排序。默認(rèn)是axis=0博其。
ascending:?輸入布爾型套才,True是升序,False是降序慕淡,也可以可以是[True,False]背伴,即第一個(gè)字段升序,第二個(gè)字段降序 峰髓。
inplace: 輸入布爾型傻寂,是否用排序后的數(shù)據(jù)框替換現(xiàn)有的數(shù)據(jù)框
kind:?排序的方法,{‘quicksort’, ‘mergesort’, ‘heapsort’}携兵,默認(rèn)是使用‘quicksort’疾掰。這個(gè)參數(shù)用的比較少,大家可以試一試徐紧。
na_position :?{‘first’, ‘last’}静檬,缺失值的排序炭懊,也就說決定將缺失值放在數(shù)據(jù)的最前面還是最后面。first是排在前面拂檩,last是排在后面侮腹,默認(rèn)是用last。
例子:
scores= pd.DataFrame([[87,56,85],[46,87,97],[34,65,86]],columns=['jack', 'rose', 'mike'])
scores
1.對(duì)‘rose’這一列進(jìn)行降序排序:
df_sc=scores.sort_values(by='rose',ascending=False)
df_sc
2.對(duì)第0行進(jìn)行升序排序:
scores.sort_values(by=0,axis=1,ascending=True)
3.第1行進(jìn)行升序广恢,第0行進(jìn)行降序:
scores.sort_values(by=[1,0],axis=1,ascending=[True,False]
4.觀察數(shù)據(jù)
data.head:
查看數(shù)據(jù)的前五行凯旋。
data.tail:
查看數(shù)據(jù)的后五行。
data.shape :
查看矩陣或數(shù)組的維數(shù)钉迷,或者是說數(shù)據(jù)表的結(jié)構(gòu)(有幾行幾列)至非。
查看數(shù)據(jù)的基本信息,如:數(shù)據(jù)類型糠聪、缺失值數(shù)量等荒椭。
二、中英文分類
#brand目標(biāo):中文-中英-英文
2.1 包含中文舰蟆,純英文
for i in range(0,len(file1)):
? ? result = re.compile(u'[\u4e00-\u9fa5]')
? ? contents = file1['brand'][i]
? ? match = result.search(contents)
? ? if match:
? ? ? ? file1.loc[i,['index1']]=0? ? #0為包含中文
? ? else:
? ? ? ? file1.loc[i,['index1']]=1? ? #1為純英文
2.1 包含英文趣惠,純中文
for i in range(0,len(file1)):
? ? file1.loc[i,['index2']]=len(re.findall('[a-zA-Z]+', file1['brand'][i]) )? #0為純中文,1為包含英文