問題一:python是下載32位還是64位?
個人建議是64位粹庞,原因是有些包并不支持32位的python椭豫,比如搞模型的同學(xué)會用到的lightgbm,就沒有32位的包發(fā)布,所以建議直接一步到位蚓土,下載64位的python安裝包
問題二:如何解決python導(dǎo)入導(dǎo)出中文文件的問題?
首先建議在腳本的第一行寫下如下內(nèi)容:
#-*- coding: utf-8 -*-
上面的腳本是用來設(shè)置字符編碼赖淤,采用utf-8編碼支持中文
但是會有即便輸出了這一行腳本蜀漆,仍然是亂碼的問題,下面的解決方法咱旱,親測有效
import pandas as pd
from_path = 'XXX'
data = pd.read_csv(from_path,engine ='python')
to_path = 'XXX'
data.to_csv(to_path,encoding = 'utf_8_sig')
問題三:有哪些一行代碼就能搞定的數(shù)據(jù)清洗問題确丢?
數(shù)據(jù)清洗參考了Medium上以數(shù)據(jù)挖掘大牛Kim Lim Lee的總結(jié)
- 檢查缺失數(shù)據(jù)
def check_missing_data(df):
return df.isnull().sum.sort_values(ascending = False)
- 刪除沒用的列
def drop_multiple_col(col_name_list,df):
df.drop(col_name_list,axis=1,inplace = True)
inplace的設(shè)置是用刪除后的結(jié)果替換原來的數(shù)據(jù)集
- 轉(zhuǎn)換數(shù)據(jù)類型
當(dāng)數(shù)據(jù)集變大時(shí)绷耍,需要轉(zhuǎn)換數(shù)據(jù)類型來節(jié)省內(nèi)存
def change_dtypes(col_int,col_float,df):
df[col_int]=df[col_int].astype('int32')
df[col_float]=df[col_float].astype('float32')
- 將分類變量轉(zhuǎn)化為數(shù)值變量
def convert_cat2num(df):
num_encode={'col1':{'YES':1,'NO':0}鲜侥,
'col2':{'male':0褂始,'female':1}}
- 轉(zhuǎn)換時(shí)間戳
import pandas as pd
def convert_str_datetime(df):
df.insert(loc=2,column='timestamp',value=pd.to_datetime(df.transdate,format='%Y-%m-%d %H:%M:%S.%f'))
問題四:如何解決seaborn熱力圖中文顯示亂碼?
plt.rcParams['font.sans-serif'] = ['SimHei'] # 中文字體設(shè)置-黑體
plt.rcParams['axes.unicode_minus'] = False # 解決保存圖像是負(fù)號'-'顯示為方塊的問題
sns.set(font='SimHei') # 解決Seaborn中文顯示問題
如果您覺得有幫助的話描函,可以給新人點(diǎn)個贊哈~~