1 第一章:數(shù)據(jù)加載:
任務(wù)一:導(dǎo)入python庫
import numpy as np
import pandas as pd
import os
from matplotlib import pyplot as plt
*注:import numpy和from numpy import 的區(qū)別
兩種方式都是引入numpy庫中的所有函數(shù)罚拟、函數(shù)、對象臼氨、變量等状您,兩者的區(qū)別在于調(diào)用其中內(nèi)容時不同碗旅。
import numpy砚尽,則后續(xù)使用該庫下的屬性都需要在前面加上numpy
from numpy import *拆撼,則不需要加入容劳。以調(diào)用numpy中的random模塊為例,第一種方式要用numpy.random闸度,第二種方式只用random即可竭贩,一般推薦使用第一種方式
任務(wù)三:逐塊讀取數(shù)據(jù)
每1000行為一個數(shù)據(jù)模塊,逐塊讀取
df = pd.read_csv('train.csv',chunksize = 1000)
1
這時我們想要查看表格的前幾行莺禁,可以看到使用chunksize賦值之后 df的數(shù)據(jù)類型變成textfilereader之后head方法不再適用留量,需要用到命令df.get_chunk()
————————————————
df.shape ——行數(shù) 列數(shù)
df.dtypes——列數(shù)據(jù)類型
df.ndim ——數(shù)據(jù)維度
df.index——行索引
df.columns——列索引
df.values——對象值,二維ndarray數(shù)組
df.info() #查看數(shù)據(jù)類型結(jié)構(gòu)
df.describe()
df.head(10)——顯示前10行哟冬,默認(rèn)是5行
df.tail()——顯示末尾幾行楼熄,默認(rèn)是5
df.info()——相關(guān)系數(shù),如行數(shù)浩峡,列數(shù)可岂,列索引、列非空值個數(shù)翰灾,列類型缕粹,內(nèi)存占用
df.describe()——快速統(tǒng)計結(jié)果,計數(shù)纸淮、均值平斩、標(biāo)準(zhǔn)差、最大值咽块、四分?jǐn)?shù)绘面、最小值
df.isnull()——判斷數(shù)據(jù)是否為空,為空的地方返回True,其余地方返回False
# 注意:不同的操作系統(tǒng)保存下來可能會有亂碼揭璃,大家可以加入`encoding='GBK' 或者 ’encoding = ’utf-8`
encoding = 'utf-8'
df.to_csv('train_chinese.csv')
Series是帶標(biāo)簽的一維數(shù)組晚凿,可存儲整數(shù)、浮點數(shù)塘辅、字符串晃虫、python對象登類型的數(shù)據(jù),軸標(biāo)簽統(tǒng)稱為索引扣墩。調(diào)用pd.Series即可創(chuàng)建Series s=pd.Series(data, index=index)
Dataframe是由多種類型的列構(gòu)成的二維標(biāo)簽數(shù)據(jù)結(jié)構(gòu)哲银,類似于excel、SQL表呻惕、或series對象構(gòu)成的字典
原文鏈接:https://blog.csdn.net/weixin_45409985/article/details/119761173