Lesson 21 簡單計算
通過對已有字段加減乘除棍厂,得出新的字段
當(dāng)增加或修改某一列時,只能使用:
data['column_name'] = data.column1 * data.column2
Attention 不可使用:
data.column_name
Lesson 22 數(shù)據(jù)標(biāo)準(zhǔn)化
數(shù)據(jù)標(biāo)準(zhǔn)化是指數(shù)據(jù)按比例縮放展运,使之落入到特定區(qū)間
標(biāo)準(zhǔn)化的作用是消除量綱的影響,方便進(jìn)行不同變量間的比較分析,用于綜合評價分析狐粱,聚類分析,因子分析胆数,主成分分析前肌蜻,如果量綱不統(tǒng)一,需要將數(shù)據(jù)標(biāo)準(zhǔn)化必尼。
十分制蒋搜,百分制或處于0-1之間
//round(num, 2)用于保留兩位小數(shù)
data['scale'] = round(
(
data.score-data.score.min()
)/(
data.score.max()-data.score.min()
)
, 2
)
Lesson 23 數(shù)組分組
根據(jù)數(shù)據(jù)分析對象的特征篡撵,按照一定的數(shù)值指標(biāo),把數(shù)據(jù)分析對象劃分為不同的區(qū)間進(jìn)行研究豆挽,以揭示其內(nèi)在聯(lián)系和規(guī)律性
cut(series, bins, right, labels)
series: 需要分組的數(shù)據(jù)
bins: 分組的劃分?jǐn)?shù)組
right: 分組的時候育谬,右邊是否閉合, default: 左開右閉區(qū)間帮哈;right = false: 左閉右開區(qū)間
labels: 分組的自定義標(biāo)簽膛檀,可以不自定義
Lesson 24 時間處理
將字符型的時間格式數(shù)據(jù)轉(zhuǎn)換成時間型的數(shù)據(jù)過程
datetime = pandas.to_datetime(datastring, format)
格式化成其他字符串:
dateTimeFormat = datetime.dt.strftime('%Y-%m-%d %H:%M:%S')
抽取datetime的屬性:
datetime.dt.year
datetime.dt.month
datetime.dt.weekday
datetime.dt.day
datetime.dt.hour
datetime.dt.minute
datetime.dt.second
Lesson 25 時間抽取
時間抽取是指根據(jù)一定的條件,對時間格式的數(shù)據(jù)進(jìn)行抽取
根據(jù)索引進(jìn)行抽取
DataFrame.ix[start:end]
DataFrame.ix[dates]
//dates為數(shù)組
根據(jù)時間列進(jìn)行抽取
DataFrame[condition]