完成相關(guān)視頻章節(jié)學(xué)習(xí):
2. 數(shù)據(jù)分析概況
是什么:用適當(dāng)?shù)姆治龇椒ㄗ迦牛瑢κ占臄?shù)據(jù)進行分析,總結(jié)規(guī)律定欧,提取有價值的信息渔呵,形成有效結(jié)論的過程
企業(yè)中的作用:現(xiàn)狀分析(過去:日報,周報砍鸠,月報)扩氢,原因分析(現(xiàn)在:現(xiàn)狀為什么會發(fā)生 專題),預(yù)測分析(未來:預(yù)測下一年的銷售量目標(biāo) ?制定季報爷辱,年報)
流程:明確目的和思路 -> 數(shù)據(jù)收集準(zhǔn)備 -> 數(shù)據(jù)處理 ->數(shù)據(jù)分析 -> 數(shù)據(jù)展現(xiàn) -> 報告撰寫
數(shù)據(jù)一般來源:企業(yè)內(nèi)部數(shù)據(jù)倉庫录豺,公開的出版物,互聯(lián)網(wǎng)托嚣,市場調(diào)查報告
基礎(chǔ)分析方法:對比分析巩检,分組分析,結(jié)構(gòu)分析示启,分布分析兢哭,交叉分析,矩陣分析
高級分析方法:回歸分析夫嗓,聚類分析迟螺,決策樹,神經(jīng)網(wǎng)絡(luò)舍咖,因子分析矩父,時間序列分析
3.Python概況
因自己非常熟悉,所以只看了視頻排霉,未做筆記
Why Python: 高效窍株,開發(fā)包齊全
數(shù)據(jù)處理:pandas
數(shù)據(jù)挖掘:sklearn
數(shù)據(jù)可視化:matplotlib
4. 安裝Anaconda
5. 使用Anaconda
6. 數(shù)據(jù)類型
變量命名規(guī)則:a-z, A-Z, digits, case sensitive,?
no _ , no digit at beginnnig
數(shù)據(jù)類型:
?1. Logical:True False 運算規(guī)則:&, |, not
?2. Numeric?
取整 //
求余 %
乘方 **
浮點數(shù)越界問題 Decimal('4,2') + Decimal('2.1') 對浮點數(shù)進行封裝
?3. Character
單引號,雙引號,或三引號把字符串包起來
轉(zhuǎn)義字符:\ or (r'xxxxxx')
表示換行: s = "abc \
efg" or 使用三引號:換行符等均會保留
7. 數(shù)據(jù)結(jié)構(gòu)
數(shù)據(jù)結(jié)構(gòu)是指相互之間存在一種或多種數(shù)據(jù)關(guān)系的數(shù)據(jù)集合
Pandas:
Series: 存儲一行或一列的數(shù)據(jù)球订,以及與之相關(guān)的index的集合
DataFrame: 用于存儲多行多列
默認索引都是從0開始的
切片:>=第一個索引后裸,<第二個索引
8. 向量化運算
特殊的并行計算方式,同一時間進行多次操作
Pandas的基本數(shù)據(jù)結(jié)構(gòu):序列和數(shù)據(jù)框
等差數(shù)列:numpy.arange(start, end, step)
numpy.power(r, 5)
lambda匿名函數(shù)
四則運算:相同位置進行函數(shù)計算冒滩,函數(shù)返回結(jié)果保留在相同位置
向量化運算原則:1. 極可能避免for循環(huán)微驶;2.過早的優(yōu)化是魔鬼
9. 數(shù)據(jù)導(dǎo)入
數(shù)據(jù)存在形式:
1. 文件:pandas
CSV: 列與列之間用逗號分隔
read_csv(file, encoding),?
TXT:沒有列名,不需要分隔符开睡,默認第一行作為表頭
read_table(file, names=[列名1因苹,列名2.。篇恒。]扶檐, sep="", encoding="utf-8")
Excel:默認文件第一行作為列名
read_excel(fileName, sheetName, names)
2.數(shù)據(jù)庫:MySQL, Access, SQL Server etc
10.數(shù)據(jù)導(dǎo)出
default:
to_csv(filePath, sep=",", index=TRUE, header=TRUE)