數(shù)據(jù)分析簡介
一仔雷、數(shù)據(jù)獲取
1.數(shù)據(jù)獲取手段
數(shù)據(jù)獲取的手段主要有四種:數(shù)據(jù)倉庫,監(jiān)測與抓取舔示,填寫碟婆、埋點(diǎn)、日志惕稻,計(jì)算
1) 數(shù)據(jù)倉庫
(1) 將所有業(yè)務(wù)的數(shù)據(jù)經(jīng)匯總處理脑融,構(gòu)成數(shù)據(jù)倉庫(DW)
- 全部事實(shí)的記錄
- 部分維度與數(shù)據(jù)的整理(數(shù)據(jù)集市-DM)
(2)數(shù)據(jù)庫VS倉庫
- 數(shù)據(jù)庫面向業(yè)務(wù)存儲,倉庫面向主題存儲(主題:較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述)
- 數(shù)據(jù)庫針對應(yīng)用(OLTP:On-Line Transaction Processing),數(shù)據(jù)倉庫正對分析(OLAP:Online analytical processing)
- 數(shù)據(jù)庫組織規(guī)范缩宜,倉庫可能冗余,相對變化大甥温,數(shù)據(jù)量大
2) 監(jiān)測與抓取
(1) 監(jiān)測
使用監(jiān)測設(shè)備或或算法直接獲取數(shù)據(jù)锻煌,如傳感器網(wǎng)絡(luò)等
(2) 抓取
- 直接解析網(wǎng)頁、接口姻蚓、文件的信息
- Python常用工具
- 抓取數(shù)據(jù): urllib宋梧、urllib2、 requests狰挡、scrapy
- 解析路徑:PhantomJS(運(yùn)行JS代碼后才能解析)捂龄、BeautigulSoup秉溉、Xpath(lxml)
3) 填寫粘招、埋點(diǎn)剩拢、日志
(1) 填寫
用戶填寫信息
(2) 埋點(diǎn)
- APP或網(wǎng)頁埋點(diǎn)(特定流程的信息記錄點(diǎn)瓜喇,比較重要的記錄項(xiàng):訪問埠胖、訪客炊汤、停留時間蜗搔、頁面查看和跳出率)
(3) 日志
日志以文件的形式進(jìn)行記錄渔工,分為前端日志和后端日志
(4) 計(jì)算
有些屬性不能直接獲取豫柬,必須通過計(jì)算才有意義
數(shù)據(jù)學(xué)習(xí)網(wǎng)站
- 數(shù)據(jù)競賽網(wǎng)站(Kaggle & 天池)
- 數(shù)據(jù)集網(wǎng)站(ImageNet & Open Images)
- 各領(lǐng)域統(tǒng)計(jì)數(shù)據(jù)(統(tǒng)計(jì)局 告希、政府機(jī)構(gòu)扑浸、公司財報等)
二、探索分析與可視化
1.單因子分析與可視化
1) 集中趨勢:均值燕偶、中位數(shù)與分位數(shù)喝噪、眾數(shù)
集中趨勢:數(shù)據(jù)聚攏位置的一種衡量
均值:經(jīng)常用來衡量一些連續(xù)值,尤其是分布比較規(guī)律的連續(xù)值的集中趨勢
中位數(shù):有些異常值指么,比如有些值特別大或或特別小的時候會有中位數(shù)來衡量它的集中趨勢
眾數(shù):主要用在離散值的集中趨勢衡量酝惧。
分位數(shù): 把數(shù)據(jù)從小到大排列后,切分成等分的點(diǎn)涧尿。和其他幾個值共同作用系奉。常用的是四分位數(shù)。
四分位數(shù)位置的計(jì)算:
Q1的位置=(N+1)0.25
Q2的位置=(N+1)0.5
Q3的位置=(N+1)*0.75
其中姑廉,N指的是數(shù)據(jù)的數(shù)量缺亮。
例如:1,2桥言,3萌踱,4,5号阿,6并鸵,7
Q1是2;
1扔涧,2园担,3,4枯夜,5弯汰,6,7湖雹,8
Q1是2.5
2) 離中趨勢:標(biāo)準(zhǔn)差咏闪、方差
離中趨勢:數(shù)據(jù)離散程度的衡量。常見的是標(biāo)準(zhǔn)差和方差
3) 數(shù)據(jù)分布:偏態(tài)與峰態(tài)摔吏、正太分布與三大分布
-
偏態(tài)系數(shù):數(shù)據(jù)平均值偏離狀態(tài)的一種衡量鸽嫂。通常一個對稱性的數(shù)據(jù),它的中位數(shù)和均值應(yīng)該是非常接近的甚至是相等的征讲,而有的時候數(shù)據(jù)并非是對稱分布的据某,這樣中位數(shù)和均值差的就會比較多,我們稱這樣的分布為有偏態(tài)的分布稳诚。
偏態(tài)系數(shù)
如果S的值為正哗脖,為正偏,說明均值比較大;S的值為負(fù)才避,為負(fù)偏橱夭,均值比較小
-
峰態(tài)系數(shù):數(shù)據(jù)分布集中強(qiáng)度的衡量
峰態(tài)系數(shù)
????正態(tài)分布的峰態(tài)系數(shù)一般是3,所以將將上面的峰態(tài)公式減去3桑逝,將正態(tài)分布的峰態(tài)系數(shù)定為0棘劣。
????按照上面的公式,如果一個分布的峰態(tài)系數(shù)小于1或大于5(即它和正態(tài)分布的峰態(tài)系數(shù)相差大于了2)楞遏,則斷定為不是正態(tài)分布茬暇。
常用的分布:正態(tài)分布、T分布寡喝、卡方分布糙俗,F(xiàn)分布四種。
4)抽樣理論:抽樣誤差预鬓、抽樣精度
(1)抽樣的誤差與精度
抽樣平均誤差計(jì)算公式:
重復(fù)抽樣(有放回抽樣):
不重復(fù)抽樣(無放回抽樣):
ps: N表示總體的數(shù)量巧骚;n 表示抽樣的數(shù)量。
5)數(shù)據(jù)的分類
定類(類別):根據(jù)數(shù)據(jù)離散格二、無差別屬性進(jìn)行的分類
定序(順序):可以界定數(shù)據(jù)的大小劈彪,但不能測定差值
定距(間隔):可以界定數(shù)據(jù)大小的同時,可以定差值顶猜,但無絕對零點(diǎn)
定比(比率):可以界定數(shù)據(jù)大小沧奴,可測定差值,有絕對零點(diǎn)
5)單屬性分析
(1)異常值分析
(2)對比分析
對比分析:通過比較的方式達(dá)到認(rèn)識與了解數(shù)據(jù)的方法长窄。
(3)結(jié)構(gòu)分析
亦稱“比重分析”滔吠。計(jì)算某項(xiàng)經(jīng)濟(jì)指標(biāo)各項(xiàng)組成部分占總體的比重,分析其內(nèi)容構(gòu)成的變化挠日,從結(jié)構(gòu)分析中屠凶,掌握事物的特點(diǎn)和變化趨勢的統(tǒng)計(jì)分析方法。如按構(gòu)成流動資金的各個項(xiàng)目占流動資金的總額的比重確定流動資金的結(jié)構(gòu)肆资,然后將不同時期的資金結(jié)構(gòu)相比較,觀察構(gòu)成變化灶芝。
(4)分布分析
直接的概率分布郑原,正態(tài)分布,極大似然