Python數(shù)據(jù)分析

數(shù)據(jù)分析簡介

一仔雷、數(shù)據(jù)獲取

1.數(shù)據(jù)獲取手段

數(shù)據(jù)獲取的手段主要有四種:數(shù)據(jù)倉庫,監(jiān)測與抓取舔示,填寫碟婆、埋點(diǎn)、日志惕稻,計(jì)算

1) 數(shù)據(jù)倉庫

(1) 將所有業(yè)務(wù)的數(shù)據(jù)經(jīng)匯總處理脑融,構(gòu)成數(shù)據(jù)倉庫(DW)

  • 全部事實(shí)的記錄
  • 部分維度與數(shù)據(jù)的整理(數(shù)據(jù)集市-DM)

(2)數(shù)據(jù)庫VS倉庫

  • 數(shù)據(jù)庫面向業(yè)務(wù)存儲,倉庫面向主題存儲(主題:較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描述)
  • 數(shù)據(jù)庫針對應(yīng)用(OLTP:On-Line Transaction Processing),數(shù)據(jù)倉庫正對分析(OLAP:Online analytical processing)
  • 數(shù)據(jù)庫組織規(guī)范缩宜,倉庫可能冗余,相對變化大甥温,數(shù)據(jù)量大

2) 監(jiān)測與抓取

(1) 監(jiān)測

使用監(jiān)測設(shè)備或或算法直接獲取數(shù)據(jù)锻煌,如傳感器網(wǎng)絡(luò)等

(2) 抓取

  • 直接解析網(wǎng)頁、接口姻蚓、文件的信息
  • Python常用工具
    • 抓取數(shù)據(jù): urllib宋梧、urllib2、 requests狰挡、scrapy
    • 解析路徑:PhantomJS(運(yùn)行JS代碼后才能解析)捂龄、BeautigulSoup秉溉、Xpath(lxml)

3) 填寫粘招、埋點(diǎn)剩拢、日志

(1) 填寫

用戶填寫信息

(2) 埋點(diǎn)

  • APP或網(wǎng)頁埋點(diǎn)(特定流程的信息記錄點(diǎn)瓜喇,比較重要的記錄項(xiàng):訪問埠胖、訪客炊汤、停留時間蜗搔、頁面查看和跳出率)

(3) 日志

日志以文件的形式進(jìn)行記錄渔工,分為前端日志和后端日志

(4) 計(jì)算

有些屬性不能直接獲取豫柬,必須通過計(jì)算才有意義

數(shù)據(jù)學(xué)習(xí)網(wǎng)站

  • 數(shù)據(jù)競賽網(wǎng)站(Kaggle & 天池)
  • 數(shù)據(jù)集網(wǎng)站(ImageNet & Open Images)
  • 各領(lǐng)域統(tǒng)計(jì)數(shù)據(jù)(統(tǒng)計(jì)局 告希、政府機(jī)構(gòu)扑浸、公司財報等)

二、探索分析與可視化

1.單因子分析與可視化

1) 集中趨勢:均值燕偶、中位數(shù)與分位數(shù)喝噪、眾數(shù)

集中趨勢:數(shù)據(jù)聚攏位置的一種衡量
均值:經(jīng)常用來衡量一些連續(xù)值,尤其是分布比較規(guī)律的連續(xù)值的集中趨勢
中位數(shù):有些異常值指么,比如有些值特別大或或特別小的時候會有中位數(shù)來衡量它的集中趨勢
眾數(shù):主要用在離散值的集中趨勢衡量酝惧。
分位數(shù): 把數(shù)據(jù)從小到大排列后,切分成等分的點(diǎn)涧尿。和其他幾個值共同作用系奉。常用的是四分位數(shù)。

四分位數(shù)位置的計(jì)算:
Q1的位置=(N+1)0.25
Q2的位置=(N+1)
0.5
Q3的位置=(N+1)*0.75
其中姑廉,N指的是數(shù)據(jù)的數(shù)量缺亮。
例如:1,2桥言,3萌踱,4,5号阿,6并鸵,7
Q1是2;
1扔涧,2园担,3,4枯夜,5弯汰,6,7湖雹,8
Q1是2.5

2) 離中趨勢:標(biāo)準(zhǔn)差咏闪、方差

離中趨勢:數(shù)據(jù)離散程度的衡量。常見的是標(biāo)準(zhǔn)差和方差
\sigma=\sqrt{\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu\right)^{2}}

3) 數(shù)據(jù)分布:偏態(tài)與峰態(tài)摔吏、正太分布與三大分布

  • 偏態(tài)系數(shù):數(shù)據(jù)平均值偏離狀態(tài)的一種衡量鸽嫂。通常一個對稱性的數(shù)據(jù),它的中位數(shù)和均值應(yīng)該是非常接近的甚至是相等的征讲,而有的時候數(shù)據(jù)并非是對稱分布的据某,這樣中位數(shù)和均值差的就會比較多,我們稱這樣的分布為有偏態(tài)的分布稳诚。


    偏態(tài)系數(shù)

    如果S的值為正哗脖,為正偏,說明均值比較大;S的值為負(fù)才避,為負(fù)偏橱夭,均值比較小

  • 峰態(tài)系數(shù):數(shù)據(jù)分布集中強(qiáng)度的衡量


    峰態(tài)系數(shù)

    ????正態(tài)分布的峰態(tài)系數(shù)一般是3,所以將將上面的峰態(tài)公式減去3桑逝,將正態(tài)分布的峰態(tài)系數(shù)定為0棘劣。
    ????按照上面的公式,如果一個分布的峰態(tài)系數(shù)小于1或大于5(即它和正態(tài)分布的峰態(tài)系數(shù)相差大于了2)楞遏,則斷定為不是正態(tài)分布茬暇。

常用的分布:正態(tài)分布、T分布寡喝、卡方分布糙俗,F(xiàn)分布四種。

4)抽樣理論:抽樣誤差预鬓、抽樣精度

(1)抽樣的誤差與精度

抽樣平均誤差計(jì)算公式:
重復(fù)抽樣(有放回抽樣):
\mu_{x}=\sqrt{\frac{\sigma^{2}}{n}}
不重復(fù)抽樣(無放回抽樣):

不重復(fù)抽樣

ps: N表示總體的數(shù)量巧骚;n 表示抽樣的數(shù)量。

5)數(shù)據(jù)的分類

定類(類別):根據(jù)數(shù)據(jù)離散格二、無差別屬性進(jìn)行的分類
定序(順序):可以界定數(shù)據(jù)的大小劈彪,但不能測定差值
定距(間隔):可以界定數(shù)據(jù)大小的同時,可以定差值顶猜,但無絕對零點(diǎn)
定比(比率):可以界定數(shù)據(jù)大小沧奴,可測定差值,有絕對零點(diǎn)

5)單屬性分析

(1)異常值分析

異常值分類.png

(2)對比分析

對比分析:通過比較的方式達(dá)到認(rèn)識與了解數(shù)據(jù)的方法长窄。

(3)結(jié)構(gòu)分析

亦稱“比重分析”滔吠。計(jì)算某項(xiàng)經(jīng)濟(jì)指標(biāo)各項(xiàng)組成部分占總體的比重,分析其內(nèi)容構(gòu)成的變化挠日,從結(jié)構(gòu)分析中屠凶,掌握事物的特點(diǎn)和變化趨勢的統(tǒng)計(jì)分析方法。如按構(gòu)成流動資金的各個項(xiàng)目占流動資金的總額的比重確定流動資金的結(jié)構(gòu)肆资,然后將不同時期的資金結(jié)構(gòu)相比較,觀察構(gòu)成變化灶芝。

(4)分布分析

直接的概率分布郑原,正態(tài)分布,極大似然

2.多因子分析與可視化

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末夜涕,一起剝皮案震驚了整個濱河市犯犁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌女器,老刑警劉巖酸役,帶你破解...
    沈念sama閱讀 222,946評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡涣澡,警方通過查閱死者的電腦和手機(jī)贱呐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,336評論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來入桂,“玉大人奄薇,你說我怎么就攤上這事】钩睿” “怎么了馁蒂?”我有些...
    開封第一講書人閱讀 169,716評論 0 364
  • 文/不壞的土叔 我叫張陵,是天一觀的道長蜘腌。 經(jīng)常有香客問我沫屡,道長,這世上最難降的妖魔是什么撮珠? 我笑而不...
    開封第一講書人閱讀 60,222評論 1 300
  • 正文 為了忘掉前任沮脖,我火速辦了婚禮,結(jié)果婚禮上劫瞳,老公的妹妹穿的比我還像新娘倘潜。我一直安慰自己,他們只是感情好志于,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,223評論 6 398
  • 文/花漫 我一把揭開白布涮因。 她就那樣靜靜地躺著,像睡著了一般伺绽。 火紅的嫁衣襯著肌膚如雪养泡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,807評論 1 314
  • 那天奈应,我揣著相機(jī)與錄音澜掩,去河邊找鬼。 笑死杖挣,一個胖子當(dāng)著我的面吹牛肩榕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播惩妇,決...
    沈念sama閱讀 41,235評論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼株汉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了歌殃?” 一聲冷哼從身側(cè)響起乔妈,我...
    開封第一講書人閱讀 40,189評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎氓皱,沒想到半個月后路召,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體勃刨,經(jīng)...
    沈念sama閱讀 46,712評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,775評論 3 343
  • 正文 我和宋清朗相戀三年股淡,在試婚紗的時候發(fā)現(xiàn)自己被綠了身隐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,926評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡揣非,死狀恐怖抡医,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情早敬,我是刑警寧澤忌傻,帶...
    沈念sama閱讀 36,580評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站搞监,受9級特大地震影響水孩,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜琐驴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,259評論 3 336
  • 文/蒙蒙 一俘种、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧绝淡,春花似錦宙刘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,750評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至馍乙,卻和暖如春布近,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背丝格。 一陣腳步聲響...
    開封第一講書人閱讀 33,867評論 1 274
  • 我被黑心中介騙來泰國打工撑瞧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人显蝌。 一個月前我還...
    沈念sama閱讀 49,368評論 3 379
  • 正文 我出身青樓预伺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親曼尊。 傳聞我的和親對象是個殘疾皇子扭屁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,930評論 2 361

推薦閱讀更多精彩內(nèi)容