利用Excel或OpenOffice組織數(shù)據(jù)腊凶,然后再用R進(jìn)一步整理,通過散點(diǎn)圖和直方圖找出有意義的模式万搔,借助啟發(fā)式算法做出結(jié)論状婶,通過實(shí)驗(yàn)和假定測(cè)試預(yù)見未來钓猬,再以清楚直觀的圖形展示分析結(jié)果。
1:數(shù)據(jù)分析引言
如何處理所有的數(shù)據(jù)材料澳迫,如何將原始數(shù)據(jù)轉(zhuǎn)變成推進(jìn)現(xiàn)實(shí)工作的妙策,如何分解和構(gòu)建復(fù)雜的問題和數(shù)據(jù)集卒稳,進(jìn)而牢牢把握工作中的各種問題匪傍。
所有的數(shù)據(jù)分析師最終都會(huì)被打造成能做出更好決策的人才,要學(xué)的就是在浩如煙海的數(shù)據(jù)中洞察先機(jī),做出更好的決策邓夕。
數(shù)據(jù)分析就是仔細(xì)推敲證據(jù)刘莹。
- 基本流程,同時(shí)根據(jù)數(shù)據(jù)仔細(xì)推敲各種問題
- 確定問題
- 分解問題(和數(shù)據(jù)焚刚,使其成為更小的組成部分)
- 評(píng)估問題(對(duì)在前兩步了解到的情況作出各種情況)
- 決策(組合得出的結(jié)論点弯,作出建議或決策)
認(rèn)清問題,進(jìn)而解決問題矿咕。如何從數(shù)據(jù)中發(fā)現(xiàn)機(jī)會(huì)抢肛。
務(wù)必要基于正確的假設(shè)建立模型,并且如果得出的數(shù)據(jù)有違你的假設(shè)痴腌,就立即回頭重新詳加思考雌团。
確定問題
目標(biāo)是什么,如何確定問題士聪。
SMART原則锦援,必須要量化你的目標(biāo)。
優(yōu)秀的數(shù)據(jù)分析師會(huì)自己思考問題剥悟,而不是等著別人告訴他們?cè)撟鍪裁础?br> 考慮不確定因素及盲點(diǎn)灵寺。
謹(jǐn)慎做出假設(shè),因?yàn)槟愕募僭O(shè)將大大影響決策。
**結(jié)合業(yè)務(wù)微姊,確定問題畏邢。 **分解問題
將問題分解為更小的組成部分。 劃分為可管理叮称、可解決的組塊,細(xì)化問題藐鹤。
嘗試分解最重要因子的最好起步辦法是找出高效的比較因子瓤檐。
進(jìn)行有效的比較是數(shù)據(jù)分析的核心。評(píng)估組塊
評(píng)估組塊的關(guān)鍵就是比較娱节。決策
將分析形成報(bào)表供制定決策挠蛉,否則分析將毫無用處。
數(shù)據(jù)分析的方法論是什么肄满,怎么從數(shù)據(jù)的分析(n多表格)中發(fā)現(xiàn)事實(shí)谴古、做出正確的決策质涛,什么步驟、什么方法掰担、怎么做汇陆。
多看書:數(shù)據(jù)讀書分享系列篇(1):那些年數(shù)據(jù)分析師必讀書單
一定要有自己的思路,就跟做題一樣恩敌,毫無頭緒怎么做瞬测。
2:檢驗(yàn)?zāi)愕睦碚?/h2>
做個(gè)好實(shí)驗(yàn),既能解決問題又能揭示事物的真正運(yùn)行規(guī)律纠炮,能讓你擺脫對(duì)觀察數(shù)據(jù)的無限依賴月趟,幫助你理清因果關(guān)系;可靠的實(shí)證數(shù)據(jù)將讓你的分析判斷更有說服力恢口。
ABTest孝宗,控制變量法,實(shí)驗(yàn)組和控制組耕肩,進(jìn)行比較因妇。
3:最優(yōu)化
希望盡量多或盡量少獲得某種東西,而為了實(shí)現(xiàn)這個(gè)目的需要改變其他一些量的數(shù)值猿诸,這就是最優(yōu)化的問題婚被。
將決策變量、約束條件梳虽、及希望最大化的目標(biāo)合并成一個(gè)函數(shù)來解決最優(yōu)化問題址芯。
創(chuàng)建最有用的模型,你的假設(shè)和約束條件都逼近事實(shí)窜觉。你的假設(shè)應(yīng)立足于不斷變化的實(shí)際情況谷炸。
4:數(shù)據(jù)圖形化,圖形讓你更聰明
看到一張新圖片禀挫,該問圖片中隱含哪些數(shù)據(jù)旬陡,你所關(guān)心的是數(shù)據(jù)的質(zhì)量及其含義。
體現(xiàn)數(shù)據(jù)语婴。創(chuàng)建優(yōu)秀的數(shù)據(jù)圖形的第一要?jiǎng)?wù)就是促使客戶謹(jǐn)慎思考并制定正確決策描孟,優(yōu)秀的數(shù)據(jù)分析由始至終都離不開用數(shù)據(jù)思考。
數(shù)據(jù)龐雜時(shí)砰左,而且對(duì)于如何處理這些數(shù)據(jù)沒有把握画拾,請(qǐng)記住你的分析目標(biāo):記住目標(biāo),目光停留在和目標(biāo)有關(guān)的數(shù)據(jù)上菜职,無視其他。
數(shù)據(jù)圖形化的根本在于正確比較旗闽。
散點(diǎn)圖是探索性數(shù)據(jù)分析的奇妙工具酬核。
最優(yōu)秀的圖形都是多元圖形蜜另,展現(xiàn)三個(gè)以上的變量。
5:假設(shè)檢驗(yàn)
觀察數(shù)據(jù)變量有一個(gè)好辦法嫡意,即這些變量是正相關(guān)還是負(fù)相關(guān)举瑰。
假設(shè)檢驗(yàn)的核心是證偽。
6:貝葉斯統(tǒng)計(jì)
數(shù)據(jù)收集工作永不停息蔬螟。必須確保每一個(gè)分析過程都充分利用所搜集到的與問題有關(guān)的數(shù)據(jù)此迅。證偽法用于處理異質(zhì)數(shù)據(jù)源,貝葉斯統(tǒng)計(jì)用于處理直接概率問題旧巾。
7:信念數(shù)字化
用數(shù)字描述你的心智狀態(tài)耸序,標(biāo)明你的信念。主觀概率就是這樣一種將嚴(yán)謹(jǐn)融入直覺的簡便辦法鲁猩。
8:啟發(fā)法
使用快省樹來描述啟發(fā)法坎怪。就是思維導(dǎo)圖,發(fā)散思維廓握。
9:直方圖
10: 回歸預(yù)測(cè)
回歸線預(yù)測(cè)搅窿。
11:誤差
在預(yù)測(cè)時(shí)指出誤差范圍,指出誤差可以讓預(yù)測(cè)和信念更全面隙券,控制誤差和盡量降低誤差男应,提高預(yù)測(cè)的可信度。
12:關(guān)系數(shù)據(jù)庫
13:整理數(shù)據(jù)
亂糟糟的數(shù)據(jù)毫無用處娱仔。
數(shù)據(jù)整理 --> 數(shù)據(jù)分析
牢記你的目的
附錄:
統(tǒng)計(jì)學(xué)領(lǐng)域擁有大量數(shù)據(jù)分析工具和技術(shù)沐飘,對(duì)數(shù)據(jù)分析極其重要。
Excel技巧
數(shù)據(jù)透視表
R社區(qū)
非線性與多元回歸
原假設(shè)-備擇假設(shè)檢驗(yàn)
隨機(jī)性
圖形原則:
- 體現(xiàn)出比較拟枚、對(duì)比薪铜、差異
- 體現(xiàn)出因果關(guān)系、機(jī)制恩溅、理由隔箍、系統(tǒng)結(jié)構(gòu)
- 體現(xiàn)出多元數(shù)據(jù)、即體現(xiàn)出1個(gè)或2個(gè)變量
- 將文字脚乡、數(shù)字蜒滩、圖片、圖形全面結(jié)合起來
- 充分描述證據(jù)
- 數(shù)據(jù)分析報(bào)告的成敗在于報(bào)告內(nèi)容的質(zhì)量奶稠、相關(guān)性和整體性
<br />
<br />
其他: http://blog.csdn.net/frog_in_a_well/article/details/11975579