《深入淺出數(shù)據(jù)分析》筆記

利用Excel或OpenOffice組織數(shù)據(jù)腊凶,然后再用R進(jìn)一步整理,通過散點(diǎn)圖和直方圖找出有意義的模式万搔,借助啟發(fā)式算法做出結(jié)論状婶,通過實(shí)驗(yàn)和假定測(cè)試預(yù)見未來钓猬,再以清楚直觀的圖形展示分析結(jié)果。

1:數(shù)據(jù)分析引言

如何處理所有的數(shù)據(jù)材料澳迫,如何將原始數(shù)據(jù)轉(zhuǎn)變成推進(jìn)現(xiàn)實(shí)工作的妙策,如何分解和構(gòu)建復(fù)雜的問題和數(shù)據(jù)集卒稳,進(jìn)而牢牢把握工作中的各種問題匪傍。
所有的數(shù)據(jù)分析師最終都會(huì)被打造成能做出更好決策的人才,要學(xué)的就是在浩如煙海的數(shù)據(jù)中洞察先機(jī),做出更好的決策邓夕。

數(shù)據(jù)分析就是仔細(xì)推敲證據(jù)刘莹。

  • 基本流程,同時(shí)根據(jù)數(shù)據(jù)仔細(xì)推敲各種問題
    1. 確定問題
    2. 分解問題(和數(shù)據(jù)焚刚,使其成為更小的組成部分)
    3. 評(píng)估問題(對(duì)在前兩步了解到的情況作出各種情況)
    4. 決策(組合得出的結(jié)論点弯,作出建議或決策)

認(rèn)清問題,進(jìn)而解決問題矿咕。如何從數(shù)據(jù)中發(fā)現(xiàn)機(jī)會(huì)抢肛。
務(wù)必要基于正確的假設(shè)建立模型,并且如果得出的數(shù)據(jù)有違你的假設(shè)痴腌,就立即回頭重新詳加思考雌团。

  • 確定問題
    目標(biāo)是什么,如何確定問題士聪。
    SMART原則锦援,必須要量化你的目標(biāo)。
    優(yōu)秀的數(shù)據(jù)分析師會(huì)自己思考問題剥悟,而不是等著別人告訴他們?cè)撟鍪裁础?br> 考慮不確定因素及盲點(diǎn)灵寺。
    謹(jǐn)慎做出假設(shè),因?yàn)槟愕募僭O(shè)將大大影響決策。
    **結(jié)合業(yè)務(wù)微姊,確定問題畏邢。 **

  • 分解問題
    將問題分解為更小的組成部分。 劃分為可管理叮称、可解決的組塊,細(xì)化問題藐鹤。
    嘗試分解最重要因子的最好起步辦法是找出高效的比較因子瓤檐。
    進(jìn)行有效的比較是數(shù)據(jù)分析的核心。

  • 評(píng)估組塊
    評(píng)估組塊的關(guān)鍵就是比較娱节。

  • 決策
    將分析形成報(bào)表供制定決策挠蛉,否則分析將毫無用處。

數(shù)據(jù)分析的方法論是什么肄满,怎么從數(shù)據(jù)的分析(n多表格)中發(fā)現(xiàn)事實(shí)谴古、做出正確的決策质涛,什么步驟、什么方法掰担、怎么做汇陆。
多看書:數(shù)據(jù)讀書分享系列篇(1):那些年數(shù)據(jù)分析師必讀書單
一定要有自己的思路,就跟做題一樣恩敌,毫無頭緒怎么做瞬测。


2:檢驗(yàn)?zāi)愕睦碚?/h2>

做個(gè)好實(shí)驗(yàn),既能解決問題又能揭示事物的真正運(yùn)行規(guī)律纠炮,能讓你擺脫對(duì)觀察數(shù)據(jù)的無限依賴月趟,幫助你理清因果關(guān)系;可靠的實(shí)證數(shù)據(jù)將讓你的分析判斷更有說服力恢口。

ABTest孝宗,控制變量法,實(shí)驗(yàn)組和控制組耕肩,進(jìn)行比較因妇。

3:最優(yōu)化

希望盡量多或盡量少獲得某種東西,而為了實(shí)現(xiàn)這個(gè)目的需要改變其他一些量的數(shù)值猿诸,這就是最優(yōu)化的問題婚被。

將決策變量、約束條件梳虽、及希望最大化的目標(biāo)合并成一個(gè)函數(shù)來解決最優(yōu)化問題址芯。

創(chuàng)建最有用的模型,你的假設(shè)和約束條件都逼近事實(shí)窜觉。你的假設(shè)應(yīng)立足于不斷變化的實(shí)際情況谷炸。

4:數(shù)據(jù)圖形化,圖形讓你更聰明

看到一張新圖片禀挫,該問圖片中隱含哪些數(shù)據(jù)旬陡,你所關(guān)心的是數(shù)據(jù)的質(zhì)量及其含義。
體現(xiàn)數(shù)據(jù)语婴。創(chuàng)建優(yōu)秀的數(shù)據(jù)圖形的第一要?jiǎng)?wù)就是促使客戶謹(jǐn)慎思考并制定正確決策描孟,優(yōu)秀的數(shù)據(jù)分析由始至終都離不開用數(shù)據(jù)思考
數(shù)據(jù)龐雜時(shí)砰左,而且對(duì)于如何處理這些數(shù)據(jù)沒有把握画拾,請(qǐng)記住你的分析目標(biāo):記住目標(biāo),目光停留在和目標(biāo)有關(guān)的數(shù)據(jù)上菜职,無視其他。

數(shù)據(jù)圖形化的根本在于正確比較旗闽。
散點(diǎn)圖是探索性數(shù)據(jù)分析的奇妙工具酬核。
最優(yōu)秀的圖形都是多元圖形蜜另,展現(xiàn)三個(gè)以上的變量。

5:假設(shè)檢驗(yàn)

觀察數(shù)據(jù)變量有一個(gè)好辦法嫡意,即這些變量是正相關(guān)還是負(fù)相關(guān)举瑰。
假設(shè)檢驗(yàn)的核心是證偽。

6:貝葉斯統(tǒng)計(jì)

數(shù)據(jù)收集工作永不停息蔬螟。必須確保每一個(gè)分析過程都充分利用所搜集到的與問題有關(guān)的數(shù)據(jù)此迅。證偽法用于處理異質(zhì)數(shù)據(jù)源,貝葉斯統(tǒng)計(jì)用于處理直接概率問題旧巾。

7:信念數(shù)字化

用數(shù)字描述你的心智狀態(tài)耸序,標(biāo)明你的信念。主觀概率就是這樣一種將嚴(yán)謹(jǐn)融入直覺的簡便辦法鲁猩。

8:啟發(fā)法

使用快省樹來描述啟發(fā)法坎怪。就是思維導(dǎo)圖,發(fā)散思維廓握。

9:直方圖

10: 回歸預(yù)測(cè)

回歸線預(yù)測(cè)搅窿。

11:誤差

在預(yù)測(cè)時(shí)指出誤差范圍,指出誤差可以讓預(yù)測(cè)和信念更全面隙券,控制誤差和盡量降低誤差男应,提高預(yù)測(cè)的可信度。

12:關(guān)系數(shù)據(jù)庫

13:整理數(shù)據(jù)

亂糟糟的數(shù)據(jù)毫無用處娱仔。
數(shù)據(jù)整理 --> 數(shù)據(jù)分析
牢記你的目的

附錄:

統(tǒng)計(jì)學(xué)領(lǐng)域擁有大量數(shù)據(jù)分析工具和技術(shù)沐飘,對(duì)數(shù)據(jù)分析極其重要。
Excel技巧
數(shù)據(jù)透視表
R社區(qū)
非線性與多元回歸
原假設(shè)-備擇假設(shè)檢驗(yàn)
隨機(jī)性

圖形原則:

  • 體現(xiàn)出比較拟枚、對(duì)比薪铜、差異
  • 體現(xiàn)出因果關(guān)系、機(jī)制恩溅、理由隔箍、系統(tǒng)結(jié)構(gòu)
  • 體現(xiàn)出多元數(shù)據(jù)、即體現(xiàn)出1個(gè)或2個(gè)變量
  • 將文字脚乡、數(shù)字蜒滩、圖片、圖形全面結(jié)合起來
  • 充分描述證據(jù)
  • 數(shù)據(jù)分析報(bào)告的成敗在于報(bào)告內(nèi)容的質(zhì)量奶稠、相關(guān)性和整體性

<br />
<br />

其他: http://blog.csdn.net/frog_in_a_well/article/details/11975579

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末俯艰,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子锌订,更是在濱河造成了極大的恐慌竹握,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,729評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件辆飘,死亡現(xiàn)場(chǎng)離奇詭異啦辐,居然都是意外死亡谓传,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門芹关,熙熙樓的掌柜王于貴愁眉苦臉地迎上來续挟,“玉大人,你說我怎么就攤上這事侥衬∈觯” “怎么了?”我有些...
    開封第一講書人閱讀 169,461評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵轴总,是天一觀的道長直颅。 經(jīng)常有香客問我,道長肘习,這世上最難降的妖魔是什么际乘? 我笑而不...
    開封第一講書人閱讀 60,135評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮漂佩,結(jié)果婚禮上脖含,老公的妹妹穿的比我還像新娘。我一直安慰自己投蝉,他們只是感情好养葵,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,130評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著瘩缆,像睡著了一般关拒。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上庸娱,一...
    開封第一講書人閱讀 52,736評(píng)論 1 312
  • 那天着绊,我揣著相機(jī)與錄音,去河邊找鬼熟尉。 笑死归露,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的斤儿。 我是一名探鬼主播剧包,決...
    沈念sama閱讀 41,179評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼往果!你這毒婦竟也來了疆液?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,124評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤陕贮,失蹤者是張志新(化名)和其女友劉穎堕油,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,657評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡馍迄,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,723評(píng)論 3 342
  • 正文 我和宋清朗相戀三年福也,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片攀圈。...
    茶點(diǎn)故事閱讀 40,872評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖峦甩,靈堂內(nèi)的尸體忽然破棺而出赘来,到底是詐尸還是另有隱情,我是刑警寧澤凯傲,帶...
    沈念sama閱讀 36,533評(píng)論 5 351
  • 正文 年R本政府宣布犬辰,位于F島的核電站,受9級(jí)特大地震影響冰单,放射性物質(zhì)發(fā)生泄漏幌缝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,213評(píng)論 3 336
  • 文/蒙蒙 一诫欠、第九天 我趴在偏房一處隱蔽的房頂上張望涵卵。 院中可真熱鬧,春花似錦荒叼、人聲如沸轿偎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,700評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽坏晦。三九已至,卻和暖如春嫁乘,著一層夾襖步出監(jiān)牢的瞬間昆婿,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,819評(píng)論 1 274
  • 我被黑心中介騙來泰國打工蜓斧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留仓蛆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,304評(píng)論 3 379
  • 正文 我出身青樓法精,卻偏偏與公主長得像多律,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子搂蜓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,876評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容