1岩灭、數(shù)據(jù)分析定義
數(shù)據(jù)分析是指通過某種方法和技巧對準備好的數(shù)據(jù)進行探索、分析箱季,從中發(fā)現(xiàn)因果關系涯穷、內(nèi)部聯(lián)系和業(yè)務規(guī)律等分析結果,為特定的研究或商業(yè)目的提供參考藏雏。
2拷况、數(shù)據(jù)分析六部曲
數(shù)據(jù)分析的過程主要包括:明確分析目的和內(nèi)容、數(shù)據(jù)收集掘殴、數(shù)據(jù)預處理赚瘦、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)奏寨、報告撰寫起意。
(1)、明確分析目的和內(nèi)容
在進行數(shù)據(jù)分析之前病瞳,數(shù)據(jù)分析師應對需要分析的項目進行詳細了解:數(shù)據(jù)分析的對象是誰揽咕?數(shù)據(jù)分析的商業(yè)目的是什么?最后的結果要解決什么樣的業(yè)務問題套菜?
對數(shù)據(jù)分析目的的把握亲善,是數(shù)據(jù)分析項目成敗的關鍵,只有對數(shù)據(jù)分析的目的有深刻的理解逗柴,才能整理出完整的分析框架和分析思路蛹头,因為不同的數(shù)據(jù)分析目的所選擇的數(shù)據(jù)分析方法是不同的。
(2)、數(shù)據(jù)收集
數(shù)據(jù)收集是一個按照確定的數(shù)據(jù)分析和框架內(nèi)容渣蜗,有目的的收集屠尊、整理相關數(shù)據(jù)的過程,它是數(shù)據(jù)分析的基礎袍睡。
數(shù)據(jù)收集方法:觀察法知染、訪談法、問卷法斑胜、測驗法和數(shù)據(jù)庫獲取法等。
(3)嫌吠、數(shù)據(jù)預處理
數(shù)據(jù)與處理是指對收集到的數(shù)據(jù)進行加工止潘、整理、以便開展數(shù)據(jù)分析辫诅。數(shù)據(jù)預處理的過程概括起來包括:數(shù)據(jù)審查凭戴、數(shù)據(jù)清理、數(shù)據(jù)轉換炕矮、數(shù)據(jù)驗證么夫。
第一步:數(shù)據(jù)審查
該步驟檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,變量值的內(nèi)容是否與研究目的的要求一致肤视,是否全面档痪,包括利用描述性統(tǒng)計分析,檢查各個變量的數(shù)據(jù)類型邢滑,變量值的最大值腐螟、最小值、平均數(shù)困后、中位數(shù)等乐纸,數(shù)據(jù)個數(shù)、缺失值和空值個數(shù)等摇予。
第二步:數(shù)據(jù)清理
該步驟針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值汽绢、缺失值、異常值侧戴、可疑數(shù)據(jù)宁昭,選用合適的方法進行清理,同時也包括刪除重復記錄救鲤。
第三步:數(shù)據(jù)轉換
數(shù)據(jù)分析強調分析對象的可比性久窟,但不同變量值由于計量單位等不同,使得數(shù)據(jù)不可比本缠,因此需要在數(shù)據(jù)分析前對數(shù)據(jù)進行變換斥扛,包括無量綱化處理、線性變換、匯總和聚集稀颁、適度概化芬失、規(guī)范化以及屬性構造等。
第四步:數(shù)據(jù)驗證
該步驟的目的是初步評估和判斷數(shù)據(jù)是否滿足統(tǒng)計分析的需要匾灶,從而決定是否需要增加或減少數(shù)據(jù)量棱烂。可以利用簡單的線性模型及散點圖阶女、直方圖颊糜、折線圖等圖形進行探索性分析,利用相關分析秃踩、一致性檢驗等方法對數(shù)據(jù)的準確性進行驗證衬鱼,確保不把錯誤和有偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析模型中。
(4)憔杨、數(shù)據(jù)分析
實現(xiàn)從數(shù)據(jù)到知識的分析過程鸟赫,從而解決商業(yè)問題。
其一要熟悉常用的數(shù)據(jù)分析方法:方差消别、回歸抛蚤、因子、聚類寻狂、分類岁经、時間序列等數(shù)據(jù)分析方法的原理、使用范圍荆虱、優(yōu)缺點和結果的解釋蒿偎。
其二要熟悉數(shù)據(jù)分析工具:一般工具Excel、專業(yè)分析軟件如SPSS怀读、SAS诉位、MATLAB、R等
(5)菜枷、數(shù)據(jù)展現(xiàn)
“字不如表苍糠,表不如圖”
數(shù)據(jù)展現(xiàn)常用的圖有:餅圖、折線圖啤誊、柱形圖/條形圖岳瞭、散點圖、雷達圖蚊锹、金字塔圖瞳筏、矩陣圖、漏斗圖牡昆、帕累托圖等姚炕。
(6)、報告撰寫
通過分析報告,可以把數(shù)據(jù)分析的目的柱宦、過程些椒、結果及方案完整呈現(xiàn)出來,從而為達到商業(yè)目的提供參考掸刊。
數(shù)據(jù)分析報告需要有明確的結論免糕、建議和解決方案。
3忧侧、數(shù)據(jù)分析方法簡介
數(shù)據(jù)分析方法根據(jù)使用的工具和理論的難度分為四個層次:單純的數(shù)據(jù)加工方法石窑、數(shù)理統(tǒng)計分析方法、數(shù)據(jù)挖掘方法和大數(shù)據(jù)分析方法苍柏。
(1)尼斧、單純的數(shù)據(jù)加工方法
側重于數(shù)據(jù)的加工和預處理,使用的工具一般是SQL和Excel试吁,這種方法典型的代表是:描述性統(tǒng)計分析和相關分析。
第一:描述性統(tǒng)計分析
描述性統(tǒng)計分析是通過圖表或數(shù)學方法楼咳,對數(shù)據(jù)資料進行整理熄捍、分析,并對數(shù)據(jù)的分布狀態(tài)母怜、數(shù)字特征和隨機變量之間的關系進行估計和描述的方法余耽。如:需要分析一萬個數(shù)時僅用八個數(shù)就把這一萬個數(shù)說清楚了。
描述性統(tǒng)計分析分為集中趨勢分析苹熏、離中趨勢分析和相關分析三大部分碟贾。
集中趨勢分析:主要靠平均數(shù)、中數(shù)轨域、縱數(shù)等統(tǒng)計指標來表示數(shù)據(jù)的集中趨勢袱耽;
離中趨勢分析:主要靠全距、四分差干发、平均差朱巨、方差、標準差等統(tǒng)計指標來研究數(shù)據(jù)的離中趨勢枉长;
相關分析:研究現(xiàn)象之間是否存在某種依存關系冀续,并對具體有依存關系的現(xiàn)象進行其相關方向及相關程度的研究。
第二:回歸分析
確定兩種或兩種以上變數(shù)間相互依賴的定量關系的一種統(tǒng)計分析方法必峰。
第三:對應分析
又稱為“關聯(lián)分析”洪唐、“R-Q”型因子分析
通過分析由定性變量構成的交互匯總表來揭示變量間的聯(lián)系。
第四:因子分析
指研究從變量群中提取共性因子的統(tǒng)計技術吼蚁。
第五:方差分析
用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗
(2)凭需、數(shù)據(jù)挖掘方法簡介
第一:聚類分析
將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇的過程,同一個簇的對象有很大的相似性功炮,而不同簇間的對象有很大的相異性溅潜。
第二:分類分析
(1)決策樹:一種逼近離散值目標函數(shù)的方法,對噪聲數(shù)據(jù)有很好的健壯性且能學習吸取表達式薪伏。決策樹通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例滚澜,葉子節(jié)點即為實例所屬的分類。
(2)人工神經(jīng)網(wǎng)絡:通過輸入多個非線性模型及不同模型之間的加權互聯(lián)嫁怀,最終得到一個輸出模型设捐,其中,隱蔽層所包含的就是非線性函數(shù)塘淑。
(3)貝葉斯分類方法:用來預測類成員間關系的可能性萝招。比如通過一個給定的觀察值的相關屬性來判斷其屬于一個特定類別的概率。
(4)支持向量機:在線性情況下存捺,就在原空間尋找兩類樣本的最優(yōu)分類超平面槐沼;在非線性情況下,使用一種非線性映射捌治,將原訓練數(shù)據(jù)集映射到較高的維上岗钩,在新維上搜索線性最佳分離超平面。
(5)隨機森林:一種組合分類器肖油,它利用bootstrap重抽樣方法從原始樣本中抽取多個樣本兼吓,對每個bootstrap樣本進行決策樹建模,然后將這些決策樹組合在一起森枪,通過投票得出最終分類或預測的結果视搏。
第三:關聯(lián)規(guī)則
找出數(shù)據(jù)集中的頻繁模式,即多次重復出現(xiàn)的模式和并發(fā)關系县袱,即同時出現(xiàn)的關系浑娜,頻繁和并發(fā)關系也被稱為關聯(lián)關系。如購物籃分析显拳。
第四:回歸分析
主要描述一個因變量如何隨著一批自變量的變化而變化棚愤。
(3)、統(tǒng)計分析和數(shù)據(jù)挖掘的區(qū)別和聯(lián)系
聯(lián)系:
從兩者的理論源來看杂数,它們都是源于統(tǒng)計基礎理論宛畦,因此很多方法都是同根同源的。
區(qū)別:
數(shù)據(jù)挖掘是統(tǒng)計分析的延伸和擴展揍移,統(tǒng)計分析需要對數(shù)據(jù)分布和變量間的關系做假設次和,而數(shù)據(jù)挖掘不需要對數(shù)據(jù)分布做任何假設,數(shù)據(jù)挖掘的算法會自動尋找變量間的關系那伐;統(tǒng)計分析在預測中的應用常常表現(xiàn)為一個或一組函數(shù)關系式踏施,而數(shù)據(jù)挖掘在預測應用中的重點在預測的結果石蔗。