數(shù)據(jù)分析概述

1岩灭、數(shù)據(jù)分析定義

數(shù)據(jù)分析是指通過某種方法和技巧對準備好的數(shù)據(jù)進行探索、分析箱季,從中發(fā)現(xiàn)因果關系涯穷、內(nèi)部聯(lián)系和業(yè)務規(guī)律等分析結果,為特定的研究或商業(yè)目的提供參考藏雏。

2拷况、數(shù)據(jù)分析六部曲

數(shù)據(jù)分析的過程主要包括:明確分析目的和內(nèi)容、數(shù)據(jù)收集掘殴、數(shù)據(jù)預處理赚瘦、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)奏寨、報告撰寫起意。

(1)、明確分析目的和內(nèi)容

在進行數(shù)據(jù)分析之前病瞳,數(shù)據(jù)分析師應對需要分析的項目進行詳細了解:數(shù)據(jù)分析的對象是誰揽咕?數(shù)據(jù)分析的商業(yè)目的是什么?最后的結果要解決什么樣的業(yè)務問題套菜?
對數(shù)據(jù)分析目的的把握亲善,是數(shù)據(jù)分析項目成敗的關鍵,只有對數(shù)據(jù)分析的目的有深刻的理解逗柴,才能整理出完整的分析框架和分析思路蛹头,因為不同的數(shù)據(jù)分析目的所選擇的數(shù)據(jù)分析方法是不同的。

(2)、數(shù)據(jù)收集

數(shù)據(jù)收集是一個按照確定的數(shù)據(jù)分析和框架內(nèi)容渣蜗,有目的的收集屠尊、整理相關數(shù)據(jù)的過程,它是數(shù)據(jù)分析的基礎袍睡。
數(shù)據(jù)收集方法:觀察法知染、訪談法、問卷法斑胜、測驗法和數(shù)據(jù)庫獲取法等。

(3)嫌吠、數(shù)據(jù)預處理

數(shù)據(jù)與處理是指對收集到的數(shù)據(jù)進行加工止潘、整理、以便開展數(shù)據(jù)分析辫诅。數(shù)據(jù)預處理的過程概括起來包括:數(shù)據(jù)審查凭戴、數(shù)據(jù)清理、數(shù)據(jù)轉換炕矮、數(shù)據(jù)驗證么夫。
第一步:數(shù)據(jù)審查
該步驟檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,變量值的內(nèi)容是否與研究目的的要求一致肤视,是否全面档痪,包括利用描述性統(tǒng)計分析,檢查各個變量的數(shù)據(jù)類型邢滑,變量值的最大值腐螟、最小值、平均數(shù)困后、中位數(shù)等乐纸,數(shù)據(jù)個數(shù)、缺失值和空值個數(shù)等摇予。
第二步:數(shù)據(jù)清理
該步驟針對數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯誤值汽绢、缺失值、異常值侧戴、可疑數(shù)據(jù)宁昭,選用合適的方法進行清理,同時也包括刪除重復記錄救鲤。
第三步:數(shù)據(jù)轉換
數(shù)據(jù)分析強調分析對象的可比性久窟,但不同變量值由于計量單位等不同,使得數(shù)據(jù)不可比本缠,因此需要在數(shù)據(jù)分析前對數(shù)據(jù)進行變換斥扛,包括無量綱化處理、線性變換、匯總和聚集稀颁、適度概化芬失、規(guī)范化以及屬性構造等。
第四步:數(shù)據(jù)驗證
該步驟的目的是初步評估和判斷數(shù)據(jù)是否滿足統(tǒng)計分析的需要匾灶,從而決定是否需要增加或減少數(shù)據(jù)量棱烂。可以利用簡單的線性模型及散點圖阶女、直方圖颊糜、折線圖等圖形進行探索性分析,利用相關分析秃踩、一致性檢驗等方法對數(shù)據(jù)的準確性進行驗證衬鱼,確保不把錯誤和有偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析模型中。

(4)憔杨、數(shù)據(jù)分析

實現(xiàn)從數(shù)據(jù)到知識的分析過程鸟赫,從而解決商業(yè)問題。
其一要熟悉常用的數(shù)據(jù)分析方法:方差消别、回歸抛蚤、因子、聚類寻狂、分類岁经、時間序列等數(shù)據(jù)分析方法的原理、使用范圍荆虱、優(yōu)缺點和結果的解釋蒿偎。
其二要熟悉數(shù)據(jù)分析工具:一般工具Excel、專業(yè)分析軟件如SPSS怀读、SAS诉位、MATLAB、R等

(5)菜枷、數(shù)據(jù)展現(xiàn)

“字不如表苍糠,表不如圖”
數(shù)據(jù)展現(xiàn)常用的圖有:餅圖、折線圖啤誊、柱形圖/條形圖岳瞭、散點圖、雷達圖蚊锹、金字塔圖瞳筏、矩陣圖、漏斗圖牡昆、帕累托圖等姚炕。

(6)、報告撰寫

通過分析報告,可以把數(shù)據(jù)分析的目的柱宦、過程些椒、結果及方案完整呈現(xiàn)出來,從而為達到商業(yè)目的提供參考掸刊。
數(shù)據(jù)分析報告需要有明確的結論免糕、建議和解決方案。

3忧侧、數(shù)據(jù)分析方法簡介

數(shù)據(jù)分析方法根據(jù)使用的工具和理論的難度分為四個層次:單純的數(shù)據(jù)加工方法石窑、數(shù)理統(tǒng)計分析方法、數(shù)據(jù)挖掘方法和大數(shù)據(jù)分析方法苍柏。

(1)尼斧、單純的數(shù)據(jù)加工方法

側重于數(shù)據(jù)的加工和預處理,使用的工具一般是SQL和Excel试吁,這種方法典型的代表是:描述性統(tǒng)計分析和相關分析。
第一:描述性統(tǒng)計分析
描述性統(tǒng)計分析是通過圖表或數(shù)學方法楼咳,對數(shù)據(jù)資料進行整理熄捍、分析,并對數(shù)據(jù)的分布狀態(tài)母怜、數(shù)字特征和隨機變量之間的關系進行估計和描述的方法余耽。如:需要分析一萬個數(shù)時僅用八個數(shù)就把這一萬個數(shù)說清楚了。
描述性統(tǒng)計分析分為集中趨勢分析苹熏、離中趨勢分析和相關分析三大部分碟贾。
集中趨勢分析:主要靠平均數(shù)、中數(shù)轨域、縱數(shù)等統(tǒng)計指標來表示數(shù)據(jù)的集中趨勢袱耽;
離中趨勢分析:主要靠全距、四分差干发、平均差朱巨、方差、標準差等統(tǒng)計指標來研究數(shù)據(jù)的離中趨勢枉长;
相關分析:研究現(xiàn)象之間是否存在某種依存關系冀续,并對具體有依存關系的現(xiàn)象進行其相關方向及相關程度的研究。
第二:回歸分析
確定兩種或兩種以上變數(shù)間相互依賴的定量關系的一種統(tǒng)計分析方法必峰。
第三:對應分析
又稱為“關聯(lián)分析”洪唐、“R-Q”型因子分析
通過分析由定性變量構成的交互匯總表來揭示變量間的聯(lián)系。
第四:因子分析
指研究從變量群中提取共性因子的統(tǒng)計技術吼蚁。
第五:方差分析
用于兩個及兩個以上樣本均數(shù)差別的顯著性檢驗

(2)凭需、數(shù)據(jù)挖掘方法簡介

第一:聚類分析
將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。聚類是將數(shù)據(jù)分類到不同的類或者簇的過程,同一個簇的對象有很大的相似性功炮,而不同簇間的對象有很大的相異性溅潜。
第二:分類分析
(1)決策樹:一種逼近離散值目標函數(shù)的方法,對噪聲數(shù)據(jù)有很好的健壯性且能學習吸取表達式薪伏。決策樹通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例滚澜,葉子節(jié)點即為實例所屬的分類。
(2)人工神經(jīng)網(wǎng)絡:通過輸入多個非線性模型及不同模型之間的加權互聯(lián)嫁怀,最終得到一個輸出模型设捐,其中,隱蔽層所包含的就是非線性函數(shù)塘淑。
(3)貝葉斯分類方法:用來預測類成員間關系的可能性萝招。比如通過一個給定的觀察值的相關屬性來判斷其屬于一個特定類別的概率。
(4)支持向量機:在線性情況下存捺,就在原空間尋找兩類樣本的最優(yōu)分類超平面槐沼;在非線性情況下,使用一種非線性映射捌治,將原訓練數(shù)據(jù)集映射到較高的維上岗钩,在新維上搜索線性最佳分離超平面。
(5)隨機森林:一種組合分類器肖油,它利用bootstrap重抽樣方法從原始樣本中抽取多個樣本兼吓,對每個bootstrap樣本進行決策樹建模,然后將這些決策樹組合在一起森枪,通過投票得出最終分類或預測的結果视搏。
第三:關聯(lián)規(guī)則
找出數(shù)據(jù)集中的頻繁模式,即多次重復出現(xiàn)的模式和并發(fā)關系县袱,即同時出現(xiàn)的關系浑娜,頻繁和并發(fā)關系也被稱為關聯(lián)關系。如購物籃分析显拳。
第四:回歸分析
主要描述一個因變量如何隨著一批自變量的變化而變化棚愤。

(3)、統(tǒng)計分析和數(shù)據(jù)挖掘的區(qū)別和聯(lián)系

聯(lián)系:
從兩者的理論源來看杂数,它們都是源于統(tǒng)計基礎理論宛畦,因此很多方法都是同根同源的。
區(qū)別:
數(shù)據(jù)挖掘是統(tǒng)計分析的延伸和擴展揍移,統(tǒng)計分析需要對數(shù)據(jù)分布和變量間的關系做假設次和,而數(shù)據(jù)挖掘不需要對數(shù)據(jù)分布做任何假設,數(shù)據(jù)挖掘的算法會自動尋找變量間的關系那伐;統(tǒng)計分析在預測中的應用常常表現(xiàn)為一個或一組函數(shù)關系式踏施,而數(shù)據(jù)挖掘在預測應用中的重點在預測的結果石蔗。

最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市畅形,隨后出現(xiàn)的幾起案子养距,更是在濱河造成了極大的恐慌,老刑警劉巖日熬,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件棍厌,死亡現(xiàn)場離奇詭異,居然都是意外死亡竖席,警方通過查閱死者的電腦和手機耘纱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來毕荐,“玉大人束析,你說我怎么就攤上這事≡餮牵” “怎么了员寇?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長第美。 經(jīng)常有香客問我丁恭,道長,這世上最難降的妖魔是什么斋日? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮墓陈,結果婚禮上恶守,老公的妹妹穿的比我還像新娘曹宴。我一直安慰自己栏账,他們只是感情好,可當我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布范舀。 她就那樣靜靜地躺著仔拟,像睡著了一般衫樊。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上利花,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天科侈,我揣著相機與錄音,去河邊找鬼炒事。 笑死臀栈,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的挠乳。 我是一名探鬼主播权薯,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼姑躲,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了盟蚣?” 一聲冷哼從身側響起黍析,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎屎开,沒想到半個月后阐枣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡牍戚,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年侮繁,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片如孝。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡宪哩,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出第晰,到底是詐尸還是另有隱情锁孟,我是刑警寧澤,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布茁瘦,位于F島的核電站品抽,受9級特大地震影響,放射性物質發(fā)生泄漏甜熔。R本人自食惡果不足惜圆恤,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望腔稀。 院中可真熱鬧盆昙,春花似錦、人聲如沸焊虏。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽诵闭。三九已至炼团,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間疏尿,已是汗流浹背瘟芝。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留润歉,地道東北人模狭。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像踩衩,于是被迫代替她去往敵國和親嚼鹉。 傳聞我的和親對象是個殘疾皇子贩汉,可洞房花燭夜當晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 1. 什么是數(shù)據(jù)分析? 數(shù)據(jù)分析是指通過某種方法和技巧對準備好的數(shù)據(jù)進行探索锚赤、分析匹舞,從中發(fā)現(xiàn)因果關系、內(nèi)部聯(lián)系和業(yè)...
    大帥_1061閱讀 1,122評論 0 1
  • 一线脚、產(chǎn)品基礎分析概述 通過在網(wǎng)站或應用中進行數(shù)據(jù)埋點赐稽,進而獲取用戶對產(chǎn)品的使用和行為數(shù)據(jù),并基于產(chǎn)品體驗優(yōu)化的數(shù)據(jù)...
    M小美閱讀 734評論 0 4
  • 背景 數(shù)據(jù)分析是機器學習的基礎浑侥,甚至對于工程或者項目管理來說姊舵,以量化數(shù)據(jù)為基礎的方法論也是必要的。比如服務穩(wěn)定性需...
    springzzj閱讀 245評論 0 0
  • 團隊涉及到數(shù)據(jù)分析的項目寓落,有必要和小伙伴做一個簡單的入門培訓括丁。BI 是一個非常大的領域,涉及到非常多的概念和技術伶选,...
    voxer閱讀 1,341評論 0 9
  • 數(shù)據(jù)分析的定義 數(shù)據(jù)分析是為了提取有用信息和形成對結論而對數(shù)據(jù)加以詳細研究和概括總結的過程 數(shù)據(jù)分析的分類 描述性...
    柄志閱讀 312評論 0 0