數據分析

1. 數據分析的四個層級

1.1 描述性分析杈女,描述現實,發(fā)現問題

到底發(fā)生了什么
找出關鍵環(huán)節(jié)呈昔,設置指標進行量化。達到還原事件的目的友绝。
根據科學的評價標準堤尾,發(fā)現事件發(fā)生過程中的異常。


image.png

1.2 診斷性分析迁客,解決問題郭宝,發(fā)現機會

問題出在哪
根據業(yè)務邏輯,通過數據掷漱,找出引起最終結果的原因和可以改變未來結果的方法


image.png

1.3 預測性分析粘室,挖掘機會,預測未來

未來會發(fā)生什么
通常統(tǒng)計學卜范、數據挖掘模型對數據進行處理衔统,發(fā)現隱藏的信息或預測分析對象未知的屬性
分類、聚類、關聯分析缰冤、異常檢測

1.4 決策性分析犬缨,制定決策,實現目標

最佳目標是什么


image.png

2. 認識數據

2.1 什么是數據和數據集

數據分類及處理方式

  • 定性數據:眾數棉浸、分布分析
  • 定量數據: 均值怀薛、方差、標準差等
  • 定時數據: 時間序列

數據對象的集合是數據集
分類:

  • 原始數據集:要備份
  • 統(tǒng)計 數據集

2.2 什么是指標如何評估數據質量

2.2.1 指標

指標:根據數據分析或數據統(tǒng)計得到的反映或評價某一事件的數據
指標的屬性:

  • 業(yè)務屬性:名稱迷郑、計算邏輯枝恋、描述對象、時效嗡害、查詢權限等
  • 技術屬性:系統(tǒng)來源焚碌、取數字段、取數頻率霸妹、加工規(guī)則
    指標的分類:按統(tǒng)計方式區(qū)分
  • 基礎指標
  • 復合指標
    指標的分類:按描述內容區(qū)分
  • 數量指標
  • 質量指標

2.2.2數據的質量

數據質量代表數據對事實的還原程度十电。
評價:缺失值、重復值叹螟、異常值鹃骂、準確率

3.數據質量分析

3.1 數據的準確率及重復值的識別和處理

3.1.1 準確率

原因:
  • 對數據的理解有誤,字段含義與理解含義有差異
  • 指標的統(tǒng)計邏輯有差異
  • 數據不完整罢绽,有缺失或遺漏
處理方法:
  • 數據分析結果與已知準確數據對比
  • 相關人員核實
影響

失真的數據畏线,在分析、建模的過程會讓模型出現錯誤的結果良价,導致輸出結果不可靠寝殴。

解決方案

不斷修正邏輯直到獲取準確的數據

3.1.2 重復值

原因:
  • 數據錄入時重復錄入
  • 數據處理時產生了多條數據
識別方法:
  • 確定數據的主鍵,統(tǒng)計主鍵出現的次數
影響

數據失真明垢,在分析蚣常、建模的過程會讓模型出現錯誤的結果,導致輸出結果不可靠袖外。

解決方案
  • 如兩條記錄僅有幾個字段相同史隆,需要判斷哪一條是準確數據,刪除無效數據保留準確數據曼验。
    ** 如兩條記錄完全相同泌射,刪除一條數據。

3.2 數據的缺失值的識別和處理

image.png

平均值填充法
K最近距離法
拉格朗日插值法

3.3 數據的異常值的識別和處理

原因:采集錯誤鬓照、真實產生
識別:根據業(yè)務邏輯判別熔酷、統(tǒng)計判別


image.png
image.png

image.png

處理方法:
刪除,要慎重豺裆,刪除一個后拒秘,重新評估号显,確定是否刪除下一個
視為缺失值,
保留異常

4. 數據的分布分析方法

對數據分布情況進行描述躺酒,從而對數據發(fā)生的規(guī)律有準確的認識押蚤。


image.png

4.1定量數據分布分析方法

image.png

事件發(fā)生的一般結果是什么-》中心位置 集中趨勢
事件結果的變化情況 -》分散程度 離中趨勢
事件各個結果的發(fā)生概率是什么-》圖型特征 概率分布


image.png

image.png

image.png

image.png

4.2 定性數據分布分析方法

目的:尋找不同類別對象的區(qū)別,或者對不同類別對象做不同處理羹应,確定需要重點關注的對象揽碘。


image.png

數據質量、分布分析

4.2.1占比分析:

image.png

4.2.2 貢獻度分析:

image.png

4.3 定時數據分布分析方法

尋找事件發(fā)生結果隨時間變化的規(guī)律


image.png

4.3.1 周期性分析

傅利葉园匹, 畫圖分析法

4.3.2 時間序列分析

image.png

5. 描述性分析-四層次之一

image.png

image.png

漏斗分析法


image.png

用戶留存分析

用戶畫像分析
-- 標簽屬性分類
-- 熱點圖

6. 診斷性分析-四層次之二

image.png

分析步驟6步雳刺,見上面。


image.png

image.png

image.png

image.png

7. 預測性分析-四層次之三

7.1 分類分析的方法裸违、步驟及應用案例

分類是簡化認識掖桦、降低管理成本、提升管理效率的重要手段供汛。
常見的分類方法:決策樹算法枪汪、隨機森林算法、KNN-最近鄰分類算法紊馏、神經網絡算法

決策樹算法:

image.png

image.png

7.2 聚類分析的方法料饥、步驟及應用案例

聚類分析:僅依據數據中發(fā)現的描述對象的特征,將數據進行分組朱监,其目標是,組內的對象相互間是相似的原叮,而不同組之間的對象是不同的赫编。


image.png

K-means算法

image.png

image.png

計算距離方法:歐氏距離、曼哈頓距離

聚類質量評估方法

image.png

聚類結果的處理方法

各分群的特點是什么
對不同群體采用不同處理方式
RF模型

分類與聚類的區(qū)別

分類是知道分類結果奋隶,監(jiān)督學習
聚類 無監(jiān)督學習

7.3 關聯分析的方法擂送、步驟及應用案例

挖掘性分析方法:關聯分析
發(fā)現隱藏在大型數據集下的有意義的聯系。

7.3.1 關聯分析的步驟

image.png

7.3.2 常用算法

image.png

APriori算法

核心目標:降低產生頻率項集的復雜度
如是要一個項集是頻繁的唯欣,其子集也是非頻繁的嘹吨。
如是要一個項集是非頻繁的,其超集也是非頻繁的境氢。
步驟一蟀拷、尋找頻率項集
步驟二、計算置信度


image.png

7.4 離群點檢測的方法萍聊、步驟及應用案例

羊毛黨識別问芬、故障設備識別、欺詐檢測

檢測方法

image.png

7.4.1常見的統(tǒng)計方法

image.png

7.4.2 箱形圖分析

image.png

7.4.3基于鄰近度的離群點檢測

image.png

7.4.4 基于密度的離群點檢測

image.png
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末寿桨,一起剝皮案震驚了整個濱河市此衅,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖挡鞍,帶你破解...
    沈念sama閱讀 222,464評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件骑歹,死亡現場離奇詭異,居然都是意外死亡墨微,警方通過查閱死者的電腦和手機道媚,發(fā)現死者居然都...
    沈念sama閱讀 95,033評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來欢嘿,“玉大人衰琐,你說我怎么就攤上這事×侗模” “怎么了羡宙?”我有些...
    開封第一講書人閱讀 169,078評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長掐隐。 經常有香客問我狗热,道長,這世上最難降的妖魔是什么虑省? 我笑而不...
    開封第一講書人閱讀 59,979評論 1 299
  • 正文 為了忘掉前任匿刮,我火速辦了婚禮,結果婚禮上探颈,老公的妹妹穿的比我還像新娘熟丸。我一直安慰自己,他們只是感情好伪节,可當我...
    茶點故事閱讀 69,001評論 6 398
  • 文/花漫 我一把揭開白布光羞。 她就那樣靜靜地躺著,像睡著了一般怀大。 火紅的嫁衣襯著肌膚如雪纱兑。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,584評論 1 312
  • 那天化借,我揣著相機與錄音潜慎,去河邊找鬼。 笑死蓖康,一個胖子當著我的面吹牛铐炫,可吹牛的內容都是我干的。 我是一名探鬼主播钓瞭,決...
    沈念sama閱讀 41,085評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼驳遵,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了山涡?” 一聲冷哼從身側響起堤结,我...
    開封第一講書人閱讀 40,023評論 0 277
  • 序言:老撾萬榮一對情侶失蹤唆迁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后竞穷,有當地人在樹林里發(fā)現了一具尸體唐责,經...
    沈念sama閱讀 46,555評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,626評論 3 342
  • 正文 我和宋清朗相戀三年瘾带,在試婚紗的時候發(fā)現自己被綠了鼠哥。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,769評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡看政,死狀恐怖朴恳,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情允蚣,我是刑警寧澤于颖,帶...
    沈念sama閱讀 36,439評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站嚷兔,受9級特大地震影響森渐,放射性物質發(fā)生泄漏。R本人自食惡果不足惜冒晰,卻給世界環(huán)境...
    茶點故事閱讀 42,115評論 3 335
  • 文/蒙蒙 一同衣、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧壶运,春花似錦耐齐、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至恕出,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間违帆,已是汗流浹背浙巫。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留刷后,地道東北人的畴。 一個月前我還...
    沈念sama閱讀 49,191評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像尝胆,于是被迫代替她去往敵國和親丧裁。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,781評論 2 361

推薦閱讀更多精彩內容