1. 數據分析的四個層級
1.1 描述性分析杈女,描述現實,發(fā)現問題
到底發(fā)生了什么
找出關鍵環(huán)節(jié)呈昔,設置指標進行量化。達到還原事件的目的友绝。
根據科學的評價標準堤尾,發(fā)現事件發(fā)生過程中的異常。
1.2 診斷性分析迁客,解決問題郭宝,發(fā)現機會
問題出在哪
根據業(yè)務邏輯,通過數據掷漱,找出引起最終結果的原因和可以改變未來結果的方法
1.3 預測性分析粘室,挖掘機會,預測未來
未來會發(fā)生什么
通常統(tǒng)計學卜范、數據挖掘模型對數據進行處理衔统,發(fā)現隱藏的信息或預測分析對象未知的屬性
分類、聚類、關聯分析缰冤、異常檢測
1.4 決策性分析犬缨,制定決策,實現目標
最佳目標是什么
2. 認識數據
2.1 什么是數據和數據集
數據分類及處理方式
- 定性數據:眾數棉浸、分布分析
- 定量數據: 均值怀薛、方差、標準差等
- 定時數據: 時間序列
數據對象的集合是數據集
分類:
- 原始數據集:要備份
- 統(tǒng)計 數據集
2.2 什么是指標如何評估數據質量
2.2.1 指標
指標:根據數據分析或數據統(tǒng)計得到的反映或評價某一事件的數據
指標的屬性:
- 業(yè)務屬性:名稱迷郑、計算邏輯枝恋、描述對象、時效嗡害、查詢權限等
- 技術屬性:系統(tǒng)來源焚碌、取數字段、取數頻率霸妹、加工規(guī)則
指標的分類:按統(tǒng)計方式區(qū)分 - 基礎指標
- 復合指標
指標的分類:按描述內容區(qū)分 - 數量指標
- 質量指標
2.2.2數據的質量
數據質量代表數據對事實的還原程度十电。
評價:缺失值、重復值叹螟、異常值鹃骂、準確率
3.數據質量分析
3.1 數據的準確率及重復值的識別和處理
3.1.1 準確率
原因:
- 對數據的理解有誤,字段含義與理解含義有差異
- 指標的統(tǒng)計邏輯有差異
- 數據不完整罢绽,有缺失或遺漏
處理方法:
- 數據分析結果與已知準確數據對比
- 相關人員核實
影響
失真的數據畏线,在分析、建模的過程會讓模型出現錯誤的結果良价,導致輸出結果不可靠寝殴。
解決方案
不斷修正邏輯直到獲取準確的數據
3.1.2 重復值
原因:
- 數據錄入時重復錄入
- 數據處理時產生了多條數據
識別方法:
- 確定數據的主鍵,統(tǒng)計主鍵出現的次數
影響
數據失真明垢,在分析蚣常、建模的過程會讓模型出現錯誤的結果,導致輸出結果不可靠袖外。
解決方案
- 如兩條記錄僅有幾個字段相同史隆,需要判斷哪一條是準確數據,刪除無效數據保留準確數據曼验。
** 如兩條記錄完全相同泌射,刪除一條數據。
3.2 數據的缺失值的識別和處理
平均值填充法
K最近距離法
拉格朗日插值法
3.3 數據的異常值的識別和處理
原因:采集錯誤鬓照、真實產生
識別:根據業(yè)務邏輯判別熔酷、統(tǒng)計判別
處理方法:
刪除,要慎重豺裆,刪除一個后拒秘,重新評估号显,確定是否刪除下一個
視為缺失值,
保留異常
4. 數據的分布分析方法
對數據分布情況進行描述躺酒,從而對數據發(fā)生的規(guī)律有準確的認識押蚤。
4.1定量數據分布分析方法
事件發(fā)生的一般結果是什么-》中心位置 集中趨勢
事件結果的變化情況 -》分散程度 離中趨勢
事件各個結果的發(fā)生概率是什么-》圖型特征 概率分布
4.2 定性數據分布分析方法
目的:尋找不同類別對象的區(qū)別,或者對不同類別對象做不同處理羹应,確定需要重點關注的對象揽碘。
數據質量、分布分析
4.2.1占比分析:
4.2.2 貢獻度分析:
4.3 定時數據分布分析方法
尋找事件發(fā)生結果隨時間變化的規(guī)律
4.3.1 周期性分析
傅利葉园匹, 畫圖分析法
4.3.2 時間序列分析
5. 描述性分析-四層次之一
漏斗分析法
用戶留存分析
用戶畫像分析
-- 標簽屬性分類
-- 熱點圖
6. 診斷性分析-四層次之二
分析步驟6步雳刺,見上面。
7. 預測性分析-四層次之三
7.1 分類分析的方法裸违、步驟及應用案例
分類是簡化認識掖桦、降低管理成本、提升管理效率的重要手段供汛。
常見的分類方法:決策樹算法枪汪、隨機森林算法、KNN-最近鄰分類算法紊馏、神經網絡算法
決策樹算法:
7.2 聚類分析的方法料饥、步驟及應用案例
聚類分析:僅依據數據中發(fā)現的描述對象的特征,將數據進行分組朱监,其目標是,組內的對象相互間是相似的原叮,而不同組之間的對象是不同的赫编。
K-means算法
計算距離方法:歐氏距離、曼哈頓距離
聚類質量評估方法
聚類結果的處理方法
各分群的特點是什么
對不同群體采用不同處理方式
RF模型
分類與聚類的區(qū)別
分類是知道分類結果奋隶,監(jiān)督學習
聚類 無監(jiān)督學習
7.3 關聯分析的方法擂送、步驟及應用案例
挖掘性分析方法:關聯分析
發(fā)現隱藏在大型數據集下的有意義的聯系。
7.3.1 關聯分析的步驟
7.3.2 常用算法
APriori算法
核心目標:降低產生頻率項集的復雜度
如是要一個項集是頻繁的唯欣,其子集也是非頻繁的嘹吨。
如是要一個項集是非頻繁的,其超集也是非頻繁的境氢。
步驟一蟀拷、尋找頻率項集
步驟二、計算置信度
7.4 離群點檢測的方法萍聊、步驟及應用案例
羊毛黨識別问芬、故障設備識別、欺詐檢測