本文記錄了《Python數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》第6章到第15章的實戰(zhàn)案例,主要是個人的學習筆記句喷×偷洌【2022.5.25】
1. 章節(jié)總覽
章6 電力竊漏電自動用戶識別? 竊漏電指標構建(時間窗)+ 插值法填補缺失數(shù)據(jù) + 機器數(shù)據(jù)
章7 航空公司客戶價值分析? RFM方法 + 用戶群聚類和聚類結果解釋 + 運營數(shù)據(jù)
章8 中醫(yī)癥型關聯(lián)規(guī)則挖掘? Apriori關聯(lián)分析 + 定量數(shù)據(jù)轉化為分類數(shù)據(jù)用于解釋 + 醫(yī)學解釋
章9 基于水質(zhì)圖像的水質(zhì)測評? 圖像特征挖掘 + 圖像識別(圖像特征分析)
章10 家用電器用戶行為分析與事件識別? 動態(tài)數(shù)據(jù) + 識別機制的設置
章11 應用系統(tǒng)負載分析與磁盤容量預測??時間序列處理
章12 電子商務網(wǎng)站用戶行為分析? 鏈接點擊瀏覽情況(implicit data)+ 爬蟲
章13 財政收入影響因素及預測模型? Lasso識別特征 + 時間序列灰色預測 + 神經(jīng)網(wǎng)絡
章14 基于基站定位數(shù)據(jù)的商圈分析? 構造人流數(shù)據(jù) + 層次聚類 + 用累積的折線圖表示類別
章15 電商產(chǎn)品評論數(shù)據(jù)情感分析? 清洗 + 分詞 + 人工標簽 + 三個情感分析模型
2. 數(shù)據(jù)分析目標
電力竊漏:根據(jù)電力局數(shù)據(jù),歸納竊漏電關鍵指標唾琼,構建竊漏電識別模型兄春;實時監(jiān)控數(shù)據(jù),調(diào)用模型進行實時診斷锡溯。
航空公司:依據(jù)客戶數(shù)據(jù)赶舆,對客戶進行分類;根據(jù)用戶特征祭饭,比較不同用戶價值芜茵;提供個性化服務,制定營銷策略倡蝙。
中醫(yī)癥型:根據(jù)病理信息九串,挖掘癥狀與癥型之間的相關關系。
水質(zhì)圖像:有標簽的數(shù)據(jù)寺鸥,對圖像進行識別判斷猪钮。
家用電器用戶行為:從熱水器采集到的數(shù)據(jù)中,劃分完整用水事件析既;從用水事件中識別洗浴事件躬贡。
磁盤容量預測:利用歷史磁盤數(shù)據(jù),預測磁盤未來的使用空間變化眼坏;根據(jù)需求設置不同預警拂玻。
電子商務網(wǎng)站用戶行為:按照地域了解用戶訪問網(wǎng)站的主要目的和偏好;根據(jù)訪問記錄了解用戶的訪問習慣宰译。
財政收入:梳理財政收入的特征檐蚜,識別關鍵特征;利用這些特征和歷史數(shù)據(jù)對財政收入進行預測沿侈。
基站定位商圈分析:根據(jù)歷史定位數(shù)據(jù)闯第,對基站進行分群;對商圈分群缀拭,識別不同特征咳短,制定相應營銷策略填帽。
電商產(chǎn)品評論:判斷用戶情感傾向;挖掘評論中指出的有點和不足咙好;提煉品牌賣點篡腌。
總結如上數(shù)據(jù)挖掘目的,可以發(fā)現(xiàn)
(1)數(shù)據(jù)挖掘中往往需要去識別某些有效信息勾效,例如監(jiān)督人的某些行為的發(fā)生(竊電嘹悼、使用習慣、瀏覽習慣)层宫,事物之間的關聯(lián)(醫(yī)學癥型杨伙、財政收入影響因素),事物發(fā)展的特征(圖像識別萌腿、磁盤容量)限匣,其中主要涉及有監(jiān)督的學習或者是無監(jiān)督的時間序列預測;
(2)這種識別行為需要構建一些相應地指標毁菱、規(guī)則膛腐,使得識別能夠正確地進行。
3. 指標構建方法
-d- 對應第d個案例
-1- 識別竊電需要先發(fā)現(xiàn)竊電行為發(fā)生時數(shù)據(jù)(在物理方面是相對固定的)會發(fā)生什么樣的變化鼎俘,然后根據(jù)相應的變化(框定時間窗)去構建指標,確定值域(但是是一種相對滯后的識別辩涝,因為需要事情發(fā)生了才能發(fā)現(xiàn)贸伐,如果竊電者規(guī)避已有的竊電數(shù)據(jù)規(guī)律,則難以馬上發(fā)現(xiàn)怔揩,但是這種規(guī)避在現(xiàn)實中可能不容易實現(xiàn))
-2- 要根據(jù)客戶數(shù)據(jù)對客戶進行分群捉邢,依賴的是現(xiàn)有客戶數(shù)據(jù)的可解釋程度,需要根據(jù)業(yè)務規(guī)律去確定哪些用戶行為(RFM模型商膊,理論指導依據(jù))對數(shù)據(jù)挖掘目的產(chǎn)生影響伏伐,再確定衡量這一用戶行為的合適的指標。利用聚類方法得到的結果不一定是可解釋的晕拆,可能是因為選擇的聚類標準不恰當藐翎,也可能是選取的數(shù)據(jù)指標或數(shù)據(jù)本身沒法帶來有效的信息。
-3- 癥狀作為衡量指標实幕,癥狀本身有重癥和輕癥之分吝镣,容易轉化為定量數(shù)據(jù),用數(shù)字的大小來描述嚴重程度昆庇,但是最終確定是什么癥狀末贾,也需要對數(shù)據(jù)進行離散化處理,醫(yī)學上和統(tǒng)計學上如何看待這個離散化閾值呢整吆?
-4- 圖像特征常常包括顏色拱撵、紋理辉川、形狀、空間拴测,不同特征有相應的表達方式乓旗,如顏色可以用顏色矩(數(shù)字化)來表示。圖像判斷還常常需要對圖像進行切割昼扛,找出最具有判斷力的位置(空間特征)寸齐,判別的結果可能是來自于多個屬性的疊加組合。圖像是否可以聚類呢抄谐?利用聚類更科學的 尋找潛在的特征渺鹦。
-5- 具有時間標度的數(shù)據(jù)可能需要劃分時間窗來進行處理,在相應的時間窗中進行指標的計算蛹含。如何劃分時間窗毅厚,可以使用閾值尋優(yōu)模型,在一次事件的開始和結束的地方做上標記浦箱,然后計算事件個數(shù)吸耿。使用的閾值不同,每個時間窗則不同酷窥,而最后的事件發(fā)生總個數(shù)也不同咽安,隨著閾值的調(diào)整,事件總個數(shù)的變化可以畫成折線圖蓬推。利用這一變化的快慢可以發(fā)現(xiàn)一個比較好的值域妆棒?平穩(wěn)說明這個值域較為穩(wěn)定,事件的發(fā)生不集中沸伏,比較難以理解為什么用這個平穩(wěn)的區(qū)域作為閾值的選擇區(qū)間
-6- 消耗品糕珊,典型的增長型數(shù)據(jù),而且存在相應的增長規(guī)律毅糟,可以利用時間序列去判斷红选。單一指標,需要檢驗數(shù)據(jù)的平穩(wěn)性(差分運算姆另,檢驗變化規(guī)律存在)喇肋、隨機性。現(xiàn)實生活中其他的增長型數(shù)據(jù)可能包括(廣告投放的花費[但其實設定百分閾值就可以]蜕青;使用時間序列的原因可能是因為它在某一段時間內(nèi)有效苟蹈,但是缺陷在于這種趨勢不可能完全持續(xù)下去,需要更加靈敏地察覺到變化)
-7- 需要網(wǎng)站數(shù)據(jù)的爬蟲右核,還需要對個體進行分類慧脱,統(tǒng)計不同類別的百分比。利用URL的規(guī)律進行分類處理贺喝,關注篩選哪些頁面信息具有有效的作用(人工篩選菱鸥,意思就是說鏈接創(chuàng)建需要有規(guī)律宗兼,方便后續(xù)的分析)。
-8- 宏觀指標氮采,可能存在比較明顯的相關關系殷绍,容易做圖,討論線性/非線性關系鹊漠,利用經(jīng)典方法(主成分分析)/正則化方法來篩選指標主到。Lasso方法(利用單位陣補足原矩陣使其滿秩)添加用于解決回歸問題中使用最小二乘法時不滿秩的情況(即列數(shù)大于行數(shù),指標過多躯概,模型過于復雜登钥,獲得的是局部解,泛化能力差)娶靡。
-9- 時間窗數(shù)據(jù)截取牧牢,根據(jù)需要的時間窗(比如說工作日、周末姿锭、凌晨)來框選塔鳍,然后計算所需的平均停留時間/人流指標(區(qū)域密度數(shù)據(jù),時間區(qū)域呻此、空間區(qū)域)轮纫,指標設計類似于抽象的物理空間。
-10- 電商產(chǎn)品評論焚鲜,處理文字信息蜡感,文本清洗(如何保留有效的信息,重復的恃泪、無意義的),根據(jù)語義關聯(lián)構建主題模型犀斋,判斷詞的情感傾向贝乎。(難以判斷結果好壞)
Summary:信息類型/ 文字、圖像叽粹、數(shù)字览效、分類; 標簽/ 專家標簽虫几、自探索锤灿; 數(shù)據(jù)預處理/ 關鍵在于清洗無效信息(空、不合理辆脸、無意義)但校;衡量信息是否有效,除了結果驗證(聚類的可解釋性啡氢、錯判與否)還可以 (先驗信息)(閾值方法)(主觀業(yè)務状囱、戰(zhàn)略因素)
4. 使用的方法
-1- 輸入數(shù)據(jù):有標簽(是否竊電)的用電數(shù)據(jù)术裸。 /用于預測什么樣的用電數(shù)據(jù)是竊電的用戶??
LM神經(jīng)網(wǎng)絡:Sequential、Dense亭枷、Activation袭艺;Cart決策樹:參數(shù)設置? ? ? ? ? ? ? ? ? ? ? ? ? ??
評價方法:混淆矩陣、ROC
-2- 輸入數(shù)據(jù):用戶數(shù)據(jù)?KMeans聚類?利用雷達圖對聚類結果進行展示
-3- 輸入數(shù)據(jù):(有標簽)不同癥狀對應不同的病病叨粘,考察不同癥狀和病病的關聯(lián)度猾编,某些癥狀共同出現(xiàn)時可能對應某一個病病。/建立Apriori關聯(lián)規(guī)則(支持度升敲、置信度)
-4- 輸入數(shù)據(jù):水質(zhì)圖像數(shù)據(jù)(有水質(zhì)評價標簽)答倡。 /用于預測圖像對應的水質(zhì)分類? ? ? ? ? ??
支持向量機:多分類,調(diào)參冻晤∥郏混淆矩陣展現(xiàn)結果
-5- 輸入數(shù)據(jù):機器使用的事件指標數(shù)據(jù)(有洗浴標簽)。 /用于識別哪些事件時洗浴事件
BP神經(jīng)網(wǎng)絡:同LM神經(jīng)網(wǎng)絡鼻弧,判斷的準確率
-6- 輸入:單一數(shù)據(jù)源的時間序列數(shù)據(jù)设江。 /用于預測該序列未來的發(fā)展情況。? ? ? ? ? ? ? ??
ARMA模型:(平穩(wěn)性檢驗)(白噪聲檢驗)(模型識別:計算ARMA參數(shù))(模型檢驗)(模型預測) 模型效果難以評估攘轩,無標簽叉存。用于預警不會帶來過大損失。
-7- 輸入:不同用戶對不同商品的感興趣程度度帮,用戶和用戶之間歼捏,物品和物品之間的相關程度。 /想要給不同用戶推薦物品?—— 協(xié)同過濾(準確率笨篷、召回率姻成、點擊率肄程、跳出率等等對推薦系統(tǒng)進行評價)
-8- 輸入:許多年份中,不同指標值以及想要預測的財政收入值。 /利用時間序列(灰色預測)分別預測不同指標的增長情況垮庐,利用神經(jīng)網(wǎng)絡發(fā)現(xiàn)指標間的關系鸽心,利用指標輸入得到財政收入輸出
-9- 輸入:不同基站(基站對應商圈)的流量數(shù)據(jù)墓猎,根據(jù)流量數(shù)據(jù)對基站進行層次聚類卷胯,得到相應聚類結果(每一類的指標數(shù)值都在某一區(qū)間內(nèi))。利用累計的折線圖可以看出每一類的數(shù)據(jù)分布辜贵。
-10- 模型1. 情感傾向性模型:word2vector悯蝉,正負向標簽,建立棧式自編碼神經(jīng)網(wǎng)絡提取特征再后接分類器用來判斷(多層自編碼器托慨,自編碼+自編碼+...+自編碼+分類器鼻由,上一層自編碼器的輸出作為下一層自編碼器的輸入)
模型2. 語義網(wǎng)絡:詞和詞之間的連接關系,節(jié)點和弧,節(jié)點指向節(jié)點嗡靡,語義具有從屬性跺撼,可以直接的看出什么事物常常用什么詞形容。 ①數(shù)據(jù)預處理讨彼、②情感分析(基于優(yōu)化的情感詞典歉井,比有標簽的神經(jīng)網(wǎng)絡、詞向量更準確)哈误、③對正面和負面數(shù)據(jù)分別進行語義網(wǎng)絡構建(提取高頻詞哩至,抽取行特征,利用軟件形成語義網(wǎng)絡圖和共詞矩陣)
模型3. 基于LDA模型的主題分析:一篇文檔中 詞——(以一定概率選擇某個主題)——主題——(以一定概率選擇主題中某個詞)——詞 [文檔中相同主題的詞的產(chǎn)生] 蜜自;包含的元素有:文檔菩貌、主題、詞重荠。Gensim的LDA分析需要限定主題詞個數(shù)箭阶,建立詞典(每個詞對應一個id)和語料庫(每句處理過后的評論對應哪些詞,詞頻幾何)戈鲁。最后會給出相應文檔的幾個主題對應的詞仇参,根據(jù)這些詞進行后續(xù)分析。
Summary:這些案例中主要涉及的問題包括有標簽的學習/識別(神經(jīng)網(wǎng)絡婆殿、支持向量機诈乒、決策樹),關聯(lián)關系分析(Apriori婆芦、語義網(wǎng)絡分析)怕磨,無監(jiān)督聚類(Kmeans,層次聚類)消约,時間序列問題(ARMA肠鲫,灰色預測)。