第一節(jié) 大數(shù)據(jù)處理流程
首先是利用多種輕型數(shù)據(jù)庫收集海量數(shù)據(jù),對不同來源的數(shù)據(jù)進行預處理后创千,整合存儲到大型數(shù)據(jù)庫中掏秩,然后根據(jù)企業(yè)或個人目的和需求疯特,運用合適的數(shù)據(jù)挖掘技術(shù)提取有益的知識,最后利用恰當?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶勇婴。
一 數(shù)據(jù)采集
大數(shù)據(jù)的采集是指在確定用戶目標的基礎(chǔ)上忱嘹,對該范圍內(nèi)的所有結(jié)構(gòu)化、半結(jié)構(gòu)化耕渴、非結(jié)構(gòu)化數(shù)據(jù)進行采集的過程拘悦。
(零) 數(shù)據(jù)來源
商業(yè)數(shù)據(jù)、互聯(lián)網(wǎng)數(shù)據(jù)橱脸、傳感器數(shù)據(jù)础米。
采集方法有以下三種
(一) 系統(tǒng)日志采集
1.作用:知道找誰解決問題,定位解決問題慰技,了解客戶需求進行個性化營銷椭盏。
2.采集工具:
Scribe是Facebook開源的日志收集系統(tǒng)组砚,能夠從各種日志源上收集日志吻商,存儲到一個中央存儲系統(tǒng)中,以便于進行集中統(tǒng)計分析和處理糟红;
Flume是Cloudera的開源的日志系統(tǒng)艾帐,能夠有效地收集匯總和移動大量的實時日志數(shù)據(jù);
Chukwa屬于Hadoop系列產(chǎn)品盆偿,是一個大型分布式系統(tǒng)監(jiān)測數(shù)據(jù)的收集系統(tǒng)柒爸,提供了很多模塊以支持Hadoop集群分析。
(二) 網(wǎng)絡(luò)數(shù)據(jù)采集
網(wǎng)絡(luò)數(shù)據(jù)采集是指利用互聯(lián)網(wǎng)搜索引擎技術(shù)從網(wǎng)站抓取數(shù)據(jù)信息事扭。
目前網(wǎng)絡(luò)數(shù)據(jù)采集采用的技術(shù)基本上是利用垂直搜索引擎技術(shù)的網(wǎng)絡(luò)爬蟲或數(shù)據(jù)采集機器人捎稚、分詞系統(tǒng)、任務(wù)與索引系統(tǒng)等技術(shù)進行綜合運用而完成求橄〗褚埃——將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁中抽取出來,將其存儲為統(tǒng)一的本地數(shù)據(jù)文件罐农,并以結(jié)構(gòu)化的方式存儲条霜。
關(guān)鍵字:數(shù)據(jù)抓取技術(shù):網(wǎng)絡(luò)爬蟲、數(shù)據(jù)采集機器人涵亏、分詞系統(tǒng)宰睡、任務(wù)與索引系統(tǒng)。
對于網(wǎng)絡(luò)流量的采集可以使用DPI或DFI等帶寬管理技術(shù)進行處理气筋。
網(wǎng)絡(luò)爬蟲軟件:八爪魚拆内、Gooseeker
(三) 其他數(shù)據(jù)采集
對于保密性要求較高的數(shù)據(jù),使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)宠默。
二 數(shù)據(jù)預處理
為什么數(shù)據(jù)預處理麸恍?
因為數(shù)據(jù)通常是 不完整的(數(shù)據(jù)存在缺失值),含噪聲的(與期望結(jié)果存在偏差)光稼,不一致的(數(shù)據(jù)的來源不同或南,編碼不同)
且數(shù)據(jù)沒有高質(zhì)量孩等,結(jié)果也低質(zhì)量。
(一) 數(shù)據(jù)清洗
目的是填補缺失的數(shù)據(jù)采够、平滑噪聲數(shù)據(jù)肄方、刪除冗余數(shù)據(jù)、糾正錯誤數(shù)據(jù)蹬癌、清除異常數(shù)據(jù)权她,將原始的數(shù)據(jù)格式進行標準化。
(二) 數(shù)據(jù)集成
數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲逝薪,建立數(shù)據(jù)倉庫隅要,以更好的解決數(shù)據(jù)的分布性和異構(gòu)性問題。
(三) 數(shù)據(jù)變換
1.數(shù)據(jù)變換是采用線性或非線性的數(shù)學變換方法將多維數(shù)據(jù)壓縮成較少維數(shù)的數(shù)據(jù)董济,消除它們在時間步清、空間、屬性及精度等特征表現(xiàn)方面的差異虏肾。
2.變換方法
數(shù)據(jù)平滑(除去噪聲數(shù)據(jù))廓啊,如Bin方法、聚類方法和回歸方法封豪。
合計處理
數(shù)據(jù)泛化處理(用更抽象的來表示數(shù)據(jù),像java中的接口)
數(shù)據(jù)聚焦
數(shù)據(jù)規(guī)范化
(四) 數(shù)據(jù)歸約
數(shù)據(jù)歸約是指尋找依賴于發(fā)現(xiàn)目標數(shù)據(jù)的有用特征吹埠,以縮減數(shù)據(jù)規(guī)模做个,從而在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量居暖。
三 數(shù)據(jù)存儲
(一) 分布式文件系統(tǒng)
- 指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地節(jié)點上顽频,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連,眾多的節(jié)點組成一個文件系統(tǒng)網(wǎng)絡(luò)太闺∨淳埃——每個節(jié)點可以分布在不同的地點,通過網(wǎng)絡(luò)進行節(jié)點間的通信和數(shù)據(jù)傳輸。
谷歌的GFS文件系統(tǒng)蟀淮,用于存儲海量搜索數(shù)據(jù)最住,處理大文件。
HDFS是Hadoop分布式文件系統(tǒng)怠惶,具有高容錯性的特點涨缚。
(二) 分布式數(shù)據(jù)庫
利用網(wǎng)絡(luò)將物理上分布的多個數(shù)據(jù)存儲單元連接起來組成的邏輯數(shù)據(jù)庫。
基本思想是將集中式數(shù)據(jù)庫中的數(shù)據(jù)策治,分散存儲到多個數(shù)據(jù)存儲節(jié)點上脓魏,并通過網(wǎng)絡(luò)節(jié)點連接起來,以獲取更大的存儲容量和更高的并發(fā)訪問量通惫。特性:
分布式數(shù)據(jù)庫具有高擴展性茂翔、高并發(fā)性、高可用性以及更高的數(shù)據(jù)訪問速度履腋。
(三) 云存儲
- 云存儲是一種以數(shù)據(jù)存儲管理為核心的云計算系統(tǒng)珊燎,它是指通過集群應(yīng)用、網(wǎng)絡(luò)技術(shù)和分布式文件系統(tǒng)等功能府树,將網(wǎng)絡(luò)中大量各種不同類型的存儲設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作俐末,共同對外提供具有數(shù)據(jù)存儲和業(yè)務(wù)訪問功能的一個系統(tǒng)。
- 特性: 既保證數(shù)據(jù)的安全性奄侠,又能節(jié)約存儲空間。
四 數(shù)據(jù)挖掘
(一) 含義
指根據(jù)業(yè)務(wù)的需求和目的载矿,運用合適的工具軟件和數(shù)據(jù)挖掘方法對數(shù)據(jù)倉庫中的數(shù)據(jù)信息進行處理垄潮,尋找出特定的數(shù)據(jù)規(guī)律或數(shù)據(jù)模式,得出有價值的信息和知識闷盔。
(二) 對象
數(shù)據(jù)挖掘的對象:根據(jù)信息存儲格式弯洗,分為關(guān)系數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫逢勾、數(shù)據(jù)倉庫牡整、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫溺拱、空間數(shù)據(jù)庫逃贝、時態(tài)數(shù)據(jù)庫、異質(zhì)數(shù)據(jù)庫以及Internet等迫摔;
(三) 工具
數(shù)據(jù)挖掘常用的工具軟件:Intelligent Miner沐扳、SPSS、SAS句占、WEKA沪摄、MATLAB、R語言和 Python 等;
(四) 任務(wù)
數(shù)據(jù)挖掘的任務(wù):關(guān)聯(lián)分析杨拐、聚類分析祈餐、分類、回歸哄陶、預測昼弟、序列和偏差分析。
五 數(shù)據(jù)解釋
數(shù)據(jù)解釋是一個面向用戶的過程奕筐,它是指將大數(shù)據(jù)挖掘及分析結(jié)果在顯示終端以友好舱痘、形象、易于理解的形式呈現(xiàn)給用戶离赫。
(一) 數(shù)據(jù)可視化
數(shù)據(jù)可視化技術(shù)主要是通過圖形化方法進行清晰芭逝、有效的數(shù)據(jù)傳遞。
基本思想是使用單個圖元元素表示數(shù)據(jù)庫中的每一個數(shù)據(jù)項渊胸,大量的數(shù)據(jù)集組成數(shù)據(jù)圖像旬盯,并以多維數(shù)據(jù)的形式表示數(shù)據(jù)的各個屬性值。
可視化技術(shù)可以分為:幾何技術(shù)翎猛、圖標技術(shù)胖翰、圖形技術(shù)、分層技術(shù)切厘、混合技術(shù)萨咳。
數(shù)據(jù)可視化平臺:Yonghong 、 魔鏡
(二) 人機交互
人機交互技術(shù)是指通過系統(tǒng)輸入疫稿、輸出設(shè)備培他,以有效的方式實現(xiàn)人與系統(tǒng)之間信息交換的技術(shù)。
其中遗座,系統(tǒng)可以是各類機器舀凛、計算機和軟件。用戶界面或人機界面是人機交互所依托的介質(zhì)和對話接口途蒋,通常包括硬件和軟件系統(tǒng)懊烤。
人機交互技術(shù)是一種雙向的信息傳遞過程墩划,既可以由用戶向系統(tǒng)輸入信息氢卡,也可以由系統(tǒng)向用戶反饋信息阁吝。
第二節(jié) 大數(shù)據(jù)來源
要做大數(shù)據(jù)最關(guān)鍵的摔刁,企業(yè)需要找到自己的核心數(shù)據(jù)(價值)。
(一)核心數(shù)據(jù)
第一步欲间,找到核心數(shù)據(jù)趁耗。
1、現(xiàn)狀
1)歷史交易數(shù)據(jù)
按照主數(shù)據(jù)的普遍規(guī)劃來劃分暗赶,金融企業(yè)一般擁有客戶數(shù)據(jù)鄙币、交易數(shù)據(jù)、賬戶數(shù)據(jù)等蹂随∈伲——通常可以用來促進精準營銷岳锁、優(yōu)化產(chǎn)品設(shè)計等绩衷。
2)用戶行為數(shù)據(jù)
柜員服務(wù)系統(tǒng)、網(wǎng)上服務(wù)系統(tǒng)中產(chǎn)生的大量的業(yè)務(wù)行為數(shù)據(jù)——通臣ぢ剩可以用來分析提高運營效率咳燕、促進精準營銷。
3)系統(tǒng)運行日志
金融企業(yè)的應(yīng)用系統(tǒng)會產(chǎn)生大量的數(shù)據(jù)庫日志和應(yīng)用程序日志乒躺≌忻ぃ——分析應(yīng)用系統(tǒng)效率,進而提高應(yīng)用系統(tǒng)服務(wù)水平和客戶滿意度嘉冒。
4)非結(jié)構(gòu)化數(shù)據(jù)
通過語音呼叫中心曹货、郵件中心咆繁、短信中心等客戶接觸渠道采集的數(shù)據(jù),客戶服務(wù)大廳視頻監(jiān)控系統(tǒng)的視頻數(shù)據(jù)控乾。
5)過程文檔數(shù)據(jù)
金融企業(yè)通常都成立了大規(guī)模的研發(fā)中心和數(shù)據(jù)中心么介,按照標準的流程開發(fā)和部署應(yīng)用系統(tǒng)。在這個過程中蜕衡,將產(chǎn)生大量的需求分析友存、設(shè)計文檔特铝、測試報告置济、上線部署晒骇、問題記錄等過程和技術(shù)文檔。
2镰吆、問題
最大的問題在于來源多樣帘撰、流動性差、共享性差
1)數(shù)據(jù)質(zhì)量問題
由于某些應(yīng)用系統(tǒng)開發(fā)歷史較久万皿,隨著架構(gòu)規(guī)劃和科學技術(shù)的不斷進步摧找,導致接口數(shù)量多、數(shù)據(jù)不一致牢硅、數(shù)據(jù)質(zhì)量差等問題蹬耘。
2)內(nèi)部管理壁壘
對于許多企業(yè)來說,信息流被各部門彼此分割减余,數(shù)據(jù)難以互通综苔,大數(shù)據(jù)的共享和匯集變得非常困難,更難以實現(xiàn)大數(shù)據(jù)的深度應(yīng)用位岔。
3如筛、解法方法
1)提升對數(shù)據(jù)資產(chǎn)質(zhì)量的認識
金融企業(yè)要明確:各個渠道和部門擁有的是數(shù)據(jù)采集職責,為公司增加數(shù)據(jù)資產(chǎn)抒抬;數(shù)據(jù)資產(chǎn)的所有權(quán)與使用權(quán)杨刨,只能歸公司所有。
2)明確數(shù)據(jù)相關(guān)的職責與歸屬
3)打通數(shù)據(jù)流轉(zhuǎn)
(二)外圍數(shù)據(jù)
第二步擦剑,找到外圍數(shù)據(jù)拭嫁。
1、外圍數(shù)據(jù)
1)數(shù)據(jù)共享聯(lián)盟
對于大數(shù)據(jù)來說抓于,整合和共享的價值更大。
2)互聯(lián)網(wǎng)數(shù)據(jù)
網(wǎng)絡(luò)爬蟲仍然是外部數(shù)據(jù)的有效獲取途徑浇借,也可以直接和大型互聯(lián)網(wǎng)平臺進行數(shù)據(jù)交易捉撮。
未來各行業(yè)更好發(fā)展的一條捷徑就是客戶數(shù)據(jù)資源共享。
2妇垢、外圍數(shù)據(jù)的基本準則
1)合法巾遭、符合道德規(guī)范
2)分析清除提供者的商業(yè)模式
3)在購買與交換之間權(quán)衡利弊
4)外部數(shù)據(jù)的目的是補充內(nèi)部數(shù)據(jù)肉康,轉(zhuǎn)化為企業(yè)數(shù)據(jù)資產(chǎn)
3、常見問題
1)數(shù)據(jù)獲得成本
數(shù)據(jù)不是免費的灼舍。金融企業(yè)數(shù)據(jù)是非常有價值的一類吼和,數(shù)據(jù)提供商最為知道數(shù)據(jù)的價值,因此選擇通過“購買加交換”的形式提供數(shù)據(jù)骑素,金融企業(yè)需要評估可能付出的成本與代價炫乓。
2)數(shù)據(jù)價值發(fā)揮
讓數(shù)據(jù)流轉(zhuǎn)起來,盡量不形成數(shù)據(jù)壁壘献丑,最大限度發(fā)揮數(shù)據(jù)的作用末捣。
(三)常規(guī)渠道數(shù)據(jù)
第三步,找到常規(guī)渠道的數(shù)據(jù)创橄。
1)政府數(shù)據(jù)開發(fā)存在內(nèi)驅(qū)動力
政府通常掌握著最大量的箩做、關(guān)鍵性的數(shù)據(jù)和公共信息資源,如果加大開發(fā)力度妥畏,將會極大的推動政府辦事效率的提升和國家信息服務(wù)業(yè)的發(fā)展邦邦。
(四)社會化媒體數(shù)據(jù)
1、社會化媒體數(shù)據(jù)指人們在社會化媒體中產(chǎn)生或分享的各類信息醉蚁,包括評論燃辖、視頻、照片馍管、地理位置郭赐、個人資料、社交關(guān)系等捌锭。
3豁状、采集工具
第三節(jié) 大數(shù)據(jù)架構(gòu)
一個企業(yè)要大力發(fā)展大數(shù)據(jù)應(yīng)用首先需要解決兩個問題:Hadoop兩大核心技術(shù)是分布式存儲和分布式處理。
Hadoop的入門認識
https://blog.csdn.net/gwd1154978352/article/details/81095592
(零)Hadoop生態(tài)圈組件的介紹
主要模塊
(一)HDFS系統(tǒng)
該系統(tǒng)就是為了解決分布式存儲。
1、概念
首先馆揉,HDFS系統(tǒng)是一個文件系統(tǒng),用于存儲文件噩茄,通過統(tǒng)一的命名空間——目錄樹來定位文件;
其次,HDFS系統(tǒng)是分布式的,由很多服務(wù)器聯(lián)合起來實現(xiàn)其功能获黔,集群中的服務(wù)器有各自的角色腋舌;
最后耻陕,HDFS系統(tǒng)在大數(shù)據(jù)中的應(yīng)用是為各類分布式運算框架提供數(shù)據(jù)存儲服務(wù),將大文件、大批量文件篮灼,分布式存放在大量服務(wù)器上送朱,以便于采取分而治之的方式對海量數(shù)據(jù)進行運算分析炮沐。
2、特性
(1)有高容錯性的特點;
(2)整個系統(tǒng)部署在低廉的硬件上;
(3)提供高傳輸率來訪問應(yīng)用程序的數(shù)據(jù)失都;
(4)適合超大數(shù)據(jù)集的應(yīng)用程序洽损;
(5)流式數(shù)據(jù)訪問流码。
3、結(jié)構(gòu)
(1)HDFS中有三個重要的角色
- NameNode(命名結(jié)點)
相當于數(shù)據(jù)目錄外构,負責管理文件系統(tǒng)名稱空間和控制外部客戶機的訪問歧匈。NameNode決定是否將文件映射到DataNode上的復制塊上伤溉。 - DataNode(數(shù)據(jù)結(jié)點)
數(shù)據(jù)存儲在DataNode結(jié)點上。
響應(yīng)來自HDFS客戶機的讀寫請求,它們還響應(yīng)來自NameNode的創(chuàng)建、刪除和復制塊的命令。 - Client
用于實現(xiàn)客戶端文件存儲的所有操作,包含文件的增刪以及查詢等。
4、HDFS文件的寫入與讀取
(1)寫入流程
- 1)客戶端通過Distributed FileSystem上的create()方法指明一個欲創(chuàng)建的文件的文件名,然后client通過RPC方式與NameNode通訊創(chuàng)建一個新文件映射關(guān)系辩稽;
- 2)客戶端寫數(shù)據(jù): FSData OutputStream把寫入的數(shù)據(jù)分成包(packet), 放入一個中間隊列—數(shù)據(jù)隊列(data queue)中去。OutputStream從數(shù)據(jù)隊列中取數(shù)據(jù)并级,同時向Namenode申請一個新的block來存放它已經(jīng)取得的數(shù)據(jù)。NameNode選擇一系列合適的DataNode望抽,構(gòu)成一個管道線毁腿,然后OutputStream把數(shù)據(jù)寫入到管道線中的第一個DataNode鸠窗,再轉(zhuǎn)到第二個DataNode……
- 3)確認隊列中的包再得到管道線中所有DataNode的確認后移除確認隊列裕循;
- 4)所有文件寫入完成后,關(guān)閉文件寫入流抢埋。
- 1)打開文件流(open)
- 2)從NameNode讀取文件塊位置列表饥努;
- 3)FSData InputStream打開read() 方法驾诈;
- 4)根據(jù)文件塊與DataNode映射關(guān)系士败,從不同DataNode并發(fā)讀取文件塊;
- 5)從不同DataNode并發(fā)讀取文件塊逊躁;
- 6)文件讀取完畢猛们,關(guān)閉input流。
(二)MapReduce
MapReduce分為Map和Reduce态鳖。
(三)HBase
第四節(jié) 數(shù)據(jù)挖掘方法
(一)分類分析
1晕换、決策樹
決策樹鏈接
http://www.reibang.com/p/7e504801d42c
- 決策樹概念
決策樹是用于分類和預測的主要技術(shù)之一,是以實例為基礎(chǔ)的歸納學習算法腕唧,著眼于從一組無次序、無規(guī)則的實例中推理出以決策樹表示的分類規(guī)則。
目的是找出屬性和類別間的關(guān)系,用它來預測將來未知類別的記錄的類別。
表現(xiàn)形式類似于流程圖的樹結(jié)構(gòu)。
采用自頂向下的遞歸方式,其中內(nèi)部節(jié)點是屬性或者屬性組合误证,而葉節(jié)點代表樣本所屬的類或類分布。在決策樹的內(nèi)部節(jié)點進行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點向下的分支,在決策樹的葉節(jié)點得到結(jié)論。
-
根節(jié)點、父節(jié)點、子節(jié)點和葉子節(jié)點:
子節(jié)點由父節(jié)點根據(jù)某一規(guī)則分裂而來,然后子節(jié)點作為新的父親節(jié)點繼續(xù)分裂桐智,直至不能分裂為止末早。
根節(jié)點是沒有父節(jié)點的節(jié)點,即初始分裂節(jié)點说庭。
葉子節(jié)點是沒有子節(jié)點的節(jié)點然磷。
決策樹如何構(gòu)建:
步驟1:將所有的數(shù)據(jù)看成是一個節(jié)點口渔,進入步驟2样屠;
步驟2:從所有的數(shù)據(jù)特征中挑選一個數(shù)據(jù)特征對節(jié)點進行分割,進入步驟3缺脉;
步驟3:生成若干孩子節(jié)點痪欲,對每一個孩子節(jié)點進行判斷,如果滿足停止分裂的條件攻礼,進入步驟4业踢;否則,進入步驟2礁扮;
步驟4:設(shè)置該節(jié)點是子節(jié)點知举,其輸出的結(jié)果為該節(jié)點數(shù)量占比最大的類別瞬沦。
(1)數(shù)據(jù)如何分割
離散型:按照屬性值進行分裂,每個屬性值對應(yīng)一個分裂節(jié)點雇锡。
連續(xù)型:一般性的做法是對數(shù)據(jù)按照該屬性進行排序逛钻,再將數(shù)據(jù)分成若干區(qū)間(如[0,10]、[10,20]锰提、[20,30]……)曙痘,一個區(qū)間對應(yīng)一個節(jié)點,若數(shù)據(jù)的屬性值落入某一區(qū)間則該數(shù)據(jù)就屬于其對應(yīng)的節(jié)點立肘。
(2)如何選擇分裂的屬性
決策樹采用貪婪思想進行分裂边坤,即選擇可以得到最優(yōu)分裂結(jié)果的屬性進行分裂。
大多數(shù)情況下分裂很難一步到位谅年,我們希望每一次分裂之后子節(jié)點的數(shù)據(jù)盡量“純”茧痒。
選擇分裂屬性是要找出能夠使所有子節(jié)點數(shù)據(jù)最純的屬性,決策樹使用信息增益或者信息增益率作為選擇屬性的依據(jù)融蹂。
① 信息增益
節(jié)點的復雜度可以用以下兩種不同的計算方式:
a)熵
b)基尼值
② 信息增益率
(3)什么時候停止分裂
決策樹節(jié)點停止分裂的一般性條件:
① 最小節(jié)點數(shù)
② 熵或者基尼值小于閥值
③ 決策樹的深度達到指定的條件
④ 所有特征已經(jīng)使用完畢旺订,不能繼續(xù)進行分裂
2、貝葉斯分類
貝葉斯神經(jīng)網(wǎng)絡(luò)
http://www.reibang.com/p/58a7b6bc25f7
貝葉斯(Bayes)分類算法是利用貝葉斯定理超燃,來預測類成員的概率耸峭。
主要利用貝葉斯定理來預測一個未知類別的樣本屬于各個類別的可能性,選擇其中可能性最大的一個類別作為該樣本的最終類別淋纲。
- 樸素貝葉斯分類算法
樸素貝葉斯分類,假設(shè)每個屬性之間都是相互獨立的院究,并且每個屬性對分類問題產(chǎn)生的影響都是一樣的洽瞬,即一個屬性值對給定類的影響?yīng)毩⒂谄渌麑傩缘闹怠?/p>
-
舉例
3、k-近鄰分類法
k近鄰
http://www.reibang.com/p/5bb229d79ef9
是對存儲帶有標記的樣本集业汰,給一個沒有標記的樣本伙窃,用樣本集中k個與之相近的樣本對其進行即時分類。k-近鄰就是找出k個相似的樣本來建立目標函數(shù)逼近样漆。
-
基本思路
尋找距離最近的鄰居
k-近鄰分類中對新數(shù)據(jù)點進行分類的方法是計算它與其他所有數(shù)據(jù)點間的距離为障,并以距離最近的點所在的分類作為新數(shù)據(jù)點的類別。
- 數(shù)據(jù)分類
數(shù)據(jù)分類的方法很簡單鞋喇,將計算獲得的距離值進行排序。距離最近的數(shù)據(jù)點所在的類別就是新增數(shù)據(jù)的分類眉撵。
(二)回歸分析
1侦香、概念
是指對具有相關(guān)關(guān)系的兩個變量或多個變量建立合適的數(shù)學模型落塑,以近似地表示變量之間平均變化關(guān)系的一種統(tǒng)計方法」藓回歸分析與分類分析類似憾赁,但回歸分析的目的不是尋找描述類的模式,而是尋找變量間關(guān)系模式散吵。
-
例子
https://blog.csdn.net/qq_41720475/article/details/105256464
4错蝴、logit回歸
主要用途有:
1)尋找危險因素
2)預測
3)判別
邏輯回歸1
https://blog.csdn.net/weixin_39445556/article/details/83930186
邏輯回歸2
https://blog.csdn.net/liulina603/article/details/78676723
邏輯回歸3
https://www.jiqizhixin.com/articles/2019-01-22-8
回歸分析
http://www.reibang.com/p/b7f0727e32b4
(三)其他方法
1洲愤、聚類分析(掌握)
http://www.reibang.com/p/f5dafb4b18b9
1)概念:指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的分析過程。在分類的過程中顷锰,不必事先給出一個分類的標準柬赐,聚類分析能夠從樣本數(shù)據(jù)出發(fā),自動進行分類官紫。
2)特點:同一類中的對象有很大的相似性肛宋,而不同類間的對象有很大的相異性。
3)應(yīng)用4)聚類方法
- ① 快速聚類
要求事先確定分類束世,而且你還需要事先確定點酝陈,也就是聚類種子。然后毁涉,根據(jù)其他點離種子的遠近把所有點進行分類沉帮。再然后就是將這幾類的中心(均值)作為新的基石,再分類贫堰。如此迭代穆壕。
基本步驟
在鏈接里面有k近鄰聚類就是快速聚類
- ② 系統(tǒng)聚類(鏈接里面的層次聚類)
基本思想:先將每個樣品各看成一類,然后規(guī)定類與類之間的距離其屏,選擇距離最小的一對合并成新的一類喇勋,計算新類與其他類之間的距離,再將距離最近的兩類合并偎行,這樣每次減少一類川背,直至所有的樣品合為一類為止。
基本步驟
2蛤袒、關(guān)聯(lián)規(guī)則
關(guān)聯(lián)分析1
http://www.reibang.com/p/469dff109fae
關(guān)聯(lián)分析2
https://blog.csdn.net/sealyao/article/details/6460578
1)定義
根據(jù)一個事務(wù)中某些項的出現(xiàn)可導出另一些項在同一事務(wù)中也出現(xiàn)熄云,即隱藏在數(shù)據(jù)間的關(guān)聯(lián)或相互關(guān)系。
2)關(guān)聯(lián)規(guī)則的挖掘階段
第一階段:從海量原始數(shù)據(jù)中找出所有的高頻項目組;
第二階段:從這些高頻項目組產(chǎn)生關(guān)聯(lián)規(guī)則妙真。
關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應(yīng)用于金融行業(yè):市場營銷皱碘、營銷風險評估、詐騙預測等隐孽。
3)Apriori算法:使用候選項集找頻繁項集(掌握)
① 頻繁項集:所有支持度大于最小支持度的項集癌椿。
② 定理:
a. 如果一個項集是頻繁項集健蕊,則它的所有子集都是頻繁項集
b. 如果一個集合不是頻繁項集,則它的所有父集(超集)都不是頻繁項集
③ 目標
發(fā)現(xiàn)頻繁項集:發(fā)現(xiàn)滿足最小支持度的所有項集
發(fā)現(xiàn)關(guān)聯(lián)規(guī)則:從頻繁項集中提取所有高置信度的規(guī)則
Apriori算法屬于候選消除算法踢俄,是一個生成候選集缩功、消除不滿足條件的候選集、并不斷循環(huán)直到不再產(chǎn)生候選集的過程都办。
④ 例子
上圖圖演示了Apriori算法的過程嫡锌,最后生成三級頻繁項集后,沒有更高一級的候選項集琳钉,因此整個算法結(jié)束势木,{牛奶,面包,尿布}是最大頻繁子集。
https://blog.csdn.net/baimafujinji/article/details/53456931
4)基于劃分的算法
這個算法先把數(shù)據(jù)庫從邏輯上分成幾個互不相交的塊歌懒,每次單獨考慮一個分塊并對它生成所有的頻集啦桌,然后把產(chǎn)生的頻集合并,用來生成所有可能的頻集及皂,最后計算這些項集的支持度甫男。
5)FP-Tree算法
在FP-growth算法中,通過兩次掃描事務(wù)數(shù)據(jù)庫验烧,把每個事務(wù)所包含的頻繁項目按其支持度降序壓縮存儲到FP-tree中板驳。在以后發(fā)現(xiàn)頻繁模式的過程中,僅在FP-Tree中進行查找即可碍拆,并通過遞歸調(diào)用FP-growth的方法來直接產(chǎn)生頻繁模式若治。
可以在上面的鏈接中了解。
3感混、因子分析
用少數(shù)幾個因子去描述許多指標或因素之間的聯(lián)系直砂,即將相關(guān)比較密切的幾個變量歸在同一類中,每一類變量就成為一個因子浩习,以較少的幾個因子反映原資料的大部分信息。
4济丘、主成分分析
10.3主成分分析
http://www.reibang.com/p/5bb229d79ef9
Var(Fi)越大谱秽,表示Fi包含的信息越多。因此在所有的線性組合中選取的F1應(yīng)該是方差最大的摹迷,故稱F1為第一主成分疟赊。如果第一主成分不足以代表原來P個指標的信息,再考慮選取F2即選第二個線性組合峡碉,為了有效地反映原來信息近哟,F(xiàn)1已有的信息就不需要再出現(xiàn)在F2中,用數(shù)學語言表達就是要求Cov(F1, F2)=0鲫寄,則稱F2為第二主成分吉执,依此類推可以構(gòu)造出第三疯淫、第四,……戳玫,第P個主成分熙掺。
5、神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)網(wǎng)絡(luò)
http://www.reibang.com/p/704151935e26
6咕宿、Web數(shù)據(jù)挖掘
7币绩、序列分析
序列分析是對序列數(shù)據(jù)進行分析發(fā)現(xiàn)蘊藏其中的模式和規(guī)律。序列數(shù)據(jù)和時間序列數(shù)據(jù)都是連續(xù)的觀測值府阀,觀測值之間相互依賴缆镣。它們之間的差別在于序列數(shù)據(jù)包含離散的狀態(tài),而時間序列是連續(xù)的數(shù)值试浙。
8董瞻、偏差分析
數(shù)據(jù)庫中一般會存在著很多異常數(shù)據(jù),找出這些異常數(shù)據(jù)非常重要川队,偏差分析可以解決此類問題力细。偏差分析是用于檢測數(shù)據(jù)現(xiàn)狀、歷史記錄與標準之間的顯著變化和偏離固额。如觀測結(jié)果與期望的偏離眠蚂、分類中的反常實例、模式的例外等斗躏。偏差檢驗的基本方法就是尋找觀察結(jié)果與參照之間的差別逝慧。例如信用卡欺詐案行為檢測、網(wǎng)絡(luò)入侵檢測啄糙、劣質(zhì)產(chǎn)品分析等笛臣。
9、預測
大數(shù)據(jù)預測是指運用歷史數(shù)據(jù)和預測模型去預測未來某件事情的概率隧饼。精度和不確定性是預測的關(guān)注點沈堡,通常用預測方差進行衡量。預測技術(shù)是以表示一系列時間值的數(shù)列作為輸入燕雁,接下來運用計算機學習和統(tǒng)計技術(shù)對數(shù)據(jù)進行周期性分析诞丽、趨勢分析和噪聲分析,進而估算這些序列未來的值拐格。例如僧免,可以通過挖掘企業(yè)的歷史銷售數(shù)據(jù)預測該企業(yè)未來一年的銷售額。