文章來(lái)源:Python數(shù)據(jù)分析
目錄:
1.DIKW 體系
DIKW體系是關(guān)于數(shù)據(jù)号枕、信息缰揪、知識(shí)及智慧的體系,可以追溯至托馬斯·斯特爾那斯·艾略特所寫的詩(shī)--《巖石》葱淳。在首段钝腺,他寫道:“我們?cè)谀睦飦G失了知識(shí)中的智慧?又在哪里丟失了信息中的知識(shí)赞厕?”(Where is the wisdom we have lost in knowledge艳狐? / Where is the knowledge we have lost in information?)皿桑。
1982年12月僵驰,美國(guó)教育家哈藍(lán)·克利夫蘭引用艾略特的這些詩(shī)句在其出版的《未來(lái)主義者》一書(shū)提出了“信息即資源”(Information as a Resource)的主張。
其后唁毒,教育家米蘭·瑟蘭尼蒜茴、管理思想家羅素·艾可夫進(jìn)一步對(duì)此理論發(fā)揚(yáng)光大,前者在1987年撰寫了《管理支援系統(tǒng):邁向整合知識(shí)管理》(Management Support Systems: Towards Integrated Knowledge Management )浆西,后者在1989年撰寫了《從數(shù)據(jù)到智慧》(“From Data to Wisdom”粉私,Human Systems Management)。
2.數(shù)據(jù)工程領(lǐng)域中的DIKW體系
D:Data (數(shù)據(jù))近零,是 DIKW 體系中最低級(jí)的材料诺核,一般指原始數(shù)據(jù)抄肖,包含(或不包含)有用的信息。
I:Information (信息)窖杀,作為一個(gè)概念漓摩,信息有著多種多樣的含義。在數(shù)據(jù)工程里入客,表示由數(shù)據(jù)工程師(使用相關(guān)工具)或者 數(shù)據(jù)科學(xué)家(使用數(shù)學(xué)方法)管毙,按照某種特定規(guī)則,對(duì)原始數(shù)據(jù)進(jìn)行整合提取后桌硫,找出來(lái)的更高層數(shù)據(jù)(具體數(shù)據(jù))夭咬。
K:Knowledge (知識(shí)),是對(duì)某個(gè)主題的確定認(rèn)識(shí)铆隘,并且這些認(rèn)識(shí)擁有潛在的能力為特定目的而使用卓舵。在數(shù)據(jù)工程里,表示對(duì)信息進(jìn)行針對(duì)性的實(shí)用化膀钠,讓提取的信息可以用于商業(yè)應(yīng)用或?qū)W術(shù)研究掏湾。
W:Wisdom (智慧),表示對(duì)知識(shí)進(jìn)行獨(dú)立的思考分析肿嘲,得出的某些結(jié)論融击。在數(shù)據(jù)工程里,工程師和科學(xué)家做了大量的工作用計(jì)算機(jī)程序盡可能多地提取了價(jià)值(I/K)睦刃,然而真正要從數(shù)據(jù)中洞察出更高的價(jià)值砚嘴,甚至能夠?qū)ξ磥?lái)的情況進(jìn)行預(yù)測(cè),則需要數(shù)據(jù)分析師涩拙。
3.數(shù)據(jù)工程 領(lǐng)域職業(yè)劃分
數(shù)據(jù)工程是一整套對(duì)數(shù)據(jù)(D)進(jìn)行采集际长、處理、提取價(jià)值(變?yōu)?I 或 K)的過(guò)程兴泥。
首先介紹一下相關(guān)的幾種角色: Data Engineer(數(shù)據(jù)工程師), Data Scientist(數(shù)據(jù)科學(xué)家), Data Analyst(數(shù)據(jù)分析師)工育。 這三個(gè)角色任務(wù)重疊性高,要求合作密切搓彻,但各負(fù)責(zé)的領(lǐng)域稍有不同如绸。大部分公司里的這些角色都會(huì)根據(jù)每個(gè)人本身的技能長(zhǎng)短而身兼數(shù)職, 所以有時(shí)候比較難以區(qū)分:
-
Data Engineer 數(shù)據(jù)工程師: 分析數(shù)據(jù)少不了需要運(yùn)用計(jì)算機(jī)和各種工具自動(dòng)化數(shù)據(jù)處理的過(guò)程旭贬, 包括數(shù)據(jù)格式轉(zhuǎn)換怔接, 儲(chǔ)存, 更新稀轨, 查詢扼脐。 數(shù)據(jù)工程師的工作就是開(kāi)發(fā)工具完成自動(dòng)化的過(guò)程, 屬于 基礎(chǔ)設(shè)施/工具(Infrastructure/Tools)層奋刽。
但是這個(gè)角色出現(xiàn)的頻率不多 瓦侮,因?yàn)橛鞋F(xiàn)成的MySQL, Oracle等數(shù)據(jù)庫(kù)技術(shù)艰赞, 很多大公司只需要DBA就足夠了。而 Hadoop, MongoDB 等 NoSQL 技術(shù)的開(kāi)源肚吏, 更是使在大數(shù)據(jù)的場(chǎng)景下都沒(méi)有太多 數(shù)據(jù)工程師 的事方妖,一般都是交給 數(shù)據(jù)科學(xué)家 。
-
Data Scientist 數(shù)據(jù)科學(xué)家: 數(shù)據(jù)科學(xué)家是與數(shù)學(xué)相結(jié)合的中間角色罚攀, 需要用數(shù)學(xué)方法處理原始數(shù)據(jù)找出肉眼看不到的更高層數(shù)據(jù)党觅, 一般是運(yùn)用 統(tǒng)計(jì)機(jī)器學(xué)習(xí)(Statistical Machine Learning)或者 深度學(xué)習(xí)(Deep Learning)。
有人稱 Data Scientist 為 編程統(tǒng)計(jì)學(xué)家(Programming Statistician)坞生,因?yàn)樗麄冃枰泻芎玫慕y(tǒng)計(jì)學(xué)基礎(chǔ)仔役,但也需要參與程序的開(kāi)發(fā)(基于 Infrastructure 之上)掷伙,而現(xiàn)在很多很多的數(shù)據(jù)科學(xué)家 職位都要求身兼數(shù)據(jù)工程師是己。
數(shù)據(jù)科學(xué)家
是把 D 轉(zhuǎn)為 I 或 K 的主力軍。 -
Data Analyst 數(shù)據(jù)分析師: 數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家做了大量的工作任柜,用計(jì)算機(jī)程序盡可能多地提取了價(jià)值(I/K)卒废,然而真正要從數(shù)據(jù)中洞察出更高的價(jià)值, 則需要依靠豐富的行業(yè)經(jīng)驗(yàn)和洞察力宙地, 這些都需要人力的干預(yù)摔认。
Data Analyst 需要的是對(duì)所在業(yè)務(wù)有深刻了解, 能熟練運(yùn)用手上的工具(無(wú)論是 Excel宅粥, SPSS也好参袱, Python/R也好,工程師給你開(kāi)發(fā)的工具也好秽梅,必要時(shí)還要能自己充當(dāng)工程師和科學(xué)家抹蚀,力盡所能得到自己需要的工具),有針對(duì)性地對(duì)數(shù)據(jù)作分析企垦,并且需要把發(fā)現(xiàn)的成果向其他職能部門呈現(xiàn)出來(lái)环壤,最終變?yōu)樾袆?dòng),這就是把數(shù)據(jù)最終得出 Wisdom钞诡。
4.數(shù)據(jù)分析
百度百科:
數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析郑现,提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程荧降。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程接箫。在實(shí)用中,數(shù)據(jù)分析可幫助人們作出判斷朵诫,以便采取適當(dāng)行動(dòng)辛友。
數(shù)據(jù)分析的過(guò)程:
1. 數(shù)據(jù)收集:本地?cái)?shù)據(jù)或者網(wǎng)絡(luò)數(shù)據(jù)的采集與操作.
2. 數(shù)據(jù)處理:數(shù)據(jù)的規(guī)整,按照某種格式進(jìn)行整合存儲(chǔ)拗窃。
3. 數(shù)據(jù)分析:數(shù)據(jù)的科學(xué)計(jì)算瞎领,使用相關(guān)數(shù)據(jù)工具進(jìn)行分析泌辫。
4. 數(shù)據(jù)展現(xiàn):數(shù)據(jù)可視化,使用相關(guān)工具對(duì)分析出的數(shù)據(jù)進(jìn)行展示九默。
數(shù)據(jù)分析的工具:
SAS:
SAS(STATISTICAL ANALYSIS SYSTEM震放,簡(jiǎn)稱SAS)公司開(kāi)發(fā)的統(tǒng)計(jì)分析軟件,是一個(gè)功能強(qiáng)大的數(shù)據(jù)庫(kù)整合平臺(tái)驼修。價(jià)格昂貴殿遂,銀行或者大企業(yè)才買的起,做離線的分析或者模型用乙各。SPSS:
SPSS(Statistical Product and Service Solutions墨礁,統(tǒng)計(jì)產(chǎn)品與服務(wù)解決方案)是IBM公司推出的一系列用于統(tǒng)計(jì)學(xué)分析運(yùn)算、數(shù)據(jù)挖掘耳峦、預(yù)測(cè)分析和決策支持任務(wù)的產(chǎn)品恩静,迄今已有40余年的成長(zhǎng)歷史,價(jià)格昂貴蹲坷。R/MATLAB:
適合做學(xué)術(shù)性質(zhì)的數(shù)據(jù)分析驶乾,在實(shí)際應(yīng)用上需要額外轉(zhuǎn)換為Python或Scala來(lái)實(shí)現(xiàn),而且MATLAB(MathWorks公司出品的商業(yè)數(shù)學(xué)軟件)是收費(fèi)的循签。Scala:
是一門函數(shù)式編程語(yǔ)言级乐,熟練使用后開(kāi)發(fā)效率較高,配合Spark適合大規(guī)模的數(shù)據(jù)分析和處理县匠,Scala的運(yùn)行環(huán)境是JVM风科。Python:
Python在數(shù)據(jù)工程領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域有很多成熟的框架和算法庫(kù),完全可以只用Python就可以構(gòu)建以數(shù)據(jù)為中心的應(yīng)用程序乞旦。在數(shù)據(jù)工程領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域贼穆,Python非常非常流行。
5.數(shù)據(jù)建母瞬椋基礎(chǔ)
大數(shù)據(jù)分析場(chǎng)景和模型應(yīng)用
數(shù)據(jù)分析建模需要先明確業(yè)務(wù)需求扮惦,然后選擇是 描述型分析 還是 預(yù)測(cè)型分析。
如果分析的目的是描述目標(biāo)行為模式亲桦,就采用描述型數(shù)據(jù)分析崖蜜,描述型>分析就考慮 關(guān)聯(lián)規(guī)則、 序列規(guī)則 客峭、 聚類 等模型豫领。
如果是預(yù)測(cè)型數(shù)據(jù)分析,就是量化未來(lái)一段時(shí)間內(nèi)舔琅,某個(gè)事件的發(fā)生概>率等恐。有兩大預(yù)測(cè)分析模型, 分類預(yù)測(cè) 和 回歸預(yù)測(cè)。
常見(jiàn)的數(shù)據(jù)建模分類
分類與回歸
分類:是通過(guò)已有的訓(xùn)練樣本去訓(xùn)練得到一個(gè)最優(yōu)模型课蔬,再利用這個(gè)模型將輸入映射為相應(yīng)的輸出囱稽,對(duì)輸出進(jìn)行簡(jiǎn)單的判斷從而實(shí)現(xiàn)分類的目的,也就具有了對(duì)未知數(shù)據(jù)進(jìn)行分類的能力二跋。
回歸:是基于觀測(cè)數(shù)據(jù)建立變量間適當(dāng)?shù)囊蕾囮P(guān)系战惊,以分析數(shù)據(jù)內(nèi)在的規(guī)律,得到響應(yīng)的判斷扎即。并可用于預(yù)報(bào)吞获、控制等問(wèn)題。
應(yīng)用:
信用卡申請(qǐng)人風(fēng)險(xiǎn)評(píng)估谚鄙、預(yù)測(cè)公司業(yè)務(wù)增長(zhǎng)量各拷、預(yù)測(cè)房?jī)r(jià),未來(lái)的天氣情況等
原理:
回歸:用屬性的 歷史數(shù)據(jù) 預(yù)測(cè)未來(lái)趨勢(shì)闷营。算法首先假設(shè)一些已知類型的函數(shù)可以匹配目標(biāo)數(shù)據(jù)烤黍,然后分析匹配后的誤差,確定一個(gè)與目標(biāo)數(shù)據(jù)匹配程度最好的函數(shù)粮坞∥萌伲回歸是對(duì)真實(shí)值的一種 逼近預(yù)測(cè)初狰。
分類:將數(shù)據(jù)映射到 預(yù)先定義的 群組或類莫杈。算法要求基于數(shù)據(jù) 特征值 來(lái)定義類別,把具有某些特征的數(shù)據(jù)項(xiàng)映射到給定的某個(gè)類別上奢入。分類并沒(méi)有逼近的概念筝闹,最終正確結(jié)果只有一個(gè)。 在機(jī)器學(xué)習(xí)方法里腥光,分類屬于監(jiān)督學(xué)習(xí)关顷。
區(qū)別:
分類模型采用 離散預(yù)測(cè)值,回歸模型采用 連續(xù)的預(yù)測(cè)值武福。
聚類
聚類:就是將相似的事物聚集在一起议双,不相似的事物劃分到不同的類別的過(guò)程。
聚類分析:又稱群分析捉片,它是研究(樣品或指標(biāo))分類問(wèn)題的一種統(tǒng)計(jì)分析方法平痰,同時(shí)也是數(shù)據(jù)挖掘的一個(gè)重要算法。
應(yīng)用:
根據(jù)癥狀歸納特定疾病伍纫、發(fā)現(xiàn)信用卡高級(jí)用戶宗雇、根據(jù)上網(wǎng)行為對(duì)客戶分群從而進(jìn)行精確營(yíng)銷等。
原理:
在沒(méi)有給定劃分類的情況下莹规,根據(jù)信息相似度進(jìn)行信息聚類赔蒲。
聚類的輸入是一組 未被標(biāo)記的數(shù)據(jù),根據(jù)樣本特征的距離或相似度進(jìn)行劃分。劃分原則是保持最大的組內(nèi)相似性和最小的組間相似性舞虱。
不同于分類欢际,聚類事先 沒(méi)有任何訓(xùn)練樣本,直接對(duì)數(shù)據(jù)進(jìn)行建模矾兜。聚類分析的目標(biāo)幼苛,就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。 在機(jī)器學(xué)習(xí)方法里焕刮,聚類屬于無(wú)監(jiān)督學(xué)習(xí)舶沿。
時(shí)序模型
不管在哪個(gè)領(lǐng)域中(如金融學(xué)、經(jīng)濟(jì)學(xué)配并、生態(tài)學(xué)括荡、神經(jīng)科學(xué)、物理學(xué)等)溉旋,時(shí)間序列(time series)數(shù)據(jù)都是一種重要的結(jié)構(gòu)化數(shù)據(jù)形式畸冲。在多個(gè)時(shí)間點(diǎn)觀察或測(cè)量到的任何事物,都可以形成一段時(shí)間序列观腊。時(shí)間序列大多都是固定頻率的邑闲,數(shù)據(jù)點(diǎn)將根據(jù)某種規(guī)律定期出現(xiàn)。
應(yīng)用:
下個(gè)季度的商品銷量或庫(kù)存量是多少梧油?明天用電量是多少苫耸?今天的北京地鐵13號(hào)線的人流情況?
原理:
描述 基于時(shí)間或其他序列的 經(jīng)常發(fā)生的規(guī)律或趨勢(shì)儡陨,并對(duì)其建模褪子。 與回歸一樣,用已知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值骗村,但這些數(shù)據(jù)的區(qū)別是 變量所處時(shí)間的不同嫌褪。重點(diǎn)考察數(shù)據(jù)之間在 時(shí)間維度上的關(guān)聯(lián)性。
常見(jiàn)的數(shù)據(jù)分析應(yīng)用場(chǎng)景如下
市場(chǎng)營(yíng)銷
- 營(yíng)銷響應(yīng)分析建模(邏輯回歸胚股,決策樹(shù))
- 凈提升度分析建模(關(guān)聯(lián)規(guī)則)
- 客戶保有分析建模(卡普蘭梅爾分析笼痛,神經(jīng)網(wǎng)絡(luò))
- 購(gòu)物藍(lán)分析(關(guān)聯(lián)分析Apriori)
- 自動(dòng)推薦系統(tǒng)(協(xié)同過(guò)濾推薦,基于內(nèi)容推薦琅拌,基于人口統(tǒng)計(jì)推薦缨伊,基于知識(shí)推薦,組合推薦财忽,關(guān)聯(lián)規(guī)則)
- 客戶細(xì)分(聚類)
- 流失預(yù)測(cè)(邏輯回歸)
風(fēng)險(xiǎn)管理
- 客戶信用風(fēng)險(xiǎn)評(píng)分(SVM倘核,決策樹(shù),神經(jīng)網(wǎng)絡(luò))
- 市場(chǎng)風(fēng)險(xiǎn)評(píng)分建模(邏輯回歸和決策樹(shù))
- 運(yùn)營(yíng)風(fēng)險(xiǎn)評(píng)分建模(SVM)
- 欺詐檢測(cè)(決策樹(shù)即彪,聚類紧唱,社交網(wǎng)絡(luò))