大數(shù)據(jù)架構(gòu)詳解:從數(shù)據(jù)獲取到深度學(xué)習(xí)(內(nèi)含福利)

機(jī)器學(xué)習(xí)(Machine Learning陵像,ML)是一門(mén)多領(lǐng)域交叉學(xué)科,涉及概率論你稚、統(tǒng)計(jì)學(xué)瓷耙、逼近論、凸分析刁赖、算法復(fù)雜度理論等多門(mén)學(xué)科搁痛。其專門(mén)研究計(jì)算機(jī)是怎樣模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能宇弛,重新組織已有的知識(shí)結(jié)構(gòu)鸡典,使之不斷改善自身的性能。此外枪芒,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)有很大的交集彻况。本文將從架構(gòu)和應(yīng)用角度去解讀這兩個(gè)領(lǐng)域。

機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的聯(lián)系與區(qū)別

數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的舅踪、新穎的纽甘、潛在有用的、最終可理解的模式的非平凡過(guò)程硫朦。數(shù)據(jù)挖掘中用到了大量的機(jī)器學(xué)習(xí)界提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫(kù)界提供的數(shù)據(jù)管理技術(shù)贷腕。從數(shù)據(jù)分析的角度來(lái)看,數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)有很多相似之處咬展,但不同之處也十分明顯泽裳,例如,數(shù)據(jù)挖掘并沒(méi)有機(jī)器學(xué)習(xí)探索人的學(xué)習(xí)機(jī)制這一科學(xué)發(fā)現(xiàn)任務(wù)破婆,數(shù)據(jù)挖掘中的數(shù)據(jù)分析是針對(duì)海量數(shù)據(jù)進(jìn)行的涮总,等等。從某種意義上說(shuō)祷舀,機(jī)器學(xué)習(xí)的科學(xué)成分更重一些瀑梗,而數(shù)據(jù)挖掘的技術(shù)成分更重一些烹笔。

學(xué)習(xí)能力是智能行為的一個(gè)非常重要的特征,不具有學(xué)習(xí)能力的系統(tǒng)很難稱之為一個(gè)真正的智能系統(tǒng)抛丽,而機(jī)器學(xué)習(xí)則希望(計(jì)算機(jī))系統(tǒng)能夠利用經(jīng)驗(yàn)來(lái)改善自身的性能谤职,因此該領(lǐng)域一直是人工智能的核心研究領(lǐng)域之一。在計(jì)算機(jī)系統(tǒng)中亿鲜,“經(jīng)驗(yàn)”通常是以數(shù)據(jù)的形式存在的允蜈,因此,機(jī)器學(xué)習(xí)不僅涉及對(duì)人的認(rèn)知學(xué)習(xí)過(guò)程的探索蒿柳,還涉及對(duì)數(shù)據(jù)的分析處理饶套。實(shí)際上,機(jī)器學(xué)習(xí)已經(jīng)成為計(jì)算機(jī)數(shù)據(jù)分析技術(shù)的創(chuàng)新源頭之一垒探。由于幾乎所有的學(xué)科都要面對(duì)數(shù)據(jù)分析任務(wù)妓蛮,因此機(jī)器學(xué)習(xí)已經(jīng)開(kāi)始影響到計(jì)算機(jī)科學(xué)的眾多領(lǐng)域,甚至影響到計(jì)算機(jī)科學(xué)之外的很多學(xué)科圾叼。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具蛤克。然而數(shù)據(jù)挖掘不僅僅要研究、拓展褐奥、應(yīng)用一些機(jī)器學(xué)習(xí)方法咖耘,還要通過(guò)許多非機(jī)器學(xué)習(xí)技術(shù)解決數(shù)據(jù)倉(cāng)儲(chǔ)、大規(guī)模數(shù)據(jù)撬码、數(shù)據(jù)噪聲等實(shí)踐問(wèn)題儿倒。機(jī)器學(xué)習(xí)的涉及面也很寬,常用在數(shù)據(jù)挖掘上的方法通常只是“從數(shù)據(jù)學(xué)習(xí)”呜笑。然而機(jī)器學(xué)習(xí)不僅僅可以用在數(shù)據(jù)挖掘上夫否,一些機(jī)器學(xué)習(xí)的子領(lǐng)域甚至與數(shù)據(jù)挖掘關(guān)系不大,如增強(qiáng)學(xué)習(xí)與自動(dòng)控制等叫胁。所以筆者認(rèn)為凰慈,數(shù)據(jù)挖掘是從目的而言的,機(jī)器學(xué)習(xí)是從方法而言的驼鹅,兩個(gè)領(lǐng)域有相當(dāng)大的交集微谓,但不能等同。

對(duì)大數(shù)據(jù)以及人工智能概念都是模糊不清的输钩,該按照什么線路去學(xué)習(xí)豺型,學(xué)完往哪方面發(fā)展,想深入了解买乃,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782姻氨,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,讓大家了解到目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 剪验。從java和linux入手肴焊,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關(guān)知識(shí)一一分享前联!

典型的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)過(guò)程

圖1是一個(gè)典型的推薦類(lèi)應(yīng)用,需要找到“符合條件的”潛在人員娶眷。要從用戶數(shù)據(jù)中得出這張列表似嗤,首先需要挖掘出客戶特征,然后選擇一個(gè)合適的模型來(lái)進(jìn)行預(yù)測(cè)届宠,最后從用戶數(shù)據(jù)中得出結(jié)果双谆。

圖1

把上述例子中的用戶列表獲取過(guò)程進(jìn)行細(xì)分,有如下幾個(gè)部分(見(jiàn)圖2)席揽。

圖2

業(yè)務(wù)理解:理解業(yè)務(wù)本身,其本質(zhì)是什么谓厘?是分類(lèi)問(wèn)題還是回歸問(wèn)題幌羞?數(shù)據(jù)怎么獲取竟稳?應(yīng)用哪些模型才能解決属桦?

數(shù)據(jù)理解:獲取數(shù)據(jù)之后,分析數(shù)據(jù)里面有什么內(nèi)容他爸、數(shù)據(jù)是否準(zhǔn)確聂宾,為下一步的預(yù)處理做準(zhǔn)備。

數(shù)據(jù)預(yù)處理:原始數(shù)據(jù)會(huì)有噪聲诊笤,格式化也不好系谐,所以為了保證預(yù)測(cè)的準(zhǔn)確性,需要進(jìn)行數(shù)據(jù)的預(yù)處理讨跟。

特征提燃退:特征提取是機(jī)器學(xué)習(xí)最重要、最耗時(shí)的一個(gè)階段晾匠。

模型構(gòu)建:使用適當(dāng)?shù)乃惴ú杼唬@取預(yù)期準(zhǔn)確的值。

模型評(píng)估:根據(jù)測(cè)試集來(lái)評(píng)估模型的準(zhǔn)確度凉馆。

模型應(yīng)用:將模型部署薪寓、應(yīng)用到實(shí)際生產(chǎn)環(huán)境中。

應(yīng)用效果評(píng)估:根據(jù)最終的業(yè)務(wù)澜共,評(píng)估最終的應(yīng)用效果向叉。

整個(gè)過(guò)程會(huì)不斷反復(fù),模型也會(huì)不斷調(diào)整咳胃,直至達(dá)到理想效果植康。

機(jī)器學(xué)習(xí)概覽

機(jī)器學(xué)習(xí)的算法有很多,這里從兩個(gè)方面進(jìn)行介紹:一個(gè)是學(xué)習(xí)方式展懈,另一個(gè)是算法類(lèi)似性销睁。

學(xué)習(xí)方式

根據(jù)數(shù)據(jù)類(lèi)型的不同供璧,對(duì)一個(gè)問(wèn)題的建模可以有不同的方式冻记。在機(jī)器學(xué)習(xí)或人工智能領(lǐng)域睡毒,人們首先會(huì)考慮算法的學(xué)習(xí)方式。在機(jī)器學(xué)習(xí)領(lǐng)域有如下幾種主要的學(xué)習(xí)方式冗栗。

監(jiān)督式學(xué)習(xí):在監(jiān)督式學(xué)習(xí)下演顾,輸入數(shù)據(jù)被稱為“訓(xùn)練數(shù)據(jù)”,每組訓(xùn)練數(shù)據(jù)都有一個(gè)明確的標(biāo)識(shí)或結(jié)果隅居,如對(duì)防垃圾郵件系統(tǒng)中的“垃圾郵件”钠至、“非垃圾郵件”,對(duì)手寫(xiě)數(shù)字識(shí)別中的“1”胎源、“2”棉钧、“3”、“4”等涕蚤。在建立預(yù)測(cè)模型的時(shí)候宪卿,監(jiān)督式學(xué)習(xí)建立一個(gè)學(xué)習(xí)過(guò)程,將預(yù)測(cè)結(jié)果與“訓(xùn)練數(shù)據(jù)”的實(shí)際結(jié)果進(jìn)行比較万栅,不斷地調(diào)整預(yù)測(cè)模型佑钾,直到模型的預(yù)測(cè)結(jié)果達(dá)到一個(gè)預(yù)期的準(zhǔn)確率。監(jiān)督式學(xué)習(xí)的常見(jiàn)應(yīng)用場(chǎng)景包括分類(lèi)問(wèn)題和回歸問(wèn)題烦粒。常見(jiàn)算法有邏輯回歸和反向傳遞神經(jīng)網(wǎng)絡(luò)休溶。

非監(jiān)督式學(xué)習(xí):在非監(jiān)督式學(xué)習(xí)下,數(shù)據(jù)并不被特別標(biāo)識(shí)扰她,學(xué)習(xí)模型是為了推斷出數(shù)據(jù)的一些內(nèi)在結(jié)構(gòu)邮偎。常見(jiàn)的應(yīng)用場(chǎng)景包括關(guān)聯(lián)規(guī)則的學(xué)習(xí)及聚類(lèi)等。常見(jiàn)算法包括Apriori算法和K-Means算法义黎。

半監(jiān)督式學(xué)習(xí):在半監(jiān)督式學(xué)習(xí)下禾进,輸入數(shù)據(jù)部分被標(biāo)識(shí),部分沒(méi)有被標(biāo)識(shí)廉涕。這種學(xué)習(xí)模型可以用來(lái)進(jìn)行預(yù)測(cè)泻云,但是模型首先需要學(xué)習(xí)數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便合理地組織數(shù)據(jù)進(jìn)行預(yù)測(cè)狐蜕。其應(yīng)用場(chǎng)景包括分類(lèi)和回歸宠纯。常見(jiàn)算法包括一些對(duì)常用監(jiān)督式學(xué)習(xí)算法的延伸。這些算法首先試圖對(duì)未標(biāo)識(shí)的數(shù)據(jù)進(jìn)行建模层释,然后在此基礎(chǔ)上對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行預(yù)測(cè)婆瓜,如圖論推理算法或拉普拉斯支持向量機(jī)等。

強(qiáng)化學(xué)習(xí):在強(qiáng)化學(xué)習(xí)下,輸入數(shù)據(jù)作為對(duì)模型的反饋廉白,不像監(jiān)督模型那樣个初,輸入數(shù)據(jù)僅僅作為一種檢查模型對(duì)錯(cuò)的方式。在強(qiáng)化學(xué)習(xí)下猴蹂,輸入數(shù)據(jù)直接反饋到模型院溺,模型必須對(duì)此立刻做出調(diào)整。常見(jiàn)的應(yīng)用場(chǎng)景包括動(dòng)態(tài)系統(tǒng)及機(jī)器人控制等磅轻。常見(jiàn)算法包括Q-Learning及時(shí)間差學(xué)習(xí)(Temporal Difference Learning)等珍逸。

在企業(yè)數(shù)據(jù)應(yīng)用的場(chǎng)景下,人們最常用的可能就是監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)聋溜。在圖像識(shí)別等領(lǐng)域谆膳,由于存在大量的非標(biāo)識(shí)數(shù)據(jù)和少量的可標(biāo)識(shí)數(shù)據(jù),目前半監(jiān)督式學(xué)習(xí)是一個(gè)很熱門(mén)的話題撮躁。而強(qiáng)化學(xué)習(xí)更多地應(yīng)用在機(jī)器人控制及其他需要進(jìn)行系統(tǒng)控制的領(lǐng)域摹量。

算法類(lèi)似性

根據(jù)算法的功能和形式的類(lèi)似性,可以對(duì)算法進(jìn)行分類(lèi)馒胆,如基于樹(shù)的算法、基于神經(jīng)網(wǎng)絡(luò)的算法等凝果。當(dāng)然祝迂,機(jī)器學(xué)習(xí)的范圍非常龐大,有些算法很難明確歸到某一類(lèi)器净。而對(duì)于有些分類(lèi)來(lái)說(shuō)型雳,同一分類(lèi)的算法可以針對(duì)不同類(lèi)型的問(wèn)題。這里山害,我們盡量把常用的算法按照最容易理解的方式進(jìn)行分類(lèi)纠俭。

回歸算法:回歸算法是試圖采用對(duì)誤差的衡量來(lái)探索變量之間的關(guān)系的一類(lèi)算法±嘶牛回歸算法是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的利器冤荆。常見(jiàn)的回歸算法包括最小二乘法、邏輯回歸权纤、逐步式回歸钓简、多元自適應(yīng)回歸樣條及本地散點(diǎn)平滑估計(jì)等。

基于實(shí)例的算法:基于實(shí)例的算法常常用來(lái)對(duì)決策問(wèn)題建立模型汹想,這樣的模型常常先選取一批樣本數(shù)據(jù)外邓,然后根據(jù)某些近似性把新數(shù)據(jù)與樣本數(shù)據(jù)進(jìn)行比較,從而找到最佳的匹配古掏。因此损话,基于實(shí)例的算法常常被稱為“贏家通吃學(xué)習(xí)”或者“基于記憶的學(xué)習(xí)”。常見(jiàn)的算法包括k-Nearest Neighbor(kNN)、學(xué)習(xí)矢量量化(Learning Vector Quantization丧枪,LVQ)及自組織映射算法(Self-Organizing Map光涂,SOM)等。

正則化算法:正則化算法是其他算法(通常是回歸算法)的延伸豪诲,根據(jù)算法的復(fù)雜度對(duì)算法進(jìn)行調(diào)整顶捷。正則化算法通常對(duì)簡(jiǎn)單模型予以獎(jiǎng)勵(lì),而對(duì)復(fù)雜算法予以懲罰屎篱。常見(jiàn)的算法包括Ridge Regression服赎、Least Absolute Shrinkage and Selection Operator(LASSO)及彈性網(wǎng)絡(luò)(Elastic Net)等。

決策樹(shù)算法:決策樹(shù)算法根據(jù)數(shù)據(jù)的屬性采用樹(shù)狀結(jié)構(gòu)建立決策模型交播,常用來(lái)解決分類(lèi)和回歸問(wèn)題重虑。常見(jiàn)算法包括分類(lèi)及回歸樹(shù)(Classification and Regression Tree,CART)秦士、ID3(Iterative Dichotomiser 3)缺厉、C4.5、Chi-squared Automatic Interaction Detection(CHAID)隧土、Decision Stump提针、隨機(jī)森林(Random Forest)、多元自適應(yīng)回歸樣條(MARS)及梯度推進(jìn)機(jī)(GBM)等曹傀。

貝葉斯算法:貝葉斯算法是基于貝葉斯定理的一類(lèi)算法辐脖,主要用來(lái)解決分類(lèi)和回歸問(wèn)題。常見(jiàn)的算法包括樸素貝葉斯算法皆愉、平均單依賴估計(jì)(Averaged One-Dependence Estimators嗜价,AODE)及Bayesian Belief Network(BBN)等。

基于核的算法:基于核的算法中最著名的莫過(guò)于支持向量機(jī)(SVM)幕庐【米叮基于核的算法是把輸入數(shù)據(jù)映射到一個(gè)高階的向量空間,在這些高階向量空間里异剥,有些分類(lèi)或者回歸問(wèn)題能夠更容易地解決瑟由。常見(jiàn)的基于核的算法包括支持向量機(jī)(Support Vector Machine,SVM)冤寿、徑向基函數(shù)(Radial Basis Function错妖,RBF)及線性判別分析(Linear Discriminate Analysis,LDA)等疚沐。

聚類(lèi)算法:聚類(lèi)算法通常按照中心點(diǎn)或者分層的方式對(duì)輸入數(shù)據(jù)進(jìn)行歸并暂氯。所有的聚類(lèi)算法都試圖找到數(shù)據(jù)的內(nèi)在結(jié)構(gòu),以便按照最大的共同點(diǎn)將數(shù)據(jù)進(jìn)行歸類(lèi)亮蛔。常見(jiàn)的聚類(lèi)算法包括K-Means算法及期望最大化算法(EM)等痴施。

關(guān)聯(lián)規(guī)則學(xué)習(xí):關(guān)聯(lián)規(guī)則學(xué)習(xí)通過(guò)尋找最能夠解釋數(shù)據(jù)變量之間關(guān)系的規(guī)則,來(lái)找出大量多元數(shù)據(jù)集中有用的關(guān)聯(lián)規(guī)則。常見(jiàn)的算法包括Apriori算法和Eclat算法等辣吃。

人工神經(jīng)網(wǎng)絡(luò)算法:人工神經(jīng)網(wǎng)絡(luò)算法模擬生物神經(jīng)網(wǎng)絡(luò)动遭,是一類(lèi)模式匹配算法,通常用于解決分類(lèi)和回歸問(wèn)題神得。人工神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個(gè)龐大的分支厘惦,有幾百種不同的算法(深度學(xué)習(xí)就是其中的一類(lèi)算法)。常見(jiàn)的人工神經(jīng)網(wǎng)絡(luò)算法包括感知器神經(jīng)網(wǎng)絡(luò)哩簿、反向傳遞宵蕉、Hopfield網(wǎng)絡(luò)、自組織映射及學(xué)習(xí)矢量量化等节榜。

深度學(xué)習(xí)算法:深度學(xué)習(xí)算法是對(duì)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展羡玛。在計(jì)算能力變得日益廉價(jià)的今天,深度學(xué)習(xí)算法試圖建立大得多也復(fù)雜得多的神經(jīng)網(wǎng)絡(luò)宗苍。很多深度學(xué)習(xí)算法是半監(jiān)督式學(xué)習(xí)算法稼稿,用來(lái)處理存在少量未標(biāo)識(shí)數(shù)據(jù)的大數(shù)據(jù)集。常見(jiàn)的深度學(xué)習(xí)算法包括受限波爾茲曼機(jī)(RBN)讳窟、Deep Belief Networks(DBN)让歼、卷積網(wǎng)絡(luò)(Convolutional Network)及堆棧式自動(dòng)編碼器 ?(Stacked Auto-encoders)等。

降低維度算法:與聚類(lèi)算法一樣丽啡,降低維度算法試圖分析數(shù)據(jù)的內(nèi)在結(jié)構(gòu)谋右,不過(guò)降低維度算法通過(guò)非監(jiān)督式學(xué)習(xí),試圖利用較少的信息來(lái)歸納或者解釋數(shù)據(jù)碌上。這類(lèi)算法可以用于高維數(shù)據(jù)的可視化,或者用來(lái)簡(jiǎn)化數(shù)據(jù)以便監(jiān)督式學(xué)習(xí)使用浦徊。常見(jiàn)的降低維度算法包括主成分分析(Principle Component Analysis馏予,PCA)、偏最小二乘回歸(Partial Least Square Regression盔性,PLSR)霞丧、Sammon映射、多維尺度(Multi-Dimensional Scaling冕香,MDS)及投影追蹤(Projection Pursuit)等蛹尝。

集成算法:集成算法用一些相對(duì)較弱的學(xué)習(xí)模型獨(dú)立地就同樣的樣本進(jìn)行訓(xùn)練,然后把結(jié)果整合起來(lái)進(jìn)行整體預(yù)測(cè)悉尾。集成算法的主要難點(diǎn)在于究竟集成哪些獨(dú)立的突那、較弱的學(xué)習(xí)模型,以及如何把學(xué)習(xí)結(jié)果整合起來(lái)构眯。這是一類(lèi)非常強(qiáng)大的算法愕难,同時(shí)也非常流行。常見(jiàn)的集成算法包括Boosting、Bootstrapped Aggregation(Bagging)猫缭、AdaBoost葱弟、堆疊泛化(Stacked Generalization,Blending)猜丹、梯度推進(jìn)機(jī)(Gradient Boosting Machine芝加,GBM)及隨機(jī)森林(Random Forest)等。

機(jī)器學(xué)習(xí)&數(shù)據(jù)挖掘應(yīng)用案例

前面了解了機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的基本概念射窒,下面來(lái)看一下業(yè)界成熟的案例藏杖,對(duì)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘有一個(gè)直觀的理解。

尿布和啤酒的故事

先來(lái)看一則有關(guān)數(shù)據(jù)挖掘的故事——“尿布與啤酒”轮洋。

總部位于美國(guó)阿肯色州的世界著名商業(yè)零售連鎖企業(yè)沃爾瑪擁有世界上最大的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)制市。為了能夠準(zhǔn)確了解顧客在其門(mén)店的購(gòu)買(mǎi)習(xí)慣,沃爾瑪對(duì)其顧客的購(gòu)物行為進(jìn)行購(gòu)物籃分析弊予,想知道顧客經(jīng)常一起購(gòu)買(mǎi)的商品有哪些祥楣。沃爾瑪數(shù)據(jù)倉(cāng)庫(kù)里集中了其各門(mén)店的詳細(xì)原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎(chǔ)上汉柒,沃爾瑪利用NCR數(shù)據(jù)挖掘工具對(duì)這些數(shù)據(jù)進(jìn)行分析和挖掘误褪。一個(gè)意外的發(fā)現(xiàn)是:跟尿布一起購(gòu)買(mǎi)最多的商品竟然是啤酒!這是數(shù)據(jù)挖掘技術(shù)對(duì)歷史數(shù)據(jù)進(jìn)行分析的結(jié)果碾褂,反映了數(shù)據(jù)的內(nèi)在規(guī)律兽间。那么,這個(gè)結(jié)果符合現(xiàn)實(shí)情況嗎正塌?是否有利用價(jià)值嘀略?

于是,沃爾瑪派出市場(chǎng)調(diào)查人員和分析師對(duì)這一數(shù)據(jù)挖掘結(jié)果進(jìn)行調(diào)查分析乓诽,從而揭示出隱藏在“尿布與啤酒”背后的美國(guó)人的一種行為模式:在美國(guó)帜羊,一些年輕的父親下班后經(jīng)常要到超市去買(mǎi)嬰兒尿布,而他們中有30%~40%的人同時(shí)也為自己買(mǎi)一些啤酒鸠天。產(chǎn)生這一現(xiàn)象的原因是:美國(guó)的太太們常叮囑她們的丈夫下班后為小孩買(mǎi)尿布讼育,而丈夫們?cè)谫I(mǎi)完尿布后又隨手帶回了他們喜歡的啤酒。

既然尿布與啤酒一起被購(gòu)買(mǎi)的機(jī)會(huì)很多稠集,于是沃爾瑪就在其各家門(mén)店將尿布與啤酒擺放在一起奶段,結(jié)果是尿布與啤酒的銷(xiāo)售量雙雙增長(zhǎng)。

決策樹(shù)用于電信領(lǐng)域故障快速定位

電信領(lǐng)域比較常見(jiàn)的應(yīng)用場(chǎng)景是決策樹(shù)剥纷,利用決策樹(shù)來(lái)進(jìn)行故障定位痹籍。比如,用戶投訴上網(wǎng)慢晦鞋,其中就有很多種原因词裤,有可能是網(wǎng)絡(luò)的問(wèn)題刺洒,也有可能是用戶手機(jī)的問(wèn)題,還有可能是用戶自身感受的問(wèn)題吼砂。怎樣快速分析和定位出問(wèn)題逆航,給用戶一個(gè)滿意的答復(fù)?這就需要用到?jīng)Q策樹(shù)渔肩。

圖3就是一個(gè)典型的用戶投訴上網(wǎng)慢的決策樹(shù)的樣例因俐。

圖3

圖像識(shí)別領(lǐng)域

小米面孔相冊(cè)

這項(xiàng)功能的名字叫“面孔相冊(cè)”,可以利用圖像分析技術(shù)周偎,自動(dòng)地對(duì)云相冊(cè)照片內(nèi)容按照面孔進(jìn)行分類(lèi)整理抹剩。開(kāi)啟“面孔相冊(cè)”功能后,可以自動(dòng)識(shí)別蓉坎、整理和分類(lèi)云相冊(cè)中的不同面孔澳眷。

“面孔相冊(cè)”還支持手動(dòng)調(diào)整分組、移出錯(cuò)誤面孔蛉艾、通過(guò)系統(tǒng)推薦確認(rèn)面孔等功能钳踊,從而彌補(bǔ)機(jī)器識(shí)別的不足。

這項(xiàng)功能的背后其實(shí)使用的是深度學(xué)習(xí)技術(shù)勿侯,自動(dòng)識(shí)別圖片中的人臉拓瞪,然后進(jìn)行自動(dòng)識(shí)別和分類(lèi)。

支付寶掃臉支付

馬云在2015 CeBIT展會(huì)開(kāi)幕式上首次展示了螞蟻金服的最新支付技術(shù)“Smile to Pay”(掃臉支付)助琐,驚艷全場(chǎng)祭埂。支付寶宣稱,F(xiàn)ace++ Financial人臉識(shí)別技術(shù)在LFW國(guó)際公開(kāi)測(cè)試集中達(dá)到99.5%的準(zhǔn)確率兵钮,同時(shí)還能運(yùn)用“交互式指令+連續(xù)性判定+3D判定”技術(shù)蛆橡。人臉識(shí)別技術(shù)基于神經(jīng)網(wǎng)絡(luò),讓計(jì)算機(jī)學(xué)習(xí)人的大腦掘譬,并通過(guò)“深度學(xué)習(xí)算法”大量訓(xùn)練泰演,讓它變得極為“聰明”,能夠“認(rèn)人”屁药。實(shí)現(xiàn)人臉識(shí)別不需要用戶自行提交照片粥血,有資質(zhì)的機(jī)構(gòu)在需要進(jìn)行人臉識(shí)別時(shí)柏锄,可以向全國(guó)公民身份證號(hào)碼查詢服務(wù)中心提出申請(qǐng)酿箭,將采集到的照片與該部門(mén)的權(quán)威照片庫(kù)進(jìn)行比對(duì)。

也就是說(shuō)趾娃,用戶在進(jìn)行人臉識(shí)別時(shí)缭嫡,只需打開(kāi)手機(jī)或電腦的攝像頭,對(duì)著自己的正臉進(jìn)行拍攝即可抬闷。在智能手機(jī)全面普及的今天妇蛀,這個(gè)參與門(mén)檻低到可以忽略不計(jì)耕突。

用戶容易擔(dān)心的隱私問(wèn)題在人臉識(shí)別領(lǐng)域也能有效避免,因?yàn)檎掌瑏?lái)源權(quán)威评架,同時(shí)眷茁,一種特有的“脫敏”技術(shù)可以將照片模糊處理成肉眼無(wú)法識(shí)別而只有計(jì)算機(jī)才能識(shí)別的圖像。

圖片內(nèi)容識(shí)別

前面兩個(gè)案例介紹的都是圖片識(shí)別纵诞,比圖片識(shí)別更難的是圖片語(yǔ)義的理解和提取上祈,百度和Google都在進(jìn)行這方面的研究。

百度的百度識(shí)圖能夠有效地處理特定物體的檢測(cè)識(shí)別(如人臉浙芙、文字或商品)登刺、通用圖像的分類(lèi)標(biāo)注,如圖4所示嗡呼。

圖4

來(lái)自Google研究院的科學(xué)家發(fā)表了一篇博文纸俭,展示了Google在圖形識(shí)別領(lǐng)域的最新研究進(jìn)展∧洗埃或許未來(lái)Google的圖形識(shí)別引擎不僅能夠識(shí)別出圖片中的對(duì)象揍很,還能夠?qū)φ麄€(gè)場(chǎng)景進(jìn)行簡(jiǎn)短而準(zhǔn)確的描述,如圖5所示矾瘾。這種突破性的概念來(lái)自機(jī)器語(yǔ)言翻譯方面的研究成果:通過(guò)一種遞歸神經(jīng)網(wǎng)絡(luò)(RNN)將一種語(yǔ)言的語(yǔ)句轉(zhuǎn)換成向量表達(dá)女轿,并采用第二種RNN將向量表達(dá)轉(zhuǎn)換成目標(biāo)語(yǔ)言的語(yǔ)句。

圖5

而Google將以上過(guò)程中的第一種RNN用深度卷積神經(jīng)網(wǎng)絡(luò)CNN替代壕翩,這種網(wǎng)絡(luò)可以用來(lái)識(shí)別圖像中的物體蛉迹。通過(guò)這種方法可以實(shí)現(xiàn)將圖像中的對(duì)象轉(zhuǎn)換成語(yǔ)句,對(duì)圖像場(chǎng)景進(jìn)行描述放妈。概念雖然簡(jiǎn)單北救,但實(shí)現(xiàn)起來(lái)十分復(fù)雜,科學(xué)家表示目前實(shí)驗(yàn)產(chǎn)生的語(yǔ)句合理性不錯(cuò)芜抒,但距離完美仍有差距珍策,這項(xiàng)研究目前僅處于早期階段。圖6展示了通過(guò)此方法識(shí)別圖像對(duì)象并產(chǎn)生描述的過(guò)程宅倒。

圖6

自然語(yǔ)言識(shí)別

自然語(yǔ)言識(shí)別一直是一個(gè)非常熱門(mén)的領(lǐng)域攘宙,最有名的是蘋(píng)果的Siri,支持資源輸入拐迁,調(diào)用手機(jī)自帶的天氣預(yù)報(bào)蹭劈、日常安排、搜索資料等應(yīng)用线召,還能夠不斷學(xué)習(xí)新的聲音和語(yǔ)調(diào)铺韧,提供對(duì)話式的應(yīng)答。微軟的Skype Translator可以實(shí)現(xiàn)中英文之間的實(shí)時(shí)語(yǔ)音翻譯功能缓淹,將使得英文和中文普通話之間的實(shí)時(shí)語(yǔ)音對(duì)話成為現(xiàn)實(shí)哈打。

Skype Translator的運(yùn)作機(jī)制如圖7所示塔逃。

圖7

在準(zhǔn)備好的數(shù)據(jù)被錄入機(jī)器學(xué)習(xí)系統(tǒng)后,機(jī)器學(xué)習(xí)軟件會(huì)在這些對(duì)話和環(huán)境涉及的單詞中搭建一個(gè)統(tǒng)計(jì)模型料仗。當(dāng)用戶說(shuō)話時(shí)湾盗,軟件會(huì)在該統(tǒng)計(jì)模型中尋找相似的內(nèi)容,然后應(yīng)用到預(yù)先“學(xué)到”的轉(zhuǎn)換程序中立轧,將音頻轉(zhuǎn)換為文本淹仑,再將文本轉(zhuǎn)換成另一種語(yǔ)言。

雖然語(yǔ)音識(shí)別一直是近幾十年來(lái)的重要研究課題肺孵,但是該技術(shù)的發(fā)展普遍受到錯(cuò)誤率高匀借、麥克風(fēng)敏感度差異、噪聲環(huán)境等因素的阻礙平窘。將深層神經(jīng)網(wǎng)絡(luò)(DNNs)技術(shù)引入語(yǔ)音識(shí)別吓肋,極大地降低了錯(cuò)誤率、提高了可靠性瑰艘,最終使這項(xiàng)語(yǔ)音翻譯技術(shù)得以廣泛應(yīng)用是鬼。

深度學(xué)習(xí)

Artificial Intelligence(人工智能)是人類(lèi)美好的愿望之一。雖然計(jì)算機(jī)技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步紫新,但截至目前均蜜,還沒(méi)有一臺(tái)計(jì)算機(jī)能夠產(chǎn)生“自我”的意識(shí)。的確芒率,在人類(lèi)和大量現(xiàn)有數(shù)據(jù)的幫助下囤耳,計(jì)算機(jī)可以表現(xiàn)得十分強(qiáng)大,但是離開(kāi)了這兩者偶芍,它甚至都不能分辨兩只小動(dòng)物充择。

深度學(xué)習(xí)算法自動(dòng)提取分類(lèi)所需的低層次或者高層次特征。高層次特征是指該特征可以分級(jí)(層次)地依賴其他特征匪蟀。例如椎麦,對(duì)于機(jī)器視覺(jué),深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到它的一個(gè)低層次表達(dá)材彪,如邊緣檢測(cè)器观挎、小波濾波器等,然后在這些低層次表達(dá)的基礎(chǔ)上再建立表達(dá)段化,如這些低層次表達(dá)的線性或者非線性組合嘁捷,然后重復(fù)這個(gè)過(guò)程,最后得到一個(gè)高層次的表達(dá)穗泵。

深度學(xué)習(xí)能夠得到更好地表示數(shù)據(jù)的特征普气,同時(shí)由于模型的層次谜疤、參數(shù)很多佃延,容量足夠现诀,因此,模型有能力表示大規(guī)模數(shù)據(jù)履肃。所以對(duì)于圖像仔沿、語(yǔ)音這種特征不明顯(需要手工設(shè)計(jì)且很多沒(méi)有直觀的物理含義)的問(wèn)題,能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果尺棋。此外封锉,從模式識(shí)別特征和分類(lèi)器的角度來(lái)看,深度學(xué)習(xí)框架將特征和分類(lèi)器結(jié)合到一個(gè)框架中膘螟,用數(shù)據(jù)去學(xué)習(xí)特征成福,在使用中減少了手工設(shè)計(jì)特征的巨大工作量,因此荆残,不僅效果更好奴艾,而且使用起來(lái)也有很多方便之處。

當(dāng)然内斯,深度學(xué)習(xí)本身并不是完美的蕴潦,也不是解決任何機(jī)器學(xué)習(xí)問(wèn)題的利器,不應(yīng)該被放大到一個(gè)無(wú)所不能的程度俘闯。

小結(jié)

本文主要介紹了機(jī)器學(xué)習(xí)潭苞、數(shù)據(jù)挖掘以及當(dāng)前最熱門(mén)的深度學(xué)習(xí)。深度學(xué)習(xí)可以說(shuō)掀起了人工智能的又一次熱潮真朗,但是大家要清楚地認(rèn)識(shí)到此疹,這離真正的AI(人工智能)還差得很遠(yuǎn)。但總的來(lái)說(shuō)遮婶,我們離電影中描述的未來(lái)世界更近了一步秀菱,不是嗎?

對(duì)大數(shù)據(jù)以及人工智能概念都是模糊不清的蹭睡,該按照什么線路去學(xué)習(xí)衍菱,學(xué)完往哪方面發(fā)展,想深入了解肩豁,想學(xué)習(xí)的同學(xué)歡迎加入大數(shù)據(jù)學(xué)習(xí)qq群:458345782脊串,有大量干貨(零基礎(chǔ)以及進(jìn)階的經(jīng)典實(shí)戰(zhàn))分享給大家,讓大家了解到目前國(guó)內(nèi)最完整的大數(shù)據(jù)高端實(shí)戰(zhàn)實(shí)用學(xué)習(xí)流程體系 清钥。從java和linux入手琼锋,其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相關(guān)知識(shí)一一分享!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末祟昭,一起剝皮案震驚了整個(gè)濱河市缕坎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌篡悟,老刑警劉巖谜叹,帶你破解...
    沈念sama閱讀 216,402評(píng)論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件匾寝,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡荷腊,警方通過(guò)查閱死者的電腦和手機(jī)艳悔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)女仰,“玉大人猜年,你說(shuō)我怎么就攤上這事〖踩蹋” “怎么了乔外?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,483評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)一罩。 經(jīng)常有香客問(wèn)我袁稽,道長(zhǎng),這世上最難降的妖魔是什么擒抛? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,165評(píng)論 1 292
  • 正文 為了忘掉前任推汽,我火速辦了婚禮,結(jié)果婚禮上歧沪,老公的妹妹穿的比我還像新娘歹撒。我一直安慰自己,他們只是感情好诊胞,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布怎爵。 她就那樣靜靜地躺著软瞎,像睡著了一般驯鳖。 火紅的嫁衣襯著肌膚如雪去枷。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,146評(píng)論 1 297
  • 那天邪码,我揣著相機(jī)與錄音裕菠,去河邊找鬼。 笑死闭专,一個(gè)胖子當(dāng)著我的面吹牛奴潘,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播影钉,決...
    沈念sama閱讀 40,032評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼画髓,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了平委?” 一聲冷哼從身側(cè)響起奈虾,我...
    開(kāi)封第一講書(shū)人閱讀 38,896評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后肉微,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體匾鸥,經(jīng)...
    沈念sama閱讀 45,311評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評(píng)論 2 332
  • 正文 我和宋清朗相戀三年浪册,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片岗照。...
    茶點(diǎn)故事閱讀 39,696評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡村象,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出攒至,到底是詐尸還是另有隱情厚者,我是刑警寧澤,帶...
    沈念sama閱讀 35,413評(píng)論 5 343
  • 正文 年R本政府宣布迫吐,位于F島的核電站库菲,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏志膀。R本人自食惡果不足惜熙宇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望溉浙。 院中可真熱鬧烫止,春花似錦、人聲如沸戳稽。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)惊奇。三九已至互躬,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間颂郎,已是汗流浹背吼渡。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,815評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乓序,地道東北人诞吱。 一個(gè)月前我還...
    沈念sama閱讀 47,698評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像竭缝,于是被迫代替她去往敵國(guó)和親房维。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容