轉(zhuǎn)載:http://www.cnblogs.com/hellochennan/p/5352129.html
1钠乏、現(xiàn)狀:
? ? ? ? 深度學(xué)習(xí)現(xiàn)在非常熱测暗,各種會(huì)議都要和這個(gè)沾點(diǎn)邊。百度大腦,谷歌大腦計(jì)劃搞的都是這個(gè)侨核。在一些領(lǐng)域取得了非常不錯(cuò)的效果圣絮,如圖片識(shí)別祈惶,語(yǔ)音識(shí)別,在安全領(lǐng)域甚至還有識(shí)別加密的協(xié)議等扮匠。如圖片捧请,語(yǔ)音領(lǐng)域?qū)嶒?yàn)室準(zhǔn)確率都超過了90%。
2棒搜、深度學(xué)習(xí)的本質(zhì)
? ? ? ? 一個(gè)典型的機(jī)器學(xué)習(xí)樣例如上疹蛉,從開始的通過傳感器(例如CMOS)來(lái)獲得數(shù)據(jù)。然后經(jīng)過預(yù)處理力麸、特征提取可款、特征選擇,再到推理克蚂、預(yù)測(cè)或者識(shí)別闺鲸。最后一個(gè)部分,也就是機(jī)器學(xué)習(xí)的部分埃叭,絕大部分的工作是在這方面做的摸恍,也存在很多的paper和研究。
? ? ? ? 而中間的三部分游盲,概括起來(lái)就是特征表達(dá)误墓。良好的特征表達(dá)蛮粮,對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用,而且系統(tǒng)主要的計(jì)算和測(cè)試工作都耗在這一大部分谜慌。但然想,這塊實(shí)際中一般都是人工完成的⌒婪叮靠人工提取特征变泄。
然而,手工地選取特征是一件非常費(fèi)力恼琼、啟發(fā)式(需要專業(yè)知識(shí))的方法妨蛹,能不能選取好很大程度上靠經(jīng)驗(yàn)和運(yùn)氣,而且它的調(diào)節(jié)需要大量的時(shí)間晴竞。既然手工選取特征不太好蛙卤,那么能不能自動(dòng)地學(xué)習(xí)一些特征呢?答案是能噩死!Deep Learning就是用來(lái)干這個(gè)事情的颤难,看它的一個(gè)別UnsupervisedFeature Learning,就可以顧名思義了已维,Unsupervised的意思就是不要人參與特征的選取過程行嗤。
? ? ? ? 深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù)垛耳,來(lái)學(xué)習(xí)更有用的特征栅屏,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。因此堂鲜,“深度模型”是手段栈雳,“特征學(xué)習(xí)”是目的。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí)泡嘴,深度學(xué)習(xí)的不同在于:1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度甫恩,通常有5層、6層酌予,甚至10多層的隱層節(jié)點(diǎn)磺箕;2)明確突出了特征學(xué)習(xí)的重要性,也就是說抛虫,通過逐層特征變換松靡,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更加容易建椰。與人工規(guī)則構(gòu)造特征的方法相比雕欺,利用大數(shù)據(jù)來(lái)學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。
3屠列、深度學(xué)習(xí)和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的關(guān)系
? ? ? ? Deep learning本身算是machine learning的一個(gè)分支啦逆,簡(jiǎn)單可以理解為neural network的發(fā)展。大約二三十年前笛洛,neural network曾經(jīng)是ML領(lǐng)域特別火熱的一個(gè)方向夏志,但是后來(lái)確慢慢淡出了,原因包括以下幾個(gè)方面:
? ? ? ? 1)比較容易過擬合苛让,參數(shù)比較難tune沟蔑,而且需要不少trick;
? ? ? ? 2)訓(xùn)練速度比較慢狱杰,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu)瘦材;
? ? ? ? 所以中間有大約20多年的時(shí)間,神經(jīng)網(wǎng)絡(luò)被關(guān)注很少仿畸,這段時(shí)間基本上是SVM和boosting算法的天下食棕。但是,一個(gè)癡心的老先生Hinton颁湖,他堅(jiān)持了下來(lái)宣蠕,并最終(和其它人一起B(yǎng)engio例隆、Yann.lecun等)提成了一個(gè)實(shí)際可行的deep learning框架甥捺。
? ? ? ? Deep learning與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)之間有相同的地方也有很多不同。
? ? ? ? 二者的相同在于deep learning采用了神經(jīng)網(wǎng)絡(luò)相似的分層結(jié)構(gòu)镀层,系統(tǒng)由包括輸入層镰禾、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò)唱逢,只有相鄰層節(jié)點(diǎn)之間有連接吴侦,同一層以及跨層節(jié)點(diǎn)之間相互無(wú)連接,每一層可以看作是一個(gè)logistic regression模型坞古;這種分層結(jié)構(gòu)备韧,是比較接近人類大腦的結(jié)構(gòu)的。
? 而為了克服神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的問題痪枫,DL采用了與神經(jīng)網(wǎng)絡(luò)很不同的訓(xùn)練機(jī)制织堂。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,采用的是back propagation的方式進(jìn)行奶陈,簡(jiǎn)單來(lái)講就是采用迭代的算法來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)易阳,隨機(jī)設(shè)定初值,計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出吃粒,然后根據(jù)當(dāng)前輸出和label之間的差去改變前面各層的參數(shù)潦俺,直到收斂(整體是一個(gè)梯度下降法)。而deep learning整體上是一個(gè)layer-wise的訓(xùn)練機(jī)制。這樣做的原因是因?yàn)槭率荆绻捎胋ack propagation的機(jī)制早像,對(duì)于一個(gè)deep network(7層以上),殘差傳播到最前面的層已經(jīng)變得太小肖爵,出現(xiàn)所謂的gradient diffusion(梯度擴(kuò)散)扎酷。
5、總結(jié)
? ? ? ? 深度學(xué)習(xí)是關(guān)于自動(dòng)學(xué)習(xí)要建模的數(shù)據(jù)的潛在(隱含)分布的多層(復(fù)雜)表達(dá)的算法遏匆。換句話來(lái)說法挨,深度學(xué)習(xí)算法自動(dòng)的提取分類需要的低層次或者高層次特征。高層次特征幅聘,一是指該特征可以分級(jí)(層次)地依賴其他特征凡纳,例如:對(duì)于機(jī)器視覺,深度學(xué)習(xí)算法從原始圖像去學(xué)習(xí)得到它的一個(gè)低層次表達(dá)帝蒿,例如邊緣檢測(cè)器荐糜,小波濾波器等,然后在這些低層次表達(dá)的基礎(chǔ)上再建立表達(dá)葛超,例如這些低層次表達(dá)的線性或者非線性組合暴氏,然后重復(fù)這個(gè)過程,最后得到一個(gè)高層次的表達(dá)绣张。
? ? ? ? Deep learning能夠得到更好地表示數(shù)據(jù)的feature答渔,同時(shí)由于模型的層次、參數(shù)很多侥涵,capacity足夠沼撕,因此,模型有能力表示大規(guī)模數(shù)據(jù)芜飘,所以對(duì)于圖像务豺、語(yǔ)音這種特征不明顯(需要手工設(shè)計(jì)且很多沒有直觀物理含義)的問題,能夠在大規(guī)模訓(xùn)練數(shù)據(jù)上取得更好的效果嗦明。此外笼沥,從模式識(shí)別特征和分類器的角度,deep learning框架將feature和分類器結(jié)合到一個(gè)框架中娶牌,用數(shù)據(jù)去學(xué)習(xí)feature奔浅,在使用中減少了手工設(shè)計(jì)feature的巨大工作量(這是目前工業(yè)界工程師付出努力最多的方面),因此裙戏,不僅僅效果可以更好乘凸,而且,使用起來(lái)也有很多方便之處累榜,因此营勤,是十分值得關(guān)注的一套框架灵嫌,每個(gè)做ML的人都應(yīng)該關(guān)注了解一下。
當(dāng)然葛作,deep learning本身也不是完美的寿羞,也不是解決世間任何ML問題的利器,不應(yīng)該被放大到一個(gè)無(wú)所不能的程度赂蠢。