吳恩達(dá)深度學(xué)習(xí)筆記(69)-端到端的深度學(xué)習(xí)

什么是端到端的深度學(xué)習(xí)肚邢?(What is end-to-end deep learning?)

深度學(xué)習(xí)中最令人振奮的最新動態(tài)之一就是端到端深度學(xué)習(xí)的興起,那么端到端學(xué)習(xí)到底是什么呢骡湖?

簡而言之,以前有一些數(shù)據(jù)處理系統(tǒng)或者學(xué)習(xí)系統(tǒng)响蕴,它們需要多個階段的處理。那么端到端深度學(xué)習(xí)就是忽略所有這些不同的階段浦夷,用單個神經(jīng)網(wǎng)絡(luò)代替它。

我們來看一些例子劈狐,以語音識別為例,你的目標(biāo)是輸入x肥缔,比如說一段音頻,然后把它映射到一個輸出y续膳,就是這段音頻的聽寫文本。

所以傳統(tǒng)上姑宽,語音識別需要很多階段的處理闺阱。首先你會提取一些特征炮车,一些手工設(shè)計的音頻特征,也許你聽過MFCC瘦穆,這種算法是用來從音頻中提取一組特定的人工設(shè)計的特征。在提取出一些低層次特征之后扛或,你可以應(yīng)用機(jī)器學(xué)習(xí)算法在音頻片段中找到音位,所以音位是聲音的基本單位熙兔,比如說“Cat”這個詞是三個音節(jié)構(gòu)成的,Cu-住涉、Ah-和Tu-,算法就把這三個音位提取出來舆声,然后你將音位串在一起構(gòu)成獨立的詞,然后你將詞串起來構(gòu)成音頻片段的聽寫文本媳握。

所以和這種有很多階段的流水線相比,端到端深度學(xué)習(xí)做的是蛾找,你訓(xùn)練一個巨大的神經(jīng)網(wǎng)絡(luò),輸入就是一段音頻腋粥,輸出直接是聽寫文本。

AI的其中一個有趣的社會學(xué)效應(yīng)是隘冲,隨著端到端深度學(xué)習(xí)系統(tǒng)表現(xiàn)開始更好,有一些花了大量時間或者整個事業(yè)生涯設(shè)計出流水線各個步驟的研究員展辞,還有其他領(lǐng)域的研究員奥邮,不只是語言識別領(lǐng)域的罗珍,也許是計算機(jī)視覺,還有其他領(lǐng)域覆旱,他們花了大量的時間,寫了很多論文扣唱,有些甚至整個職業(yè)生涯的一大部分都投入到開發(fā)這個流水線的功能或者其他構(gòu)件上去了团南。

而端到端深度學(xué)習(xí)就只需要把訓(xùn)練集拿過來,直接學(xué)到了x和y之間的函數(shù)映射吐根,直接繞過了其中很多步驟。對一些學(xué)科里的人來說辐马,這點相當(dāng)難以接受,他們無法接受這樣構(gòu)建AI系統(tǒng)喜爷,因為有些情況,端到端方法完全取代了舊系統(tǒng)贞奋,某些投入了多年研究的中間組件也許已經(jīng)過時了。

事實證明轿塔,端到端深度學(xué)習(xí)的挑戰(zhàn)之一是,你可能需要大量數(shù)據(jù)才能讓系統(tǒng)表現(xiàn)良好勾缭,比如,你只有3000小時數(shù)據(jù)去訓(xùn)練你的語音識別系統(tǒng)俩由,那么傳統(tǒng)的流水線效果真的很好。但當(dāng)你擁有非常大的數(shù)據(jù)集時幻梯,比如10,000小時數(shù)據(jù)或者100,000小時數(shù)據(jù),這樣端到端方法突然開始很厲害了碘梢。

所以當(dāng)你的數(shù)據(jù)集較小的時候,傳統(tǒng)流水線方法其實效果也不錯煞躬,通常做得更好。你需要大數(shù)據(jù)集才能讓端到端方法真正發(fā)出耀眼光芒恩沛。如果你的數(shù)據(jù)量適中,那么也可以用中間件方法雷客,你可能輸入還是音頻,然后繞過特征提取搅裙,直接嘗試從神經(jīng)網(wǎng)絡(luò)輸出音位总放,然后也可以在其他階段用,所以這是往端到端學(xué)習(xí)邁出的一小步好爬,但還沒有到那里甥啄。

這張圖上是一個研究員做的人臉識別門禁,是百度的林元慶研究員做的蜈漓。

這是一個相機(jī),它會拍下接近門禁的人融虽,如果它認(rèn)出了那個人,門禁系統(tǒng)就自動打開有额,讓他通過,所以你不需要刷一個RFID工卡就能進(jìn)入這個設(shè)施巍佑。系統(tǒng)部署在越來越多的中國辦公室,希望在其他國家也可以部署更多萤衰,你可以接近門禁堕义,如果它認(rèn)出你的臉脆栋,它就直接讓你通過,你不需要帶RFID工卡椿争。

那么,怎么搭建這樣的系統(tǒng)呢丘薛?你可以做的第一件事是,看看相機(jī)拍到的照片洋侨,對吧?我想我畫的不太好希坚,但也許這是相機(jī)照片,你知道裁僧,有人接近門禁了个束,所以這可能是相機(jī)拍到的圖像x。有件事你可以做茬底,就是嘗試直接學(xué)習(xí)圖像x到人物y身份的函數(shù)映射,事實證明這不是最好的方法阱表。

其中一個問題是,人可以從很多不同的角度接近門禁最爬,他們可能在綠色位置,可能在藍(lán)色位置烤送。有時他們更靠近相機(jī)糠悯,所以他們看起來更大帮坚,有時候他們非常接近相機(jī),那照片中臉就很大了忘朝。

在實際研制這些門禁系統(tǒng)時,他不是直接將原始照片喂到一個神經(jīng)網(wǎng)絡(luò)肴茄,試圖找出一個人的身份。

相反,迄今為止最好的方法似乎是一個多步方法晓铆,首先勺良,你運行一個軟件來檢測人臉骄噪,所以第一個檢測器找的是人臉位置尚困,檢測到人臉链蕊,然后放大圖像的那部分尾组,并裁剪圖像示弓,使人臉居中顯示呵萨,然后就是這里紅線框起來的照片奏属,再喂到神經(jīng)網(wǎng)絡(luò)里,讓網(wǎng)絡(luò)去學(xué)習(xí)潮峦,或估計那人的身份囱皿。

研究人員發(fā)現(xiàn),比起一步到位忱嘹,一步學(xué)習(xí)嘱腥,把這個問題分解成兩個更簡單的步驟。

首先拘悦,是弄清楚臉在哪里齿兔。第二步是看著臉,弄清楚這是誰础米。這第二種方法讓學(xué)習(xí)算法分苇,或者說兩個學(xué)習(xí)算法分別解決兩個更簡單的任務(wù),并在整體上得到更好的表現(xiàn)医寿。

順便說一句,如果你想知道第二步實際是怎么工作的靖秩,我這里其實省略了很多。

訓(xùn)練第二步的方式竖瘾,訓(xùn)練網(wǎng)絡(luò)的方式就是輸入兩張圖片沟突,然后你的網(wǎng)絡(luò)做的就是將輸入的兩張圖比較一下准浴,判斷是否是同一個人事扭。比如你記錄了10,000個員工ID乐横,你可以把紅色框起來的圖像快速比較……也許是全部10,000個員工記錄在案的ID今野,看看這張紅線內(nèi)的照片,是不是那10000個員工之一条霜,來判斷是否應(yīng)該允許其進(jìn)入這個設(shè)施或者進(jìn)入這個辦公樓。這是一個門禁系統(tǒng)涵亏,允許員工進(jìn)入工作場所的門禁。

為什么兩步法更好呢气筋?實際上有兩個原因。

一是宠默,你解決的兩個問題,每個問題實際上要簡單得多搀矫。但第二,兩個子任務(wù)的訓(xùn)練數(shù)據(jù)都很多瓤球。具體來說,有很多數(shù)據(jù)可以用于人臉識別訓(xùn)練卦羡,對于這里的任務(wù)1來說,任務(wù)就是觀察一張圖虹茶,找出人臉?biāo)诘奈恢茫讶四槇D像框出來蝴罪,所以有很多數(shù)據(jù),有很多標(biāo)簽數(shù)據(jù)(x,y)要门,其中x是圖片虏肾,y是表示人臉的位置欢搜,你可以建立一個神經(jīng)網(wǎng)絡(luò),可以很好地處理任務(wù)1炒瘟。

然后任務(wù)2吹埠,也有很多數(shù)據(jù)可用,今天缘琅,業(yè)界領(lǐng)先的公司擁有,比如說數(shù)百萬張人臉照片刷袍,所以輸入一張裁剪得很緊湊的照片,比如這張紅色照片呻纹,下面這個,今天業(yè)界領(lǐng)先的人臉識別團(tuán)隊有至少數(shù)億的圖像雷酪,他們可以用來觀察兩張圖片,并試圖判斷照片里人的身份哥力,確定是否同一個人,所以任務(wù)2還有很多數(shù)據(jù)省骂。相比之下,如果你想一步到位钞澳,這樣(x,y)的數(shù)據(jù)對就少得多,其中x是門禁系統(tǒng)拍攝的圖像轧粟,y是那人的身份,因為你沒有足夠多的數(shù)據(jù)去解決這個端到端學(xué)習(xí)問題兰吟,但你卻有足夠多的數(shù)據(jù)來解決子問題1和子問題2。

實際上混蔼,把這個分成兩個子問題,比純粹的端到端深度學(xué)習(xí)方法珊燎,達(dá)到更好的表現(xiàn)。不過如果你有足夠多的數(shù)據(jù)來做端到端學(xué)習(xí)悔政,也許端到端方法效果更好。但在今天的實踐中谋国,并不是最好的方法。

我們再來看幾個例子,比如機(jī)器翻譯集畅。傳統(tǒng)上,機(jī)器翻譯系統(tǒng)也有一個很復(fù)雜的流水線牡整,比如英語機(jī)翻得到文本,然后做文本分析溺拱,基本上要從文本中提取一些特征之類的,經(jīng)過很多步驟迫摔,你最后會將英文文本翻譯成法文

因為對于機(jī)器翻譯來說的確有很多(英文,法文)的數(shù)據(jù)對句占,端到端深度學(xué)習(xí)在機(jī)器翻譯領(lǐng)域非常好用,那是因為在今天可以收集x-y對的大數(shù)據(jù)集纱烘,就是英文句子和對應(yīng)的法語翻譯。所以在這個例子中擂啥,端到端深度學(xué)習(xí)效果很好。

最后一個例子哺壶,比如說你希望觀察一個孩子手部的X光照片,并估計一個孩子的年齡山宾。

你知道,當(dāng)我第一次聽到這個問題的時候资锰,我以為這是一個非常酷的犯罪現(xiàn)場調(diào)查任務(wù)绷杜,你可能悲劇的發(fā)現(xiàn)了一個孩子的骨架翎猛,你想弄清楚孩子在生時是怎么樣的接剩。事實證明,這個問題的典型應(yīng)用懊缺,從X射線圖估計孩子的年齡培他,是我想太多了,沒有我想象的犯罪現(xiàn)場調(diào)查腦洞那么大遗座,結(jié)果這是兒科醫(yī)生用來判斷一個孩子的發(fā)育是否正常。

處理這個例子的一個非端到端方法途蒋,就是照一張圖,然后分割出每一塊骨頭号坡,所以就是分辨出那段骨頭應(yīng)該在哪里,那段骨頭在哪里宽堆,那段骨頭在哪里,等等畜隶。然后,知道不同骨骼的長度籽慢,你可以去查表浸遗,查到兒童手中骨頭的平均長度箱亿,然后用它來估計孩子的年齡,所以這種方法實際上很好极景。

相比之下驾茴,如果你直接從圖像去判斷孩子的年齡盼樟,那么你需要大量的數(shù)據(jù)去直接訓(xùn)練锈至。據(jù)我所知晨缴,這種做法今天還是不行的峡捡,因為沒有足夠的數(shù)據(jù)來用端到端的方式來訓(xùn)練這個任務(wù)击碗。

你可以想象一下如何將這個問題分解成兩個步驟们拙,第一步是一個比較簡單的問題,也許你不需要那么多數(shù)據(jù)砚婆,也許你不需要許多X射線圖像來切分骨骼。而任務(wù)二,收集兒童手部的骨頭長度的統(tǒng)計數(shù)據(jù)坷虑,你不需要太多數(shù)據(jù)也能做出相當(dāng)準(zhǔn)確的估計,所以這個多步方法看起來很有希望迄损,也許比端對端方法更有希望,至少直到你能獲得更多端到端學(xué)習(xí)的數(shù)據(jù)之前芹敌。

所以端到端深度學(xué)習(xí)系統(tǒng)是可行的,它表現(xiàn)可以很好党窜,也可以簡化系統(tǒng)架構(gòu),讓你不需要搭建那么多手工設(shè)計的單獨組件幌衣,但它也不是靈丹妙藥矾削,并不是每次都能成功豁护。

在下一個筆記中,我想與你分享一個更系統(tǒng)的描述楚里,什么時候你應(yīng)該使用或者不應(yīng)該使用端到端的深度學(xué)習(xí)断部,以及如何組裝這些復(fù)雜的機(jī)器學(xué)習(xí)系統(tǒng)班缎。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市达址,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌沉唠,老刑警劉巖,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件满葛,死亡現(xiàn)場離奇詭異,居然都是意外死亡嘀韧,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進(jìn)店門锄贷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鄙币,“玉大人,你說我怎么就攤上這事十嘿。” “怎么了岳锁?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長咳燕。 經(jīng)常有香客問我,道長乒躺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任嘉冒,我火速辦了婚禮,結(jié)果婚禮上讳推,老公的妹妹穿的比我還像新娘。我一直安慰自己银觅,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布究驴。 她就那樣靜靜地躺著,像睡著了一般洒忧。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上跑慕,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天摧找,我揣著相機(jī)與錄音核行,去河邊找鬼蹬耘。 笑死芝雪,一個胖子當(dāng)著我的面吹牛综苔,可吹牛的內(nèi)容都是我干的位岔。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼抒抬,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了晤柄?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤芥颈,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后爬坑,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡盾计,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了闯估。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡骑素,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出刚夺,到底是詐尸還是另有隱情,我是刑警寧澤侠姑,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布,位于F島的核電站莽红,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏安吁。R本人自食惡果不足惜醉蚁,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一鬼店、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧妇智,春花似錦氏身、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽桨菜。三九已至,卻和暖如春倒得,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背霞掺。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留菩彬,地道東北人缠劝。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓骗灶,卻偏偏與公主長得像,于是被迫代替她去往敵國和親耙旦。 傳聞我的和親對象是個殘疾皇子脱羡,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內(nèi)容