來源:AINLPer微信公眾號(hào)
編輯: ShuYini
校稿: ShuYini
時(shí)間: 2020-01-08
本次主要內(nèi)容:
1、深度學(xué)習(xí)(DL)與機(jī)器學(xué)習(xí)(ML)之間的聯(lián)系笛厦。
2纳鼎、利用深度學(xué)習(xí)(DL)做自然語言處理(NLP)的優(yōu)勢。
深度學(xué)習(xí)(DL)是機(jī)器學(xué)習(xí)(ML)的關(guān)系裳凸?
深度學(xué)習(xí)(DL)是機(jī)器學(xué)習(xí)(ML)的一個(gè)分支贱鄙,但是他們之間的不同是哪些呢?
機(jī)器學(xué)習(xí)是基于數(shù)據(jù)的姨谷。大多數(shù)機(jī)器學(xué)習(xí)依賴于人類來識(shí)別和描述數(shù)據(jù)集的特定特征逗宁。例如,數(shù)據(jù)科學(xué)家構(gòu)建一個(gè)機(jī)器學(xué)習(xí)解決方案來識(shí)別文本中的地名梦湘,可以使用代碼來描述要查找的特定特征疙剑,比如:
1、目標(biāo)單詞的大小寫
2践叠、目標(biāo)單詞的左邊和右邊的單詞
3言缤、目標(biāo)單詞中的特定子字符串,通常表示公司或人員
4禁灼、目標(biāo)單詞中的連字符
????等等管挟。
????一個(gè)典型的機(jī)器學(xué)習(xí)解決方案最終會(huì)有成千上萬甚至上百萬的手工設(shè)計(jì)的特性。那么弄捕,一旦人類手工完成了所有這些特征識(shí)別工作僻孝,機(jī)器還能做什么呢?在這種類型的解決方案中,機(jī)器的工作主要是使用一個(gè)學(xué)習(xí)算法來調(diào)整每個(gè)特征的權(quán)重守谓,以優(yōu)化預(yù)測精度穿铆。計(jì)算機(jī)非常擅長這種數(shù)值優(yōu)化,但這些解決方案仍然嚴(yán)重依賴于人類對問題的思考和學(xué)習(xí)斋荞。
????那么荞雏,我們怎樣才能在不需要太多人工干預(yù)的情況下,幫助機(jī)器自己學(xué)習(xí)呢?我們可以使用表征學(xué)習(xí)。在表示學(xué)習(xí)中凤优,計(jì)算機(jī)自己識(shí)別數(shù)據(jù)中的特征悦陋,而不需要人工描述要查找的內(nèi)容。
????表示學(xué)習(xí)的簡單形式包括你可能在介紹性機(jī)器學(xué)習(xí)材料中看到的東西筑辨。集群算法俺驶,像k-means和期望最大化,是一種表示學(xué)習(xí)棍辕,它獲取未標(biāo)記的數(shù)據(jù)并尋找模式將其分組到集群中暮现。維數(shù)約簡是一種將具有大量維數(shù)的數(shù)據(jù)“扁平化”為更少維數(shù)的算法,也是表示學(xué)習(xí)的一個(gè)好例子楚昭。
????深度學(xué)習(xí)是建立在這個(gè)理念上的送矩,通過使用多層的學(xué)習(xí)表征來創(chuàng)建一個(gè)人類大腦式的系統(tǒng),這個(gè)系統(tǒng)的表現(xiàn)優(yōu)于其他學(xué)習(xí)方法哪替。通過深度學(xué)習(xí),您將一個(gè)大型數(shù)據(jù)集輸入到一個(gè)模型中菇怀,該模型將生成一個(gè)可學(xué)習(xí)的表示凭舶。然后,模型將學(xué)習(xí)到的表示輸入到另一個(gè)算法層爱沟,該算法層使用輸入數(shù)據(jù)生成新的學(xué)習(xí)到的表示帅霜。根據(jù)模型的“深度”,對于給定的層數(shù)呼伸,模型會(huì)一遍又一遍地重復(fù)這種模式身冀。每個(gè)后續(xù)層使用前一層的輸出作為其數(shù)據(jù),然后從該輸入生成自己的學(xué)習(xí)表示括享。在圖表中搂根,它看起來是這樣的。
為什么要使用深度學(xué)習(xí)歉嗓?
????深度學(xué)習(xí)是一種令人興奮的自然語言處理技術(shù)丰介。以前使用手工設(shè)計(jì)的特性進(jìn)行自然語言處理的嘗試常常過于詳細(xì)和不完整。他們也花了很長時(shí)間來驗(yàn)證和改進(jìn)。深度學(xué)習(xí)相對來說是快速和靈活的基矮,足以快速適應(yīng)新的數(shù)據(jù)淆储。這種方法避免了手工設(shè)計(jì)特性的漫長設(shè)計(jì)和驗(yàn)證周期。
????由于深度學(xué)習(xí)允許計(jì)算機(jī)自己構(gòu)建數(shù)據(jù)特性家浇,因此它是學(xué)習(xí)各種信息的一個(gè)幾乎通用的框架本砰。這包括關(guān)于世界的語言信息、視覺信息和上下文信息钢悲。
????但探索自然語言處理的深度學(xué)習(xí)的最佳理由是点额,它是有效的,而且比研究人員嘗試過的其他技術(shù)有效得多莺琳。自從2010年左右自然語言處理首次取得成功以來还棱,深度學(xué)習(xí)已經(jīng)取得了巨大的進(jìn)步。然而惭等,深度學(xué)習(xí)的基本技術(shù)最早出現(xiàn)在20世紀(jì)80年代和90年代珍手。那么,為什么我們只是在過去10年才開始探索它們呢?
????首先辞做,可能也是最重要的琳要,我們現(xiàn)在擁有的數(shù)據(jù)比80年代和90年代多得多〕用互聯(lián)網(wǎng)的普及和普及意味著我們已經(jīng)收集了關(guān)于幾乎所有事情的空前數(shù)量的數(shù)據(jù)稚补,從我們購買的產(chǎn)品到我們?nèi)绾紊缃弧框喳;ヂ?lián)網(wǎng)是由大量的語言數(shù)據(jù)樣本組成的课幕,包括來自Twitter和博客等來源的隨意講話。當(dāng)涉及到機(jī)器學(xué)習(xí)五垮,尤其是深度學(xué)習(xí)時(shí)乍惊,擁有大量的數(shù)據(jù)集是關(guān)鍵。
????與此同時(shí)放仗,出現(xiàn)了更快的機(jī)器和多核cpu和gpu污桦,這有助于支持深度學(xué)習(xí)所需的計(jì)算能力。特別是匙监,深度學(xué)習(xí)非常適合并行處理凡橱,它現(xiàn)在特別便宜和高效。
????最后亭姥,新的模型稼钩、算法和思想使深度學(xué)習(xí)更加有效和靈活。這包括更好达罗、更靈活的中間表示學(xué)習(xí)坝撑,更有效的使用上下文和任務(wù)間轉(zhuǎn)移的學(xué)習(xí)方法静秆,以及更有效的端到端聯(lián)合系統(tǒng)學(xué)習(xí)。
ACED
Attention
更多自然語言處理相關(guān)知識(shí)巡李,還請關(guān)注AINLPer公眾號(hào)抚笔,極品干貨即刻送達(dá)。