姓名 郭宇
學(xué)號 16130130299
轉(zhuǎn)載自?【深度學(xué)習(xí)的應(yīng)用:語音識別圆裕、圖像理解、自然語言處理】
http://m.toutiao12.com/group/6490130609275404814/?iid=17602826099&app=news_article&tt_from=android_share&utm_medium=toutiao_android&utm_campaign=client_share
【嵌牛導(dǎo)讀】:深度學(xué)習(xí)的主要應(yīng)用領(lǐng)域
【嵌牛鼻子】 深度學(xué)習(xí) 人工智能 大數(shù)據(jù)
【嵌牛提問】深度學(xué)習(xí)主要應(yīng)用在哪些方面和其發(fā)展情況
【嵌牛正文】:隨著大數(shù)據(jù)時代的到來亥啦,深度學(xué)習(xí)技術(shù)已經(jīng)成為當(dāng)前人工智能領(lǐng)域的一個研究熱點蛾默,其在圖像識別、語音識別、自然語言處理等領(lǐng)域展現(xiàn)出了巨大的優(yōu)勢讯壶,并且仍在繼續(xù)發(fā)展變化。
隨著傳感器技術(shù)湾盗、存儲技術(shù)伏蚊、計算機技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展以及人類管理與知識水平的提高,使得數(shù)據(jù)的膨脹趨勢日益加劇格粪,信息技術(shù)發(fā)展的瓶頸已不僅僅存在于數(shù)據(jù)的獲取躏吊、存儲與傳輸,而更受限于數(shù)據(jù)的加工帐萎、分析和利用比伏。采用有效的人工智能技術(shù)從大數(shù)據(jù)中獲取抽象信息并將其轉(zhuǎn)換為有用的知識,是當(dāng)前大數(shù)據(jù)分析所面臨的核心問題之一疆导。大數(shù)據(jù)時代赁项,如何對紛繁復(fù)雜的數(shù)據(jù)進(jìn)行有效分析,讓其價值得以體現(xiàn)和合理的利用澈段,是當(dāng)前迫切需要思考和解決的問題悠菜,而近期興起的深度學(xué)習(xí)方法正是開啟這扇大門的一把鑰匙。
深度學(xué)習(xí)是新興的機器學(xué)習(xí)研究領(lǐng)域败富,旨在研究如何從數(shù)據(jù)中自動提取多層特征表示悔醋,其核心思想是通過數(shù)據(jù)驅(qū)動的方式,采用一系列的非線性變換兽叮,從原始數(shù)據(jù)中提取由低層到高層芬骄、由具體到抽象、由一般到特定語義的特征鹦聪。深度學(xué)習(xí)不僅改變著傳統(tǒng)的機器學(xué)習(xí)方法账阻,也影響著本文對人類感知的理解,迄今已在語音識別椎麦、圖像理解宰僧、自然語言處理等應(yīng)用領(lǐng)域引發(fā)了突破性的變革。
1.圖像識別
物體檢測和圖像分類是圖像識別的兩個核心問題观挎,前者主要定位圖像中特定物體出現(xiàn)的區(qū)域并判定其類別,后者則對圖像整體的語義內(nèi)容進(jìn)行類別判定段化。Yang 等人是傳統(tǒng)圖像識別算法中的代表嘁捷,他們在2009 年提出的采用稀疏編碼來表征圖像,通過大規(guī)模數(shù)據(jù)來訓(xùn)練支持向量機(support vector machine,SVM)進(jìn)行圖像分類显熏,該方法在2010年和2011年的ImageNet圖像分類競賽中取得了最好成績雄嚣。圖像識別是深度學(xué)習(xí)最早嘗試的應(yīng)用領(lǐng)域,早在1989 年,LeCun 和他的同事就發(fā)表了關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)工作缓升,在手寫數(shù)字識別任務(wù)上取得了當(dāng)時世界上最好的結(jié)果鼓鲁,并廣泛應(yīng)用于各大銀行支票的手寫數(shù)字識別任務(wù)中。百度在2012 年將深度學(xué)習(xí)技術(shù)成功應(yīng)用于自然圖像OCR 識別和人臉識別等問題上港谊,并推出相應(yīng)的移動搜索產(chǎn)品和桌面應(yīng)用骇吭。從2012 年的ImageNet 競賽開始,深度學(xué)習(xí)在圖像識別領(lǐng)域發(fā)揮出巨大威力歧寺,在通用圖像分類燥狰、圖像檢測、光學(xué)字符識別(optical character recognition,OCR)斜筐、人臉識別等領(lǐng)域龙致,最好的系統(tǒng)都是基于深度學(xué)習(xí)的。2012 年是深度學(xué)習(xí)技術(shù)第一次被應(yīng)用到ImageNet 競賽中顷链,可以看出相對于2011 年傳統(tǒng)最好的識別錯誤率大幅降低了41.1%目代,且2015 年基于深度學(xué)習(xí)技術(shù)的圖像識別率錯誤率已經(jīng)超過了人類,2016 年最新的ImageNet 識別錯誤率已經(jīng)達(dá)到2.991%嗤练。
2.語音識別
長久以來像啼,人與機器交談一直是人機交互領(lǐng)域內(nèi)的一個夢想,而語音識別是其基本技術(shù)潭苞。語音識別(automatic speech recognition,ASR)是指能夠讓計算機自動地識別語音中所攜帶信息的技術(shù)忽冻。語音是人類實現(xiàn)信息交互最直接、最便捷此疹、最自然的方式之一僧诚。自人工智能(artificial intelligence,AI)的概念出現(xiàn)以來,讓計算機甚至機器人像自然人一樣實現(xiàn)利用語音進(jìn)行交互就一直是AI 領(lǐng)域研究者的夢想蝗碎。最近幾年湖笨,深度學(xué)習(xí)(deep learning,DL)理論在語音識別和圖像識別領(lǐng)域取得了令人振奮的性能提升,迅速成為了當(dāng)下學(xué)術(shù)界和產(chǎn)業(yè)界的研究熱點蹦骑,為處在瓶頸期的語音等模式識別領(lǐng)域提供了一個強有力的工具慈省。在語音識別領(lǐng)域,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)模型給處在瓶頸階段的傳統(tǒng)的GMM-HMM模型帶來了巨大的革新眠菇,使得語音識別的準(zhǔn)確率又上了一個新的臺階边败。目前國內(nèi)外知名互聯(lián)網(wǎng)企業(yè)(谷歌、科大訊飛及百度等)的語音識別算法都采用的是DNN 方法捎废。2012年11 月笑窜,微軟在中國天津的一次活動上公開演示了一個全自動的同聲傳譯系統(tǒng),講演者用英文演講登疗,后臺的計算機一氣呵成自動完成語音識別排截、英中機器翻譯和中文語音合成嫌蚤,效果非常流暢,其后臺支撐的關(guān)鍵技術(shù)就是深度學(xué)習(xí)断傲。近期脱吱,百度將Deep CNN 應(yīng)用于語音識別研究,使用了VGGNet认罩,以及包含Residual連接的深層卷積神經(jīng)網(wǎng)絡(luò)(convolutional neuralnetwork,CNN)等結(jié)構(gòu)箱蝠,并將長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)和CTC 的端到端語音識別技術(shù)相結(jié)合,使得識別錯誤率相對下降了10%以上猜年。2016 年9 月抡锈,微軟的研究者在產(chǎn)業(yè)標(biāo)準(zhǔn)Switchboard 語音識別任務(wù)上,取得了產(chǎn)業(yè)中最低的6.3%的詞錯率乔外。以及國內(nèi)科大訊飛提出的前饋型序列記憶網(wǎng)絡(luò)(feed-forward sequential memory network,FSMN)的語音識別系統(tǒng)床三,該系統(tǒng)使用大量的卷積層直接對整句語音信號進(jìn)行建模,更好的表達(dá)了語音的長時相關(guān)性杨幼,其效果比學(xué)術(shù)界和工業(yè)界最好的雙向RNN(recurrent neural network,RNN)語音識別系統(tǒng)識別率提升了15%以上撇簿。由此可見,深度學(xué)習(xí)技術(shù)對語言識別率的提高有著不可忽略的貢獻(xiàn)差购。
3.自然語言處理
自然語言處理(natural language processing,NLP)也是深度學(xué)習(xí)的一個重要應(yīng)用領(lǐng)域四瘫,經(jīng)過幾十年多的發(fā)展,基于統(tǒng)計的模型已經(jīng)成為NLP 的主流欲逃,同時人工神經(jīng)網(wǎng)絡(luò)在NLP 領(lǐng)域也受到了理論界的足夠重視找蜜。加拿大蒙特利爾大學(xué)教授Bengio等在2003 年提出用embedding的方法將詞映射到一個矢量表示空間,然后用非線性神經(jīng)網(wǎng)絡(luò)來表示N-Gram 模型稳析。世界上最早的深度學(xué)習(xí)用于NLP 的研究工作誕生于NEC Labs American洗做,其研究員Collobert 和Weston從2008年開始采用embedding 和多層一維卷積的結(jié)構(gòu),用于詞性標(biāo)注彰居、分塊诚纸、命名實體識別、語義角色標(biāo)注等4 個典型NLP 問題陈惰。值得注意的是畦徘,他們將同一個模型用于不同的任務(wù),都取得了與現(xiàn)有技術(shù)水平相當(dāng)?shù)臏?zhǔn)確率抬闯。Mikolov 等通過對Bengio 等提出的神經(jīng)網(wǎng)絡(luò)語言模型的進(jìn)一步研究發(fā)現(xiàn)井辆,通過添加隱藏層的多次遞歸,可以提高語言模型的性能画髓,語音識別任務(wù)中掘剪,在提高后續(xù)詞預(yù)測準(zhǔn)確率及總體識別錯誤率方面都超越了當(dāng)時最好的基準(zhǔn)系統(tǒng),Schwenk 等將類似的模型用在統(tǒng)計機器翻譯任務(wù)中奈虾,采用BLEU(bilingual evaluation understudy,BLEU)評分機制評判,提高了近2 個百分點。此外肉微,基于深度學(xué)習(xí)模型的特征學(xué)習(xí)還在語義消歧匾鸥、情感分析[等自然語言處理任務(wù)中均超越了當(dāng)時最優(yōu)系統(tǒng),取得優(yōu)異表現(xiàn)碉纳。
參考文獻(xiàn):
[1]Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matching using sparse codingfor image classification [J]. 2009: 1794-1801.
[2]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neuralnetworks. [J]. Science, 2006, 313 (5786): 504.
[3]Lecun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zipcode recognition [J]. Neural Computation, 2014, 1 (4):541-551.
[4]Bengio Y, Vincent P, Janvin C. A neural probabilistic language model [J]. Journalof Machine Learning Research, 2003, 3 (6): 1137-1155.
[5]Collobert R, Weston J, Karlen M, et al. Natural Language Processing (Almost)fromScratch [J]. Journal of Machine Learning Research, 2011, 12(1): 2493-2537.
[6]Mikolov T, Deoras A, Kombrink S, et al. Empirical evaluation and combination ofadvanced language modeling techniques [C]// Proc of Conference of theInternational Speech Communication Association. 2011:605-608.
[7]Schwenk H, Rousseau A, Attik M. Large, pruned or continuous space languagemodels on a GPU for statistical machine translation [C]// Will We Ever ReallyReplace the N-Gram Model?on the Future of Language Modeling for Hlt.Association for Computational Linguistics, 2012: 11-19.