一.nlp的主要應(yīng)用與基礎(chǔ)技術(shù)(個人總結(jié))
應(yīng)用:
1.翻譯(已經(jīng)做得比較很不錯了鬼廓,但是實時翻譯還有所不足)***
2.對話(還有非常對的技術(shù)壁壘,可做的東西很多)***
3.文本數(shù)據(jù)挖掘(eg诅挑,情感分析,kaggle競賽之雙高預(yù)測)
4.信息檢索(eg友鼻,百度搜索)
5.文本生成奋姿,寫詩,寫事件報道(一場比賽結(jié)束古沥,比賽的信息存在一個數(shù)據(jù)庫里瘸右。還有現(xiàn)場直播的解說詞,通過時間軸可以找到對應(yīng)關(guān)系岩齿。那現(xiàn)在太颤,一場足球比賽結(jié)束,馬上就要一個體育報道盹沈,這個報道就能形成龄章。報道的文字出來之后,還要自動找圖片配上去乞封,這就涉及到選哪個圖片是最好的做裙,配完圖片就形成一個完整體育報道。)
6.其他肃晚,如會議系統(tǒng)锚贱,如篩選簡歷(信息抽取)关串,word里語法檢查等
如果是語音信號拧廊,在使用nlp之前,需要做語音信號處理(個人理解)晋修,下圖來自于騰訊犀牛鳥計劃:
用到的最基礎(chǔ)的技術(shù):
分詞(中文分詞常用jieba卦绣,https://blog.csdn.net/flysky1991/article/details/73948971),文本特征提确沈尽(把字符串滤港、文本轉(zhuǎn)化為機(jī)器學(xué)習(xí)模型可處理的數(shù)值特征:TfidfVectorizer),文本相似度計算(常用于信息檢索趴拧、數(shù)據(jù)挖掘溅漾、機(jī)器翻譯等,https://blog.csdn.net/flysky1991/article/details/72786820).......
二.關(guān)鍵的幾個問題(摘自msra周明的北大公開課)
(一)有了大數(shù)據(jù)著榴、神經(jīng)網(wǎng)絡(luò)添履、不斷完善的網(wǎng)絡(luò)結(jié)構(gòu)、云計算脑又、落地場景暮胧、未來的NLP會發(fā)展的越來越好锐借。有幾點預(yù)測:
1、未來的口語機(jī)器翻譯一定是普及的往衷,出國的語言交流將不是問題钞翔;
2、聊天系統(tǒng)越來越實用席舍;
3布轿、電腦創(chuàng)作詩詞,小說来颤,歌曲將會流行起來汰扭;
4、語音助手福铅,物聯(lián)網(wǎng)萝毛,智能家居,智能硬件等等都會因為自然語言的發(fā)展而普及起來滑黔;
5笆包、與其他AI技術(shù)一起再金融、法律拷沸、教育色查、醫(yī)療上得到廣泛應(yīng)用薯演。
整體上人工智能會提升人的生活質(zhì)量撞芍,普惠所有人,因此我認(rèn)為自然語言是未來的一個很好的方向跨扮。
(二)自然語言領(lǐng)域還有哪些的題目還能選呢序无?
神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯還可以在做,例如生詞衡创、篇章級的處理還不好帝嗡,而且領(lǐng)域遷移做的不好,這些領(lǐng)域還可以進(jìn)一步研究璃氢。第二個思路哟玷,用小數(shù)據(jù)集來訓(xùn)練機(jī)器翻譯系統(tǒng)。
第二個方向一也,針對問答系統(tǒng)(QA)巢寡,除了可以針對知識庫來做,還可以無結(jié)構(gòu)的文本集椰苟,表格圖片抑月。第二個和QA有關(guān)的是語義分析。
第三個方向是多輪對話舆蝴,如何更好地建模上下文谦絮,甚至用戶的不同時期的回復(fù)來生成好的回復(fù)题诵。
最后還有很多跨學(xué)科跨領(lǐng)域的地方,例如歌曲創(chuàng)作等等层皱。
而未來創(chuàng)業(yè)呢性锭?主要考慮場景,先從市場需求出發(fā)奶甘,反推需要的技術(shù)篷店。需要大家了解市場,可以通過在公司實習(xí)臭家,了解實際需求疲陕,來反思學(xué)校學(xué)到的東西,哪些是用的上的钉赁,哪些還不行蹄殃。也許可以發(fā)現(xiàn)我們未來創(chuàng)業(yè)的機(jī)會。
(三)視頻現(xiàn)在是現(xiàn)象級的事件你踩,發(fā)展很強(qiáng)勁诅岩,那么關(guān)于視頻,它和自然語言怎么結(jié)合带膜,未來會爆發(fā)出哪些和自然語言有關(guān)的應(yīng)用場景吩谦?
現(xiàn)在的趨勢是圖文結(jié)合越來越緊密,一個圖用關(guān)鍵詞和一段話進(jìn)行描述膝藕,而視頻也是一樣的式廷,這方面的研究是方興未艾,沒有做的很好芭挽,假設(shè)這個技術(shù)越來越好的情況下滑废,就能產(chǎn)生很多應(yīng)用。
把物理和數(shù)字聯(lián)系起來袜爪,例如用照相機(jī)對實物拍照時蠕趁,電腦已經(jīng)知道這個圖景的屬性,將這些屬性再經(jīng)過自然語言處理辛馆,就可以自動的翻譯識別俺陋,生成一個可視化報告,可以完全聯(lián)動起來昙篙。
我們可以設(shè)想一個照相機(jī)的場景腊状,照相機(jī)照完后,自動將圖片的一系列信息展示出來瓢对,而處理對一系列時序圖片寿酌,就相當(dāng)于是對視頻的處理,我們就能知道視頻出現(xiàn)的人物硕蛹、物體和事件等等醇疼,可以得到文字描述硕并。將來或許也我們也就可以是輸入一段文字,通過圖或者一小段視頻表達(dá)出來秧荆,這樣圖文的互相轉(zhuǎn)化會產(chǎn)生新的的機(jī)會倔毙。
(四)現(xiàn)在已經(jīng)有很多團(tuán)隊開始視頻理解方面做研究,未來根據(jù)圖片乙濒,文字生成視頻這款陕赃,您感覺會需要多少時間?
這首先要有數(shù)據(jù)集颁股,這些數(shù)據(jù)應(yīng)該是有一個視頻或者圖片對應(yīng)的描寫是什么么库,但目前來看這方面數(shù)據(jù)還不夠,而為了廣泛的應(yīng)用甘有,我們需要對常見的視頻情景做各種人工數(shù)據(jù)采集诉儒。基于這個亏掀,再進(jìn)行神經(jīng)網(wǎng)絡(luò)的編解碼訓(xùn)練忱反,所以我猜測,如果有數(shù)據(jù)集滤愕,三年之內(nèi)常見的圖文轉(zhuǎn)化的應(yīng)用都會被做掉温算。
(五)相關(guān)技術(shù)
自然語言的這些研究也不是孤立的,實際上它的周圍有一些支撐技術(shù)间影,比如說用戶畫像注竿。基于用戶畫像宇智,可以提供個性化的服務(wù)蔓搞。
云計算使得訓(xùn)練速度加快胰丁,并且很容易的部署随橘,然后機(jī)器學(xué)習(xí)和深度學(xué)習(xí),在數(shù)據(jù)提供的條件下锦庸,自動學(xué)習(xí)其中的知識机蔗、建模,然后部署到真正的系統(tǒng)里面甘萧。
還有是知識圖譜萝嘁,包含具體領(lǐng)域的一些知識圖譜,比如說金融領(lǐng)域的扬卷,或者是常識意義上的知識圖譜牙言。
所有這些技術(shù)綜合起來,使自然語言的任務(wù)做得更好怪得。
三.參考資料(行業(yè)概述咱枉,不涉及具體技術(shù)細(xì)節(jié))
強(qiáng)烈推薦:
周明的北大公開課(視頻):https://c.m.163.com/news/l/180148.html?from=special
周明的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=5&sn=8305be3e1fba0ef7ba3ea383b3ade6c8&chksm=797f6dbd4e08e4ab3c61b5e537849f7f918725042d724a99f3f77a6347b7a221fb7f53ae0d6e&mpshare=1&scene=23&srcid=0724fGB6p9zRc1IRmuHul8Mi#rd
推薦:
知乎內(nèi)容——國內(nèi)有哪些自然語言處理的牛人或團(tuán)隊卑硫?:https://www.zhihu.com/question/24366306
國內(nèi)頂尖的nlp實驗室——哈工大scir(劉挺老師團(tuán)隊):http://ir.hit.edu.cn/
國內(nèi)頂尖的nlp實驗室——中科院自動化所宗成慶教授團(tuán)隊:http://www.nlpr.ia.ac.cn/cip/introduction.htm
哈工大劉挺教授——自然語言處理的十個發(fā)展趨勢:http://www.sohu.com/a/163571379_633698
知乎內(nèi)容——自然語言處理怎么最快入門?:https://www.zhihu.com/question/19895141
十分鐘學(xué)習(xí)自然語言處理概述:http://www.cnblogs.com/baiboy/p/learnnlp.html
我愛自然語言處理:http://www.52nlp.cn/
北京大學(xué)中文系應(yīng)用語言學(xué)專業(yè):http://ccl.pku.edu.cn/all/info.asp?item=2&page=1&expand=6
李航——NLP有5個基本問題蚕断,深度學(xué)習(xí)有4個做得很好:https://www.toutiao.com/i6410689995593482754/
李航的北大公開課(視頻):https://c.m.163.com/news/l/177303.html?from=special
李航的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=3&sn=788fa22a48697d5fb9fcd4e501b6ca74&chksm=797f6dbd4e08e4ab51914d3489dcde38557da37fd64339f67178ca32dbea188a286faba3b5e2&mpshare=1&scene=23&srcid=0724RLmOk8kpaFF3bwKDj5uh#rd
自然語言處理技術(shù)(NLP)在推薦系統(tǒng)中的應(yīng)用:https://blog.csdn.net/heyc861221/article/details/80130263
騰訊犀牛鳥計劃:https://ur.tencent.com/article/235
概述:http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Chapter_01.pdf