自然語言處理概述

一.nlp的主要應(yīng)用與基礎(chǔ)技術(shù)(個人總結(jié))

應(yīng)用:

1.翻譯(已經(jīng)做得比較很不錯了鬼廓,但是實時翻譯還有所不足)***

2.對話(還有非常對的技術(shù)壁壘,可做的東西很多)***

3.文本數(shù)據(jù)挖掘(eg诅挑,情感分析,kaggle競賽之雙高預(yù)測)

4.信息檢索(eg友鼻,百度搜索)

5.文本生成奋姿,寫詩,寫事件報道(一場比賽結(jié)束古沥,比賽的信息存在一個數(shù)據(jù)庫里瘸右。還有現(xiàn)場直播的解說詞,通過時間軸可以找到對應(yīng)關(guān)系岩齿。那現(xiàn)在太颤,一場足球比賽結(jié)束,馬上就要一個體育報道盹沈,這個報道就能形成龄章。報道的文字出來之后,還要自動找圖片配上去乞封,這就涉及到選哪個圖片是最好的做裙,配完圖片就形成一個完整體育報道。)

6.其他肃晚,如會議系統(tǒng)锚贱,如篩選簡歷(信息抽取)关串,word里語法檢查等

如果是語音信號拧廊,在使用nlp之前,需要做語音信號處理(個人理解)晋修,下圖來自于騰訊犀牛鳥計劃:

用到的最基礎(chǔ)的技術(shù):

分詞(中文分詞常用jieba卦绣,https://blog.csdn.net/flysky1991/article/details/73948971),文本特征提确沈尽(把字符串滤港、文本轉(zhuǎn)化為機(jī)器學(xué)習(xí)模型可處理的數(shù)值特征:TfidfVectorizer),文本相似度計算(常用于信息檢索趴拧、數(shù)據(jù)挖掘溅漾、機(jī)器翻譯等,https://blog.csdn.net/flysky1991/article/details/72786820).......

二.關(guān)鍵的幾個問題(摘自msra周明的北大公開課)

(一)有了大數(shù)據(jù)著榴、神經(jīng)網(wǎng)絡(luò)添履、不斷完善的網(wǎng)絡(luò)結(jié)構(gòu)、云計算脑又、落地場景暮胧、未來的NLP會發(fā)展的越來越好锐借。有幾點預(yù)測:

1、未來的口語機(jī)器翻譯一定是普及的往衷,出國的語言交流將不是問題钞翔;

2、聊天系統(tǒng)越來越實用席舍;

3布轿、電腦創(chuàng)作詩詞,小說来颤,歌曲將會流行起來汰扭;

4、語音助手福铅,物聯(lián)網(wǎng)萝毛,智能家居,智能硬件等等都會因為自然語言的發(fā)展而普及起來滑黔;

5笆包、與其他AI技術(shù)一起再金融、法律拷沸、教育色查、醫(yī)療上得到廣泛應(yīng)用薯演。

整體上人工智能會提升人的生活質(zhì)量撞芍,普惠所有人,因此我認(rèn)為自然語言是未來的一個很好的方向跨扮。

(二)自然語言領(lǐng)域還有哪些的題目還能選呢序无?

神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯還可以在做,例如生詞衡创、篇章級的處理還不好帝嗡,而且領(lǐng)域遷移做的不好,這些領(lǐng)域還可以進(jìn)一步研究璃氢。第二個思路哟玷,用小數(shù)據(jù)集來訓(xùn)練機(jī)器翻譯系統(tǒng)。

第二個方向一也,針對問答系統(tǒng)(QA)巢寡,除了可以針對知識庫來做,還可以無結(jié)構(gòu)的文本集椰苟,表格圖片抑月。第二個和QA有關(guān)的是語義分析。

第三個方向是多輪對話舆蝴,如何更好地建模上下文谦絮,甚至用戶的不同時期的回復(fù)來生成好的回復(fù)题诵。

最后還有很多跨學(xué)科跨領(lǐng)域的地方,例如歌曲創(chuàng)作等等层皱。

而未來創(chuàng)業(yè)呢性锭?主要考慮場景,先從市場需求出發(fā)奶甘,反推需要的技術(shù)篷店。需要大家了解市場,可以通過在公司實習(xí)臭家,了解實際需求疲陕,來反思學(xué)校學(xué)到的東西,哪些是用的上的钉赁,哪些還不行蹄殃。也許可以發(fā)現(xiàn)我們未來創(chuàng)業(yè)的機(jī)會。

(三)視頻現(xiàn)在是現(xiàn)象級的事件你踩,發(fā)展很強(qiáng)勁诅岩,那么關(guān)于視頻,它和自然語言怎么結(jié)合带膜,未來會爆發(fā)出哪些和自然語言有關(guān)的應(yīng)用場景吩谦?

現(xiàn)在的趨勢是圖文結(jié)合越來越緊密,一個圖用關(guān)鍵詞和一段話進(jìn)行描述膝藕,而視頻也是一樣的式廷,這方面的研究是方興未艾,沒有做的很好芭挽,假設(shè)這個技術(shù)越來越好的情況下滑废,就能產(chǎn)生很多應(yīng)用。

把物理和數(shù)字聯(lián)系起來袜爪,例如用照相機(jī)對實物拍照時蠕趁,電腦已經(jīng)知道這個圖景的屬性,將這些屬性再經(jīng)過自然語言處理辛馆,就可以自動的翻譯識別俺陋,生成一個可視化報告,可以完全聯(lián)動起來昙篙。

我們可以設(shè)想一個照相機(jī)的場景腊状,照相機(jī)照完后,自動將圖片的一系列信息展示出來瓢对,而處理對一系列時序圖片寿酌,就相當(dāng)于是對視頻的處理,我們就能知道視頻出現(xiàn)的人物硕蛹、物體和事件等等醇疼,可以得到文字描述硕并。將來或許也我們也就可以是輸入一段文字,通過圖或者一小段視頻表達(dá)出來秧荆,這樣圖文的互相轉(zhuǎn)化會產(chǎn)生新的的機(jī)會倔毙。

(四)現(xiàn)在已經(jīng)有很多團(tuán)隊開始視頻理解方面做研究,未來根據(jù)圖片乙濒,文字生成視頻這款陕赃,您感覺會需要多少時間?

這首先要有數(shù)據(jù)集颁股,這些數(shù)據(jù)應(yīng)該是有一個視頻或者圖片對應(yīng)的描寫是什么么库,但目前來看這方面數(shù)據(jù)還不夠,而為了廣泛的應(yīng)用甘有,我們需要對常見的視頻情景做各種人工數(shù)據(jù)采集诉儒。基于這個亏掀,再進(jìn)行神經(jīng)網(wǎng)絡(luò)的編解碼訓(xùn)練忱反,所以我猜測,如果有數(shù)據(jù)集滤愕,三年之內(nèi)常見的圖文轉(zhuǎn)化的應(yīng)用都會被做掉温算。

(五)相關(guān)技術(shù)

自然語言的這些研究也不是孤立的,實際上它的周圍有一些支撐技術(shù)间影,比如說用戶畫像注竿。基于用戶畫像宇智,可以提供個性化的服務(wù)蔓搞。

云計算使得訓(xùn)練速度加快胰丁,并且很容易的部署随橘,然后機(jī)器學(xué)習(xí)和深度學(xué)習(xí),在數(shù)據(jù)提供的條件下锦庸,自動學(xué)習(xí)其中的知識机蔗、建模,然后部署到真正的系統(tǒng)里面甘萧。

還有是知識圖譜萝嘁,包含具體領(lǐng)域的一些知識圖譜,比如說金融領(lǐng)域的扬卷,或者是常識意義上的知識圖譜牙言。

所有這些技術(shù)綜合起來,使自然語言的任務(wù)做得更好怪得。


三.參考資料(行業(yè)概述咱枉,不涉及具體技術(shù)細(xì)節(jié))

強(qiáng)烈推薦:

周明的北大公開課(視頻):https://c.m.163.com/news/l/180148.html?from=special

周明的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=5&sn=8305be3e1fba0ef7ba3ea383b3ade6c8&chksm=797f6dbd4e08e4ab3c61b5e537849f7f918725042d724a99f3f77a6347b7a221fb7f53ae0d6e&mpshare=1&scene=23&srcid=0724fGB6p9zRc1IRmuHul8Mi#rd

推薦:

知乎內(nèi)容——國內(nèi)有哪些自然語言處理的牛人或團(tuán)隊卑硫?:https://www.zhihu.com/question/24366306

國內(nèi)頂尖的nlp實驗室——哈工大scir(劉挺老師團(tuán)隊):http://ir.hit.edu.cn/

國內(nèi)頂尖的nlp實驗室——中科院自動化所宗成慶教授團(tuán)隊:http://www.nlpr.ia.ac.cn/cip/introduction.htm

哈工大劉挺教授——自然語言處理的十個發(fā)展趨勢:http://www.sohu.com/a/163571379_633698

知乎內(nèi)容——自然語言處理怎么最快入門?:https://www.zhihu.com/question/19895141

十分鐘學(xué)習(xí)自然語言處理概述:http://www.cnblogs.com/baiboy/p/learnnlp.html

我愛自然語言處理:http://www.52nlp.cn/

北京大學(xué)中文系應(yīng)用語言學(xué)專業(yè):http://ccl.pku.edu.cn/all/info.asp?item=2&page=1&expand=6

李航——NLP有5個基本問題蚕断,深度學(xué)習(xí)有4個做得很好:https://www.toutiao.com/i6410689995593482754/

李航的北大公開課(視頻):https://c.m.163.com/news/l/177303.html?from=special

李航的北大公開課(文字版精華):http://mp.weixin.qq.com/s?__biz=MzUxMDc1Mzc0MA==&mid=100000542&idx=3&sn=788fa22a48697d5fb9fcd4e501b6ca74&chksm=797f6dbd4e08e4ab51914d3489dcde38557da37fd64339f67178ca32dbea188a286faba3b5e2&mpshare=1&scene=23&srcid=0724RLmOk8kpaFF3bwKDj5uh#rd

自然語言處理技術(shù)(NLP)在推薦系統(tǒng)中的應(yīng)用:https://blog.csdn.net/heyc861221/article/details/80130263

騰訊犀牛鳥計劃:https://ur.tencent.com/article/235

概述:http://ccl.pku.edu.cn/alcourse/nlp/LectureNotes/Chapter_01.pdf

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末欢伏,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子亿乳,更是在濱河造成了極大的恐慌硝拧,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件葛假,死亡現(xiàn)場離奇詭異障陶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)聊训,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進(jìn)店門咸这,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人魔眨,你說我怎么就攤上這事媳维。” “怎么了遏暴?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵侄刽,是天一觀的道長。 經(jīng)常有香客問我朋凉,道長州丹,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任杂彭,我火速辦了婚禮墓毒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘亲怠。我一直安慰自己所计,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布团秽。 她就那樣靜靜地躺著主胧,像睡著了一般。 火紅的嫁衣襯著肌膚如雪习勤。 梳的紋絲不亂的頭發(fā)上踪栋,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天,我揣著相機(jī)與錄音图毕,去河邊找鬼夷都。 笑死,一個胖子當(dāng)著我的面吹牛予颤,可吹牛的內(nèi)容都是我干的囤官。 我是一名探鬼主播厢破,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼治拿!你這毒婦竟也來了摩泪?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤劫谅,失蹤者是張志新(化名)和其女友劉穎见坑,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體捏检,經(jīng)...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡荞驴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了贯城。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片熊楼。...
    茶點故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖能犯,靈堂內(nèi)的尸體忽然破棺而出鲫骗,到底是詐尸還是另有隱情,我是刑警寧澤踩晶,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布执泰,位于F島的核電站,受9級特大地震影響渡蜻,放射性物質(zhì)發(fā)生泄漏术吝。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一茸苇、第九天 我趴在偏房一處隱蔽的房頂上張望排苍。 院中可真熱鬧,春花似錦学密、人聲如沸淘衙。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽幔翰。三九已至漩氨,卻和暖如春西壮,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背叫惊。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工款青, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人霍狰。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓抡草,卻偏偏與公主長得像饰及,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子康震,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內(nèi)容

  • References: 《speech and language processing 》2nd & 3rd 《統(tǒng)...
    藝術(shù)叔閱讀 7,553評論 1 8
  • 1.如何對待情緒燎含。 當(dāng)你們不再把注意力放在外在環(huán)境,而是放在自己的反應(yīng)和痛苦上時腿短,就不會再把外在世界當(dāng)成情緒...
    xiaomianger閱讀 631評論 0 0
  • 在這樣的環(huán)境下寫字是相當(dāng)舒服的橘忱!至少這樣的光線是我喜歡的赴魁,特意搞了個臺燈放著,這個光線很是舒服钝诚! 寫寫東西颖御,思考一...
    景德鎮(zhèn)的故事閱讀 74評論 0 2
  • 她在高中待了兩年,因為學(xué)習(xí)跟不上決定轉(zhuǎn)學(xué)凝颇。同學(xué)們很舍不得她潘拱,因為她在每個人的心中,都是一個活潑開朗拧略,陽光向上又溫...
    闌塵閱讀 211評論 5 2