近年來挑宠,深度學(xué)習(xí)在人工智能的多個(gè)子領(lǐng)域都取得一定程度的進(jìn)展,在自然處理領(lǐng)域颓影,深度學(xué)習(xí)也受到了越來越多的關(guān)注各淀。自然語言處理的基礎(chǔ)研究主要包括詞法分析、句法分析诡挂、語義分析碎浇、詞用語境與篇章分析等的研究。詞向量的方法璃俗,可以將映射轉(zhuǎn)換到一個(gè)獨(dú)立的向量空間奴璃。??
自然語言處理技術(shù)中采用深度學(xué)習(xí)知識(shí)的原因主要有:
(1)自然語言處理任務(wù)中首先要解決的問題是處理對象的表示形式,為了表示對象旧找,通常必須抽取一些特征溺健,如文本的處理中,常常用詞集合來表示一個(gè)文檔。傳統(tǒng)依賴手工的方式抽取特征鞭缭,費(fèi)時(shí)費(fèi)力剖膳,不僅獲取過程比較隨意,且完備性較差岭辣,同時(shí)吱晒,根據(jù)處理任務(wù)或領(lǐng)域的不同,特征提取工作要重復(fù)進(jìn)行沦童,無法實(shí)現(xiàn)表示共享仑濒。深度學(xué)習(xí)中的特征提取,即指可以自動(dòng)從數(shù)據(jù)中學(xué)習(xí)獲取特征偷遗,這也是考慮在自然語言處理技術(shù)中采用深度學(xué)習(xí)知識(shí)的主要原因墩瞳。
(2)目前大多數(shù)效果較好的自然語言處理任務(wù)和機(jī)器學(xué)習(xí)方法都依賴于標(biāo)注數(shù)據(jù),實(shí)際應(yīng)用而言氏豌,自然語言中大量存在的是未標(biāo)注數(shù)據(jù)喉酌。深度神經(jīng)網(wǎng)絡(luò)采用無監(jiān)督方式完成預(yù)訓(xùn)練過程,恰恰提供了合適的訓(xùn)練模型泵喘。
(3)深度學(xué)習(xí)結(jié)構(gòu)一般由多層神經(jīng)網(wǎng)絡(luò)結(jié)點(diǎn)組成泪电,其預(yù)訓(xùn)練過程通常需要高性能計(jì)算的支持,硬件及軟件技術(shù)的發(fā)展纪铺,都為當(dāng)前采用深度學(xué)習(xí)結(jié)構(gòu)的自然語言處理提供了良好支撐環(huán)境相速。
自然語言處理基礎(chǔ)模型:
(1)神經(jīng)詞袋模型,簡單對文本序列中每個(gè)詞嵌入進(jìn)行平均鲜锚,作為整個(gè)序列的表示突诬。這種方法的缺點(diǎn)是丟失了詞序信息。對于長文本烹棉,神經(jīng)詞袋模型比較有效攒霹。但是對于短文本怯疤,神經(jīng)詞袋模型很難捕獲語義組合信息浆洗。
(2)遞歸神經(jīng)網(wǎng)絡(luò),按照一個(gè)外部給定的拓?fù)浣Y(jié)構(gòu)(比如成分句法樹)集峦,不斷遞歸得到整個(gè)序列的表示伏社。遞歸神經(jīng)網(wǎng)絡(luò)的一個(gè)缺點(diǎn)是需要給定一個(gè)拓?fù)浣Y(jié)構(gòu)來確定詞和詞之間的依賴關(guān)系,因此限制其使用范圍塔淤。
(3)循環(huán)神經(jīng)網(wǎng)絡(luò)摘昌,將文本序列看作時(shí)間序列,不斷更新高蜂,最后得到整個(gè)序列的表示聪黎。但是簡單的循環(huán)神經(jīng)網(wǎng)絡(luò)存在長期依賴問題,不能有效利用長間隔的歷史信息备恤。
(4)卷積神經(jīng)網(wǎng)絡(luò)稿饰,通過多個(gè)卷積層和子采樣層锦秒,最終得到一個(gè)固定長度的向量。
?文章來源:www.xixi.ai(息息人工智能)