在自然語言處理的任務(wù)當(dāng)中斥废,術(shù)語在相當(dāng)一部分中占有了優(yōu)化效果的作用饱亿。與優(yōu)化算法蚜退、語料清潔等等一樣闰靴,它能夠帶來的效果也會十分可觀,而且人們對由術(shù)語產(chǎn)生的提升察覺度也十分高钻注。下面針對NLP各個(gè)子任務(wù)進(jìn)行術(shù)語作用的闡述蚂且。
1.機(jī)器翻譯
a.譯后術(shù)語替換,提升翻譯質(zhì)量幅恋。
此舉措是個(gè)簡單粗暴但有效的方法杏死。但是確定其可行性,也是要求提取的術(shù)語滿足兩個(gè)前提:術(shù)語本身具有很高的穩(wěn)定性捆交,也就是說淑翼,某個(gè)術(shù)語只有一般來說一種對應(yīng)譯文。其次術(shù)語本身和其他詞匯有很高的分離度品追,在批量替換的時(shí)候玄括,不易"誤傷"。由于以上兩個(gè)特點(diǎn)肉瓦,批量的替換某個(gè)術(shù)語列表在譯文中的譯詞遭京,是有很高的操作性浮禾,并且會帶來極大的裨益吻贿。不過也要根據(jù)語料詞匯特點(diǎn)來分析菩收,確保避免重大的替換失誤章母。假如某小說中互拾,主人公的昵稱為“零”踱葛,如果選擇在譯文中用音譯版本“Ling”堪置,那么就要考慮出現(xiàn)零本意的情況下該如何處理殃饿。
b.訓(xùn)練機(jī)器模型饮寞,提高模型表現(xiàn)孝扛。
這一步也是會提升模型之后在某個(gè)垂直領(lǐng)域語料中的翻譯表現(xiàn)。往往會作為單獨(dú)或在訓(xùn)練模型中的配套步驟幽崩,用于針對某一類型語料的翻譯模型訓(xùn)練中苦始。而且可以和a步驟配套使用,就能低開銷地生成一批訓(xùn)練語料:首先將機(jī)翻譯文中的術(shù)語進(jìn)行替換慌申;然后進(jìn)行快速簡單陌选,但又能保證基本質(zhì)量的人工譯后編輯(成本控制),制做出一批訓(xùn)練語料蹄溉;將其投入訓(xùn)練引擎中咨油;制做或?qū)ふ易匀坏碾p語對照文本,作為測試集柒爵,檢測引擎質(zhì)量役电;以上步驟不斷優(yōu)化迭代。在迭代的過程中棉胀,處理的術(shù)語量每批次會越來越少法瑟,其數(shù)量會控制在人工可審核編輯的范圍中冀膝。
但是想要術(shù)語詞表在以上兩個(gè)步驟中發(fā)揮作用,是有一個(gè)邏輯上的悖論霎挟,想要在人工翻譯前進(jìn)行產(chǎn)生高質(zhì)量術(shù)語雙語列表窝剖,但是給術(shù)語詞表進(jìn)行翻譯本身就是一個(gè)需要人工耗時(shí)的工作。在這一步人工投入過多酥夭,會違背提升效率減少人工的初衷赐纱。那么如何在人工翻譯之前,產(chǎn)生針對目標(biāo)文本的雙(多)語對照術(shù)語表呢熬北?請見后續(xù)文章疙描,如何從無到有制作雙(多)語術(shù)語對照表。
2.文本分類
對于文本的分類蒜埋,很大意義上就是對于文中詞匯的類型檢測淫痰。如果我們有待分類的a、b整份、c...類型待错,且有對于每一種類型的術(shù)語表(詞表)。那么通過統(tǒng)計(jì)的方式烈评,依次計(jì)算每個(gè)術(shù)語表在各個(gè)待分類文本的分布情況火俄,得出一個(gè)此文本屬于某個(gè)分類概率,以此來預(yù)計(jì)出文本的分類讲冠。
3.知識圖譜(超出nlp領(lǐng)域)
知識圖譜本身其實(shí)是由術(shù)語(點(diǎn))及術(shù)語間的關(guān)系(線)瓜客,鉤織成的對于某一個(gè)領(lǐng)域“知識”的描述(網(wǎng))「涂可以說谱仪,在知識圖譜中,術(shù)語就是被描述的對象否彩,關(guān)系就是對其兩個(gè)術(shù)語(實(shí)體)進(jìn)行的串聯(lián)疯攒。通過這兩個(gè)類別的信息,我們對現(xiàn)實(shí)世界中無論抽象還是具象的事物進(jìn)行建模列荔。那術(shù)語在這其中的重要性自然不言而喻了敬尺。
建立某領(lǐng)域知識圖譜的第一步,就是獲得該領(lǐng)域的術(shù)語(實(shí)體)集合贴浙,且要高質(zhì)量的術(shù)語砂吞。一開始寧少勿濫,寧缺無多崎溃。從最關(guān)鍵的核心概念及其關(guān)系開始蜻直,逐步做加法,進(jìn)行拓展,從而逐步覆蓋期望的概念及關(guān)系范圍袭蝗。
4.其他NLP任務(wù)
在文本摘要唤殴、問答任務(wù)中般婆,也不難理解到腥,術(shù)語都是支撐起任務(wù)的錨點(diǎn)。摘要摘取核心信息蔚袍,也是也術(shù)語為基礎(chǔ)進(jìn)行摘取片段的判斷乡范。
問答任務(wù)當(dāng)中,回答的也是圍繞某個(gè)術(shù)語(關(guān)鍵詞)而拋出的問題啤咽,然后根據(jù)問題中其他情感詞等體現(xiàn)出的細(xì)節(jié)對其進(jìn)行回答晋辆。那么產(chǎn)生回答的過程當(dāng)中,術(shù)語也會起到作用宇整。最簡陋的定位回答的方式瓶佳,就是通過匹配問題與預(yù)先設(shè)定好的回答中的關(guān)鍵詞(術(shù)語),鎖定最符合問題的回答鳞青。
在這些任務(wù)中霸饲,實(shí)體也許并不都是術(shù)語,但是術(shù)語在很大程度上都會是實(shí)體臂拓,而且是實(shí)體中優(yōu)先級相對較高的部分厚脉。