說實(shí)話:中文自然語(yǔ)言處理(知識(shí)圖譜)的N個(gè)真實(shí)情況
中文自然語(yǔ)言處理攻旦,目前在AI泡沫之下漾唉,真假難辨馏段,實(shí)戰(zhàn)技術(shù)與PPT技術(shù)往往存在著很大的差異稳其。目前關(guān)于AI或者自然語(yǔ)言處理,做的人與講的人往往是兩回事耕驰。
1爷辱、深度學(xué)習(xí)在自然語(yǔ)言處理當(dāng)中,除了在分類問題上能夠取得較好效果外(如單選問題:情感分類朦肘、文本分類涩搓、正確答案分類問題等)单匣,在信息抽取上,尤其是在元組抽取上基本上是一塌糊涂,在工業(yè)場(chǎng)景下很難達(dá)到實(shí)用水準(zhǔn)贬媒。
2密强、目前各種評(píng)測(cè)集大多是人為標(biāo)注的短蜕,人為標(biāo)注的大多為干凈環(huán)境下的較為規(guī)范的文本凶伙,而且省略了真實(shí)生產(chǎn)環(huán)節(jié)中的多個(gè)環(huán)節(jié)。在評(píng)測(cè)環(huán)節(jié)中達(dá)到的諸多state-of-art方法苍匆,在真實(shí)應(yīng)用場(chǎng)景下泛化能力很差刘急,大多僅僅是為了刷榜而刷榜。
3浸踩、目前關(guān)于知識(shí)圖譜的構(gòu)建環(huán)節(jié)中叔汁,數(shù)據(jù)大多數(shù)都還是來自于結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化信息抽取次之,非結(jié)構(gòu)化數(shù)據(jù)抽取最少攻柠。半結(jié)構(gòu)化信息抽取,即表格信息抽取最為危險(xiǎn)后裸,一個(gè)單元格錯(cuò)誤很有可能導(dǎo)致所有數(shù)據(jù)都出現(xiàn)錯(cuò)誤瑰钮。非結(jié)構(gòu)化抽取中,實(shí)體識(shí)別和實(shí)體關(guān)系識(shí)別難度相當(dāng)大微驶。
4浪谴、工業(yè)場(chǎng)景下命名實(shí)體識(shí)別,標(biāo)配的BILSTM+CRF實(shí)際上只是輔助手段因苹,工業(yè)界還是以領(lǐng)域?qū)嶓w字典匹配為主苟耻,大廠中往往在后者有很大的用戶日志,這種日志包括大量的實(shí)體信息扶檐。因此凶杖,生產(chǎn)環(huán)節(jié)中的實(shí)體識(shí)別工作中,基礎(chǔ)性詞性的構(gòu)建和擴(kuò)展工作顯得尤為重要款筑。
5智蝠、目前關(guān)于知識(shí)圖譜推理問題,嚴(yán)格意義上不屬于推理的范疇奈梳,最多只能相當(dāng)于是知識(shí)補(bǔ)全問題杈湾,如評(píng)測(cè)中的知識(shí)推理任務(wù),是三元組補(bǔ)全問題攘须。
6漆撞、目前輿情分析還是處于初級(jí)階段。目前輿情分析還停留在以表層計(jì)量為主于宙,配以淺層句子級(jí)情感分析和主題挖掘技術(shù)的分析浮驳。對(duì)于深層次事件演化以及對(duì)象級(jí)情感分析依舊還處于初級(jí)階段。
7限煞、Bert本質(zhì)上僅僅是個(gè)編碼器抹恳,是word2vec的升級(jí)版而已,不是無所不能署驻,僅僅是編碼能力強(qiáng)奋献,向量表示上語(yǔ)義更為豐富,然而大多人都裝糊涂旺上。
8瓶蚂、學(xué)界和業(yè)界最大的區(qū)別在于,學(xué)界以探索前沿為目的宣吱,提新概念窃这,然后搭個(gè)草圖就結(jié)束,目光并不長(zhǎng)遠(yuǎn)征候,打完這一戰(zhàn)就不知道下一戰(zhàn)打什么杭攻,下一戰(zhàn)該去哪里打祟敛,什么時(shí)候打,或者打一槍換個(gè)陣地再打兆解。而業(yè)界馆铁,往往面臨著生存問題,需要考慮實(shí)際問題锅睛,還是以解決實(shí)際問題為主埠巨,因此沒必要把學(xué)界的那一套理念融入到生產(chǎn)環(huán)節(jié)中,要根據(jù)實(shí)際情況制定自己的方法现拒。
9辣垒、利用結(jié)構(gòu)化數(shù)據(jù),尤其是百科類infobox數(shù)據(jù)印蔬,采集下來勋桶,存入到Neo4j圖數(shù)據(jù)庫(kù)中,就稱自己建立了知識(shí)圖譜的做法是偽知識(shí)圖譜做法侥猬。 基于這類知識(shí)圖譜哥遮,再搞個(gè)簡(jiǎn)單的問答系統(tǒng),就標(biāo)榜自己是基于知識(shí)圖譜的智能問答陵究,實(shí)際上很膚淺眠饮。
10、知識(shí)圖譜不是結(jié)構(gòu)化知識(shí)的可視化(不是兩個(gè)點(diǎn)幾條邊)那么簡(jiǎn)單铜邮,那叫知識(shí)的可視化仪召,不是知識(shí)圖譜。知識(shí)圖譜的核心在于知識(shí)的圖譜化松蒜,特點(diǎn)在于知識(shí)的表示方法和圖譜存儲(chǔ)結(jié)構(gòu)扔茅,前者決定了知識(shí)的抽象表示維度,后者決定了知識(shí)運(yùn)行的可行性秸苗,圖算法(圖遍歷召娜、聯(lián)通圖、最短路徑)惊楼【寥常基于圖譜存儲(chǔ)結(jié)構(gòu),進(jìn)行知識(shí)的游走檀咙,進(jìn)行知識(shí)表征和未知知識(shí)的預(yù)測(cè)雅倒。
11、物以希為貴弧可,大家都能獲取到的知識(shí)蔑匣,往往價(jià)值都很低。知識(shí)圖譜也是這樣,只有做專門性的具有數(shù)據(jù)壁壘的知識(shí)圖譜裁良,才能帶來商業(yè)價(jià)值凿将。
12、目前智能問答价脾,大多都是人工智障丸相,通用型的閑聊型問答大多是個(gè)智障,多輪對(duì)話缺失彼棍,答非所問等問題層出不窮。垂直性的問答才是出路膳算,但真正用心做的太少座硕,大多都是處于demo級(jí)別。
13涕蜂、大多數(shù)微信自然語(yǔ)言處理軟文實(shí)際上都不可不看华匾,純屬浪費(fèi)時(shí)間。尤其是在對(duì)內(nèi)容的分析上机隙,大多是抓語(yǔ)料蜘拉,調(diào)包統(tǒng)計(jì)詞頻,提取關(guān)鍵詞有鹿,調(diào)包情感分析旭旭,做柱狀圖,做折線圖葱跋,做主題詞云持寄,分析方法上千篇一律。應(yīng)該從根本上去做方法上的創(chuàng)新娱俺,這樣才能有營(yíng)養(yǎng)稍味,從根本上來說才能有營(yíng)養(yǎng)可言。文本分析應(yīng)該從淺層分析走向深層分析荠卷,更好地挖掘文本的語(yǔ)義信息模庐。
14、目前百科類知識(shí)圖譜的構(gòu)建工作有很多油宜,重復(fù)性的工作不少掂碱。基于開放類百科知識(shí)圖譜的數(shù)據(jù)獲取接口有復(fù)旦等開放出來慎冤,可以應(yīng)用到基本的概念下實(shí)體查詢顶吮,實(shí)體屬性查詢等,但目前僅僅只能做到一度粪薛。
15悴了、基于知識(shí)圖譜的問答目前的難點(diǎn)在于兩個(gè)方面,1)多度也稱為多跳問題,如姚明的老婆是誰(shuí)湃交,可以走14條回答熟空,但姚明的老婆的女兒是誰(shuí)則回答不出來,這種本質(zhì)上是實(shí)體與屬性以及實(shí)體與實(shí)體關(guān)系的分類問題搞莺。2)多輪問答問題息罗。多輪分成兩種,一種是指代補(bǔ)全問答才沧, 如前一句問北京的天氣迈喉,后者省略“的天氣”這一詞,而只說“北京”温圆,這個(gè)需要進(jìn)行意圖判定并準(zhǔn)確加載相應(yīng)的問答槽挨摸。另一種是追問式多輪問答,典型的在天氣查詢或者酒店預(yù)訂等垂直性問答任務(wù)上岁歉。大家要抓住這兩個(gè)方面去做得运。
16、關(guān)系挖掘是信息抽取的重要里程碑锅移,理解了實(shí)體與實(shí)體熔掺、實(shí)體與屬性、屬性與屬性非剃、實(shí)體與事件置逻、事件與事件的關(guān)系是解決真正語(yǔ)義理解的基礎(chǔ),但目前备绽,這方面诽偷,在工業(yè)界實(shí)際運(yùn)用中,特定領(lǐng)域中模板的性能要比深度學(xué)習(xí)多得多疯坤,學(xué)界大多采用端到端模型進(jìn)行實(shí)驗(yàn)报慕,在這方面還難以超越模版性能。