主要原因是涉及到序列的東西都不好做。CV那邊搞視頻一樣頭疼結(jié)果上不去邢享。
而且另外一方面鹏往,個(gè)人理解cv目前做的東西更多的是extraction和generation,understanding的很多好骇塘,大量論文集中在前兩點(diǎn)伊履。如果設(shè)計(jì)understanding更多的是image caption和inpainting那些。
而且款违,個(gè)人理解understanding得到的東西必須是不能通過(guò)邊緣一步一步不全得到的(比如style-transfer在我看來(lái)更像step-by-step generation的過(guò)程)唐瀑。
CV的路線好在extraction和generation帶來(lái)的是優(yōu)質(zhì)的classification質(zhì)量和快速的應(yīng)用可能性,這就能代理工業(yè)界的重視和資金插爹。而NLP的任務(wù)因?yàn)楹茈y通過(guò)單純的extraction哄辣,而NLP的生成任務(wù)(NLG)本質(zhì)上也是離開understanding基本做不了東西请梢。
順便提一下,國(guó)內(nèi)NLP也在迅速發(fā)展力穗,可以關(guān)注一下學(xué)術(shù)范這個(gè)網(wǎng)站上的學(xué)者毅弧,和相關(guān)研究方向什么的:Nlp Indi Dharmayanti-學(xué)者概述 (xueshufan.com)
其實(shí),NLP和CV都已經(jīng)是很大的領(lǐng)域了当窗,很難總體上說(shuō)哪個(gè)更難够坐。NLP領(lǐng)域中也很多比較容易的問(wèn)題,CV領(lǐng)域也有很多很難的問(wèn)題超全。
直觀感受上咆霜,NLP在工業(yè)界應(yīng)用很少,不成熟嘶朱。但實(shí)際情況也并非如此蛾坯。比如拼音輸入法,幾乎每個(gè)人都在用吧疏遏,其背后就是NLP的統(tǒng)計(jì)語(yǔ)言模型脉课。每個(gè)大廠背后都有很多NLP的技術(shù)支撐。大廠對(duì)NLP工程師需求一點(diǎn)都不亞于CV工程師财异。
補(bǔ)充一下倘零,為什么感覺(jué)上NLP不成熟呢?主要有兩個(gè)原因:
1 預(yù)期太高戳寸。NLP的技術(shù)發(fā)展永遠(yuǎn)落后于人們對(duì)他的預(yù)期呈驶。人們對(duì)NLP的預(yù)期等同于對(duì)科幻片中對(duì)AI的預(yù)期。NLP技術(shù)的難度和人們理想中的NLP水平很不一樣疫鹊。比如人們會(huì)認(rèn)為實(shí)現(xiàn)類似SIRI的日常對(duì)話系統(tǒng)的難度低于專業(yè)領(lǐng)域的問(wèn)答系統(tǒng)袖瞻,但是實(shí)現(xiàn)難度可能剛好相反。
2 不能標(biāo)準(zhǔn)化拆吆。像語(yǔ)音識(shí)別聋迎、圖像識(shí)別可以是相對(duì)比較標(biāo)準(zhǔn)化,輸入和輸出特別明確枣耀。這種可以利用大數(shù)據(jù)的優(yōu)勢(shì)霉晕,通過(guò)機(jī)器學(xué)習(xí)算法相對(duì)容易。而NLP應(yīng)用的大部分場(chǎng)景都是非標(biāo)準(zhǔn)化的捞奕,輸入數(shù)據(jù)十分“dirty”牺堰,需要大量的預(yù)處理,輸出也和場(chǎng)景結(jié)合十分緊密颅围,沒(méi)有統(tǒng)一標(biāo)準(zhǔn)萌焰。比如NLP中就連最底層的分詞,也沒(méi)有統(tǒng)一的標(biāo)準(zhǔn)谷浅,不同場(chǎng)景對(duì)分詞的標(biāo)準(zhǔn)要求都不一樣扒俯。這樣就帶來(lái)一個(gè)問(wèn)題奶卓,NLP的大部分應(yīng)用場(chǎng)景都缺少足夠規(guī)模的標(biāo)注數(shù)據(jù),并且標(biāo)注成本也非常高撼玄。因此準(zhǔn)確率通常也不會(huì)很理想夺姑。 同樣道理,CV中涉及個(gè)性化的應(yīng)用場(chǎng)景其實(shí)也都非常難掌猛。
另外盏浙,感覺(jué)上NLP在工業(yè)界的應(yīng)用比較少,是因?yàn)榇蟛糠諲LP的應(yīng)用還都是在后臺(tái)荔茬,為搜索废膘、推薦等應(yīng)用作為一個(gè)技術(shù)支撐,前臺(tái)看不見(jiàn)而已慕蔚。