昨晚仲智,錘子科技老羅用 Big bang 爆破「南京市長江大橋」等歧義語句引爆全場,作為一個完全的外行人锈死,我對其中所謂「自然語言處理」也有些想法。畢竟穆壕,語言不是專利待牵,任何使用的人都應(yīng)該有發(fā)言權(quán)。
其實我要說的也不多喇勋,就有一個疑問:要是哪天南京就出了個市長叫江大橋呢缨该?我不是錘子用戶,也并不知道 Big Bang 有沒有修改被炸詞匯的功能(演示上看像是沒有)川背,如果沒有贰拿,驚喜之外是不是也抹殺了部分中文語言的創(chuàng)造性蛤袒。
我自己的感覺是,在處理中文斷句歧義的時候壮不,并沒有一套所謂自然語言的通用法則汗盘,容錯性更高的處理方式應(yīng)該是大數(shù)據(jù)檢索 + 語義結(jié)構(gòu)識別。上述文字询一,單純從語義文字上識別確實至少有兩個結(jié)果:「南京」「市長」「江大橋」與「南京市」「長江大橋」隐孽。使用大數(shù)據(jù)檢索的方式,便可以得出將后者作為推薦答案的結(jié)果健蕊。而我會希望獲得一項改進菱阵,將推薦答案作為默認答案,同時提供備選答案及便捷的可修改方式缩功。
斷句歧義有時候更多的是使用者沒有采用一般形式或有意為之
斷句歧義有時候更多的是使用者沒有采用一般形式或有意為之晴及,前者基于一種主流的環(huán)境背景,而環(huán)境是會改變的嫡锌,比如江大橋當了市長虑稼,長江大橋被拆除廢名;后者势木,怎么說……我覺得這也是中文語言的一種魅力蛛倦。