自然語言不過是巨量規(guī)則的集合扎运,機器想要百分百理解自然語言,需要能夠獲取世界上所有的語料饮戳,也就是每一個字豪治,每個人發(fā)出的每一個聲音,才可能做到扯罐。
原因就是负拟,有些規(guī)則是一個特定的圈子里所使用的,而這之外就沒人能理解這一條規(guī)則歹河。
從語言類型上來說齿椅,東方把ren這個音節(jié)定義為“人”這一概念琉挖,這是一條規(guī)則,而這條規(guī)則西方并沒有涣脚。而西方把音節(jié)xjum?n定義為“human”這一概念,東方也沒有寥茫,相互就不可理解遣蚀。
但我們可以吸收他們的語料,來接受這一條規(guī)則纱耻,于是就理解了這一音節(jié)的意義芭梯。
從更小的范圍來說,可能有的人不知道“離心結構”在語言學里的意義弄喘,但可以解釋給他們玖喘,也就是讓他們認知這一條規(guī)則來是他們理解。
圈子有大有小蘑志,過去的圈子有詞“阿堵物”累奈,現(xiàn)在的圈子有“哦”,身邊的圈子有“你好”急但,遙遠的圈子有“bonjour”澎媒。如果不了解每一條規(guī)則,理解自然語言就無從談起波桩。
那要不戒努,我們就只研究共時的,現(xiàn)在的镐躲,一種自然語言储玫?規(guī)避考古和翻譯的困難。
問題仍然很大萤皂。典型的撒穷,機器應該怎么理解“哦”呢?我們可以給機器知道“哦”表示