想象一下,你是一名技術(shù)人員鹤树,負(fù)責(zé)開(kāi)發(fā)一種軟件铣焊,用來(lái)完成兩種語(yǔ)言間的互譯。
你是否會(huì)想到詞典罕伯?認(rèn)為把詞典中的內(nèi)容輸入電腦里曲伊,各種語(yǔ)言的全部輸入,作為資料庫(kù)追他,如果有現(xiàn)成的互譯詞典就更好了熊昌。這也許是早期技術(shù)人員的想法。實(shí)際上這條道路走不通湿酸,檢索量太大婿屹,而且有的語(yǔ)言歧義太多。
現(xiàn)在技術(shù)人員使用新的方法推溃,在無(wú)需字典的情況下昂利,能實(shí)現(xiàn)語(yǔ)言之間的互譯。
這一技術(shù)的關(guān)鍵在于將詞語(yǔ)之間的語(yǔ)義關(guān)系轉(zhuǎn)化為幾何關(guān)系铁坎,通過(guò)對(duì)齊不同語(yǔ)言的幾何形狀蜂奸,從而在語(yǔ)言之間進(jìn)行翻譯。具體來(lái)說(shuō)硬萍,在一個(gè)語(yǔ)言空間中扩所,各個(gè)詞語(yǔ)之間具有一定的幾何關(guān)系。因此朴乖,可以利用兩個(gè)詞語(yǔ)(比如“父親”和“女兒”)在彼此附近出現(xiàn)的頻率祖屏,來(lái)準(zhǔn)確預(yù)測(cè)接下來(lái)會(huì)出現(xiàn)什么詞語(yǔ)助赞。換句話說(shuō),似乎有一種潛在的基本結(jié)構(gòu)將我們?nèi)祟惵?lián)系在一起袁勺。
我曾在《環(huán)球科學(xué)》上看過(guò)一篇文章雹食,上面說(shuō)具象與抽象間是緊密相連的。比如花的形象與花的概念都在腦中的一個(gè)小區(qū)域期丰,具象與抽象各在兩段群叶,中間是連續(xù)過(guò)度的。那么钝荡,想象一下街立,不管使用那種語(yǔ)言,他們眼睛所看到的花是一樣的埠通,這才是溝通的基礎(chǔ)几晤。
我還記得看過(guò)一篇關(guān)于人類語(yǔ)言的文章,說(shuō)人類的字母表(應(yīng)指發(fā)音而言)只出現(xiàn)了一次植阴,所有的民族共用一套字母表蟹瘾,只是選取了不同的片段。
其實(shí)也不難想象出這一點(diǎn)掠手,因?yàn)榛驕y(cè)序表明憾朴,現(xiàn)在的所有人類都是從非洲大裂谷走出來(lái)的,有一個(gè)共同的祖先喷鸽。那么众雷,就有可能使用一套字母表,即“有一種潛在的基本結(jié)構(gòu)將人類聯(lián)系在一起做祝±。”。
我相信混槐,最后將人們聯(lián)系在一起的编兄,就是科學(xué)技術(shù),尤其是這些大語(yǔ)言模型声登。語(yǔ)言所造成的障礙正在消除狠鸳,巴別塔是不是要建立起來(lái)呢?為什么不建立起來(lái)呢悯嗓?