wordNet
wordNet 是普林斯頓大學(xué)開(kāi)發(fā)的英語(yǔ)語(yǔ)料庫(kù)隧甚,可以理解為就是一個(gè)詞典,在python中的nltk.corpus可以直接獲得,它良好的組織結(jié)構(gòu)使得它在nlp中可以幫助我們更好的理解語(yǔ)義。
最基本的來(lái)說(shuō),wordNet 通過(guò)網(wǎng)狀結(jié)構(gòu)來(lái)組織詞匯座柱,將含義相近的詞匯劃分到一個(gè)組中。在這個(gè)網(wǎng)狀結(jié)構(gòu)之中物舒,詞匯與詞匯之間的主要通過(guò)同義詞連接在一起而形成了含義基本一致的group色洞,稱為synsets,也就是同義詞形成的集合茶鉴。
不同的synset之間的連接是通過(guò)conceptual relation連接到一起的锋玲。conceptual relation 實(shí)際上包含了很多種關(guān)系
- 不同的synset通過(guò)上位詞和下位詞關(guān)系連接到一起。比如 “樹(shù)”可以和它的下位詞“柳樹(shù)”連接到一起涵叮,“柳樹(shù)”可以連接它的下位詞“垂柳”....惭蹂, 還可以是部分和整體的關(guān)系
- 動(dòng)詞之間可以通過(guò)某方面的層層遞進(jìn)連接到一起,比如 communicate-talk-whisper割粮,通過(guò)音量的大小順序連接盾碗,move-jog-run 通過(guò)移動(dòng)的快慢順序連接
- 動(dòng)詞之間也可以通過(guò)相互關(guān)聯(lián)的動(dòng)作連接在一起,比如 buy-pay success-try 雖然不是同義詞舀瓢,但是會(huì)經(jīng)常同時(shí)發(fā)生廷雅,因此連接在一起,這里就會(huì)包含了 因果關(guān)系京髓,蘊(yùn)含關(guān)系等
- 形容詞之間會(huì)將反義詞進(jìn)行連接航缀,如 wet-dry young-old 等,同時(shí)也會(huì)和它含義相似堰怨,但又不完全同義的詞匯連接在一起
- 副詞大多數(shù)的含義和它相應(yīng)的形容詞含義相同
- 詞根相同的不同形態(tài)詞之間會(huì)被連接到一起芥玉,如 observe (verb), observant (adjective) observation, observatory (nouns),在名詞和動(dòng)詞構(gòu)成的詞對(duì)兒中备图,我們已經(jīng)能夠獲得該名詞相對(duì)于動(dòng)詞的具體含義了灿巧,比如 sleeping_car 是 sleep 的 LOCATION
這樣的多種關(guān)系,構(gòu)成了WordNet 網(wǎng)狀結(jié)構(gòu)