官方聲明中车荔,輸出的LM文件采用的是ARPA format漩仙。大概的文件內(nèi)容格式如下兩個(gè)圖片所示踊兜。
image.png
image.png
那么這個(gè)格式的數(shù)據(jù)是什么樣的含義呢?
根據(jù)官方文件的解讀芭碍,第一個(gè)部分的\data\中表示的是在訓(xùn)練文本集中不同類別的各階統(tǒng)計(jì)量的個(gè)數(shù)徒役。\n-grams: 后面,每個(gè)n-gram隔行來表示豁跑,第一列代表了取對數(shù)之后的概率廉涕,第二列代表了真實(shí)的n-gram,第三列則是回退系數(shù)艇拍,backoff weight(bow)狐蜕。具體如下圖所示。
image.png