模型下載地址:http://kaldi-asr.org/models/0002_cvte_chain_model.tar.gz
解壓放到kaldi-trunk/egs下即可欺税,打開終端此叠,鏈接steps和untils(這里改為自己的路徑):
ln -s ~/kaldi-master/egs/wsj/s5/steps ~/kaldi-master/egs/cvte/s5/steps
ln -s ~/kaldi-master/egs/wsj/s5/utils ~/kaldi-master/egs/cvte/s5/utils
識別效果如下:
效果還是不錯的颊埃,而且這10個測試的語音文件口音是相當?shù)闹匕 ?/p>
為了更直觀的看對比效果价脾,我把thchs30例子中的10個句子拿過來進行識別牧抵,效果如下:
下圖是thchs30的DNN識別結(jié)果:
源文件:
對比下來,cvte開源的模型要比thchs30的dnn識別的更好一些侨把,可惜的是cvte只開源了訓練好的模型犀变,即一個final.mdl和一個有限狀態(tài)機即HCLG.fst,它的語音庫和詳細的配置文件秋柄,操作步驟暫時還不知道获枝,準備下一步先把在線搭起來吧,然后再嘗試RNN模型骇笔,RNN模型kaldi中是有的省店,把tensorflow的給集成過來了机隙,是用在nnet3基礎(chǔ)上的,但是怎么用我還不清楚萨西,總而言之有鹿,不管啥模型,一切以識別效果為主導吧谎脯!
這里再貼一些語音雜談中關(guān)于cvte的建議和文件:
語音雜談:本著促進語音研究的共同進步原則葱跋,我們CVTE小組也將相關(guān)文件公布給大家。
采用這些新提供的文件源梭,大家可以做更多的研究:
1)替換掉CVTE提供的語言模型娱俺,生成自己的HCLG.FST;
2)利用自己的場景數(shù)據(jù)废麻,可在chain model上進行finetune荠卷;
3)提示:請大家不要整個文件夾下載,節(jié)約帶寬烛愧;若事先有下載HCLG.FST等油宜,可以不用重復下載這個文件;
地址:https://drive.cvte.com/p/DU7d7uEQvAIYrUE
此外怜姿,后臺需要ppt資料:鏈接:http://pan.baidu.com/s/1gfjBbPL 密碼:2b34慎冤。
總之,很感謝kaldi官網(wǎng)沧卢,kaldi群里的小伙伴蚁堤,即群主和管理員們的博客,以及語音雜談的公眾號但狭,都是干貨披诗!