在VS2015中編譯試用pocketsphinx

一揉忘、下載,編譯

從官網(wǎng)下載sphinxbase画舌、pocketsphinx
https://cmusphinx.github.io/wiki/download/

將sphinxbase源碼包解壓縮辕近,直接雙擊sphinxbase.sln打開解決方案欢伏。只需要編譯sphinxbase一個項目就可以了

將pocketsphinx源碼包解壓縮,直接雙擊pocketsphinx.sln打開項目嚣州。要注意讓sphinxbase鲫售、pocketsphinx的項目目錄在一起,這樣pocketsphinx可以引用到sphinxbase的頭文件和庫文件该肴。編譯pocketsphinx_continuous項目情竹。

注意,要將sphinxbase生成的sphinxbase.dll拷貝一份到pocketsphinx的bin\Debug\Win32下面匀哄。因為這個目錄下有一個已經(jīng)編譯好的sphinxbase.dll秦效,但是是用VS2012編譯的,需要依賴MSVCR110D.DLL涎嚼。

二涩笤、生成自己的關(guān)鍵字字庫

新建關(guān)鍵字文件keyword.txt,輸入若干關(guān)鍵詞贤壁,每行一個關(guān)鍵詞侄刽。注意這個關(guān)鍵字文件要求utf-8編碼,無BOM頭鹊汛,\n換行蒲赂,因此最好在Linux下面編輯。用UE等高級編輯器也可以刁憋。

使用在線lm工具
http://www.speech.cs.cmu.edu/tools/lmtool-new.html

將keyword.txt上傳上去滥嘴,會生成一堆.dic .lm .vocab等文件。直接下載.tgz的整合文件至耻,解壓縮若皱,里面有用的只有.dic和.lm文件镊叁。由于lmtool不識別中文,因此.dic文件是空的走触。需要自己手動添加注音

到官網(wǎng)下載普通話的完整hmm模型 zh_broadcastnews_16k_ptm256_8000.tar.bz2 和完整的字典 zh_broadcastnews_utf8.dic
https://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/Mandarin/

參照完整的字典 zh_broadcastnews_utf8.dic晦譬,對lmtool生成的.dic文件進行注音,例如

哈密瓜 h a m i g ua

有些名詞zh_broadcastnews_utf8.dic里面沒有互广,需要自己一個個字拼起來敛腌,例如山竹沒有,但是有山和竹的拼音

北山 b ei sh an
成竹 ch eng zh u


山竹 sh an zh u

拼音還是比較好辦的

三惫皱、運行測試

到命令行下像樊,進入pocketsphinx\bin\Debug\Win32目錄。把上面生成的.lm文件和自己編輯的.dic文件拷貝過來旅敷,把zh_broadcastnews_ptm256_8000整個解壓縮后的目錄拷貝過來生棍。運行命令
pocketsphinx_continuous -inmic yes -hmm zh_broadcastnews_ptm256_8000 -lm 1687.lm -dict 1687.dic

由于dict文件是utf-8編碼的,因此pocketsphinx_continuous顯示中文會亂碼媳谁。解決辦法參考
https://blog.csdn.net/itas109/article/details/78999477

recognize_from_microphone()函數(shù)中修改為

        hyp = ps_get_hyp(ps, NULL );
        if (hyp != NULL) {
            std::string str = UTF8_To_string(hyp);
            printf("%s\n", str.c_str());
            fflush(stdout);
        }

四涂滴、問題
在測試中發(fā)現(xiàn),使用zh_broadcastnews_ptm256_8000的模型識別速度很慢晴音,說完話半天才開始識別柔纵。網(wǎng)上其他文章提到使用的模型是tdt_sc_8k。這個tdt_sc_8k是附帶在pocketsphinx-0.8版本之中的段多,最新版的5prealpha中已經(jīng)刪掉了首量,只剩下一個英文的模型。換成tdt_sc_8k模型以后进苍,識別速度快很多了加缘,但是誤識別問題還是比較嚴重的,就是會把一些不相干的語音識別成字典中的詞語觉啊。

參考
https://blog.csdn.net/itas109/article/details/78999477
https://www.cnblogs.com/yin52133/archive/2012/07/12/2588201.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拣宏,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子杠人,更是在濱河造成了極大的恐慌勋乾,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,110評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件嗡善,死亡現(xiàn)場離奇詭異辑莫,居然都是意外死亡,警方通過查閱死者的電腦和手機罩引,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評論 3 395
  • 文/潘曉璐 我一進店門各吨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人袁铐,你說我怎么就攤上這事揭蜒『峄耄” “怎么了?”我有些...
    開封第一講書人閱讀 165,474評論 0 356
  • 文/不壞的土叔 我叫張陵屉更,是天一觀的道長徙融。 經(jīng)常有香客問我,道長瑰谜,這世上最難降的妖魔是什么欺冀? 我笑而不...
    開封第一講書人閱讀 58,881評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮似舵,結(jié)果婚禮上脚猾,老公的妹妹穿的比我還像新娘葱峡。我一直安慰自己砚哗,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,902評論 6 392
  • 文/花漫 我一把揭開白布砰奕。 她就那樣靜靜地躺著蛛芥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪军援。 梳的紋絲不亂的頭發(fā)上仅淑,一...
    開封第一講書人閱讀 51,698評論 1 305
  • 那天,我揣著相機與錄音胸哥,去河邊找鬼涯竟。 笑死,一個胖子當(dāng)著我的面吹牛空厌,可吹牛的內(nèi)容都是我干的庐船。 我是一名探鬼主播,決...
    沈念sama閱讀 40,418評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼嘲更,長吁一口氣:“原來是場噩夢啊……” “哼筐钟!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起赋朦,我...
    開封第一講書人閱讀 39,332評論 0 276
  • 序言:老撾萬榮一對情侶失蹤篓冲,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后宠哄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體壹将,經(jīng)...
    沈念sama閱讀 45,796評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,968評論 3 337
  • 正文 我和宋清朗相戀三年毛嫉,在試婚紗的時候發(fā)現(xiàn)自己被綠了诽俯。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,110評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡狱庇,死狀恐怖惊畏,靈堂內(nèi)的尸體忽然破棺而出恶耽,到底是詐尸還是另有隱情,我是刑警寧澤颜启,帶...
    沈念sama閱讀 35,792評論 5 346
  • 正文 年R本政府宣布偷俭,位于F島的核電站,受9級特大地震影響缰盏,放射性物質(zhì)發(fā)生泄漏涌萤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,455評論 3 331
  • 文/蒙蒙 一口猜、第九天 我趴在偏房一處隱蔽的房頂上張望负溪。 院中可真熱鬧,春花似錦济炎、人聲如沸川抡。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽崖堤。三九已至,卻和暖如春耐床,著一層夾襖步出監(jiān)牢的瞬間密幔,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評論 1 272
  • 我被黑心中介騙來泰國打工撩轰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留胯甩,地道東北人。 一個月前我還...
    沈念sama閱讀 48,348評論 3 373
  • 正文 我出身青樓堪嫂,卻偏偏與公主長得像偎箫,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子溉苛,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,047評論 2 355

推薦閱讀更多精彩內(nèi)容