本文將使用PocketSphinx來實(shí)現(xiàn)Android平臺(tái)的離線語音識(shí)別
優(yōu)點(diǎn): 離線,不用聯(lián)網(wǎng) 識(shí)別較準(zhǔn)(大家都說99% ?我覺得只有80%)
缺點(diǎn): 自定義語音命令麻煩 ?只能小范圍識(shí)別?
網(wǎng)上看了很多例子 我跟你說 那都是坑 ?根本就是錯(cuò)誤的教程...
不廢話 開始教程:
1.先確定要識(shí)別的詞組
我的需求是實(shí)現(xiàn)離線識(shí)別 以下詞組
中文: ?向前 向后 向左 向右
英文: FORWARD BACKWARD TURNLEFT TURNRIGHT
(很多這樣的教程 好像基本沒教怎么識(shí)別英文來著...)
2.生成并修改lm和dic文件?
先生成中文的 新建一個(gè)txt文件 ?命名為 text.txt
并把 向前 向后 向左 向右這四個(gè)詞寫上去,然后保存..
如圖
注意很多文章都說這樣的格式 <s>向前</s>
這樣的格式 ?我只想跟你說 你被坑了... ?這樣做出來的語音識(shí)別demo是沒有任何識(shí)別反應(yīng)的 真害人..
打開這個(gè)鏈接? 在線轉(zhuǎn)換lm文件 ?, 點(diǎn)擊選擇文件選擇剛才的text.txt文件
然后點(diǎn)擊 COMPILE KNOWLEDGE BASE ?提交
然后分別打開這兩個(gè)文件 查看內(nèi)容 ? ?并分別復(fù)制內(nèi)容到新建的text.dic和text.lm文件里, 保存 ?(如果亂碼 請(qǐng)使用谷歌瀏覽器 或 修改瀏覽器顯示編碼)
例如 我的 text.dic文件文本內(nèi)容為:(我本來是寫向前 向后 向左 向右 現(xiàn)在你看 順序亂了 我不知道這樣的目的 我建議保留轉(zhuǎn)換后的順序 可能與優(yōu)先級(jí)有關(guān)吧)
向前
向右
向后
向左
而text.lm的內(nèi)容為
Language model created by QuickLM on Tue Nov 22 03:42:55 EST 2016
Copyright (c) 1996-2010 Carnegie Mellon University and Alexander I. Rudnicky
The model is in standard ARPA format, designed by Doug Paul while he was at MITRE.
The code that was used to produce this language model is available in Open Source.
Please visit http://www.speech.cs.cmu.edu/tools/ for more information
The (fixed) discount mass is 0.5. The backoffs are computed using the ratio method.
This model based on a corpus of 4 sentences and 6 words
\data\
ngram 1=6
ngram 2=8
ngram 3=4
\1-grams:
-0.7782 -0.3010
-0.7782 -0.2218
-1.3802 向前 -0.2218
-1.3802 向右 -0.2218
-1.3802 向后 -0.2218
-1.3802 向左 -0.2218
\2-grams:
-0.9031 向前 0.0000
-0.9031 向右 0.0000
-0.9031 向后 0.0000
-0.9031 向左 0.0000
-0.3010 向前 -0.3010
-0.3010 向右 -0.3010
-0.3010 向后 -0.3010
-0.3010 向左 -0.3010
\3-grams:
-0.3010 向前
-0.3010 向右
-0.3010 向后
-0.3010 向左
\end\
還有的說有什么UTF-8編碼問題? 我只想說 我沒遇到 我用的Sublime Text3文本編輯器? 你如果有問題 你換我這個(gè)文本編輯器試試
完成上面的然后 腦殘的一步來了? 手動(dòng)找字典(拼音)
哪里來的拼音字典? 先去這里下載一個(gè)壓縮文件
https://sourceforge.net/projects/cmusphinx/files/pocketsphinx/0.7/然后找到 pocketsphinx-0.7.tar.gz 點(diǎn)擊下載(下不動(dòng)用迅雷)
下載好后解壓
pocketsphinx-0.7\pocketsphinx-0.7\model\hmm\zh\tdt_sc_8k 為中文語言模型文件
pocketsphinx-0.7\model\lm\zh_CN\xxxx.dic為拼音讀音字典
同理
pocketsphinx-0.7\model\hmm\en_US\hub4wsj_sc_8k 為英文語言模型文件
pocketsphinx-0.7\model\lm\en_US\xxxx.dic 為英文讀音字典
你還會(huì)發(fā)現(xiàn)有臺(tái)灣的等等
我目錄的中文語言文件字典為mandarin_notone.dic ?打開 你會(huì)發(fā)現(xiàn)里面有很多文字對(duì)應(yīng)讀音(拼音)
這時(shí) 我們回到剛才的text.dic和text.lm文件? 打開text.dic文件
一個(gè)詞一個(gè)詞 在mandarin_notone.dic字典中快捷鍵查找? (詞找不到就單個(gè)字找)? 然后復(fù)制拼音到相應(yīng)的詞語右邊 注意拼音和詞語要至少留一個(gè)空格? 然后拼音和拼音之間也要留一個(gè)空格
編輯text.dic文件,我的找好了 如下:
向前 x iang q ian
向右 x iang y ou
向后 x iang h ou
向左 x iang z uo
好了 保存...
英文的也一樣步驟 ?字典的話,要從英文字典上查 ? 英文最好都大寫 并且多個(gè)單詞時(shí)最好不留空格
3.沒了(第一篇簡(jiǎn)書 ~ 就是這么草率...)
編寫安卓程序? ??
代碼太多 略.. 但我文章下面直接放demo
網(wǎng)上其他教程很多都是打開demo就閃退 其實(shí)原因是
你還要手動(dòng)復(fù)制模型和字典文件到sd卡上
我寫的這個(gè)demo也是基于它, ?但我解決了這個(gè)問題? 我把文件放在 assets里 ?并且我把模型文件和字典都整合放到一起了 ,如下
這樣? 就能自動(dòng)復(fù)制文件到臨時(shí)路徑? 并讓你們快速實(shí)現(xiàn)離線語音功能 程序員不需要擔(dān)心其他操作.
實(shí)際情況下那demo遺留了一個(gè) 嚴(yán)重的bug? 就是過100s左右會(huì)c庫(kù)異常閃退 這個(gè)問題我也解決了
還有個(gè) 文字不斷重復(fù) 和回調(diào)一直回調(diào)同一個(gè)識(shí)別答案這個(gè)問題也解決了...
我做了判斷 , 文件都放在data/data/com.packagename.xxx/file/下
并且根據(jù)手機(jī)語言切換識(shí)別中文還是英文...
publicRecognizerTask(Context context) {
String?dataPath?=?context.getFilesDir().getAbsolutePath();
File?zhPath?=newFile(dataPath?+"/voice/zh");
if(!zhPath.exists())?{
zhPath.mkdirs();
}
File?enPath?=newFile(dataPath?+"/voice/en");
if(!enPath.exists())?{
enPath.mkdirs();
}
pocketsphinx
.setLogfile(dataPath?+"/voice/pocketsphinx.log");
String?rootPath?=?isZh(context)???zhPath.getPath()?:?enPath.getPath();//根據(jù)環(huán)境選擇中英文識(shí)別
String?dicPath?=?rootPath?+"/text.dic";
String?imPath?=?rootPath?+"/text.lm";
if(!newFile(dicPath).exists())?{
releaseAssets(context,"/",?dataPath);
}
Config?c?=newConfig();
c.setString("-hmm",?rootPath);
c.setString("-dict",?dicPath);
c.setString("-lm",?imPath);
c.setFloat("-samprate",8000.0);
c.setInt("-maxhmmpf",2000);
c.setInt("-maxwpf",10);
c.setInt("-pl_window",2);
c.setBoolean("-backtrace",true);
c.setBoolean("-bestpath",false);
this.ps?=newDecoder(c);
this.audio?=null;
this.audioq?=newLinkedBlockingQueue();
this.use_partials?=false;
this.mailbox?=?Event.NONE;
}
代碼很簡(jiǎn)單的 ?放Demo吧
我去, 怎么簡(jiǎn)書沒代碼高亮提示 ?還有怎么上傳資源... 知道的說下.. 我只能傳CSND的了
~~~~~點(diǎn)我下載~~~~~