1.百度語音
簡介
百度語音識別通過 REST API 的方式給開發(fā)者提供一個通用的 HTTP 接口。上傳需要完整的錄音文件殴瘦,錄音文件時長不超過60s。REST API丰歌,均封裝了 Java屉凯、Python、PHP悠砚、C#、NodeJs、C++ 共6種開發(fā)語言的SDK绰筛。功能等同于REST API描融。SDK中識別使用JSON方式提交本地文件铝噩。
離線語音識別SDK目前只有iOS和Android窿克。對于Android SDK骏庸,離線語音識別包括離線命令詞和喚醒詞让歼。
- 離線命令詞: 斷網(wǎng)時激活,只能識別預定義的短語谋右。聯(lián)網(wǎng)時,強制使用在線識別啸蜜。固定短語的語法需要在官網(wǎng)預定義并下載為baidu_speech_grammar.bsg文件
- 喚醒詞:本地功能辈挂,不需要網(wǎng)絡。喚醒詞即識別“關鍵詞”终蒂,當SDK的識別引擎“聽到”錄音中的關鍵詞后,立即告知用戶拇泣。與android系統(tǒng)的鎖屏喚醒完全無關。關鍵詞和離線命令詞一樣睁蕾,需要預定義并下載為WakeUp.bin文件
iOS支持離在線并行識別债朵,但需要注意的是在線識別效果遠優(yōu)于離線識別子眶,不推薦使用離線識別序芦。
首次使用離線,SDK將會后臺下載離線授權文件渴杆,成功后射窒,授權文件有效期(三年)內無需聯(lián)網(wǎng)将塑。有效期即將結束后SDK將自動多次嘗試聯(lián)網(wǎng)更新證書)蝌麸。
費用
語音識別、合成服務免費敢辩,接口調用量無限。QPS識別默認為10戚长,合成為100
語種
支持普通話怠苔、粵語同廉、英語柑司、四川話
自定義詞庫
自定義詞庫適合短句,保證詞庫中一模一樣的短句可以被識別出蟆湖,詞庫中的分詞優(yōu)先級較高玻粪。 自定義詞庫僅對dev_pid = 1536隅津,即普通話(支持簡單的英文識別)生效劲室,并且原始音頻的采用率為16K。
最好在1萬行以內呢铆。
副作用:如果用戶的測試集中包含大量非自定義詞表的query,整體上準確率下降棺克。
注意事項
目前 API 僅支持整段語音識別的模式线定,即需要上傳完整語音文件進行識別。文件大小不超過10M斤讥,時長不超過60s湾趾。 語音數(shù)據(jù)上傳POST方式有2種:
1.JSON格式POST上傳本地文件
語音數(shù)據(jù)和其他參數(shù)通過標準 JSON 格式串行化 POST 上傳
2.raw格式POST上傳本地文件
即raw格式POST上傳本地文件語音數(shù)據(jù)直接放在 HTTP BODY 中派草,控制參數(shù)以及相關統(tǒng)計信息通過 header和url里參數(shù)傳遞。語音格式近迁,pcm 或者 wav 或者 amr。不區(qū)分大小寫歧譬,推薦使用pcm文件搏存。采樣率 16000瑰步, 固定值
2. Kaldi
Kaldi是一個開源的語音識別工具箱璧眠,基于C++編寫, 可以在Windows和unix平臺上編譯舌界。
特色
與文本無關的LVCSR系統(tǒng);
基于FST的訓練和解碼呻拌;
最大似然訓練睦焕;
各種各樣的線性和映射變換;
有VTLN垃喊,SAT的腳本
聲學模型
支持標準的機器學習訓練模型;
線性變換如:LDA初家,HLDA,MLLR溜在;
說話人自適應:fMLLR他托,MLLR掖肋;
支持GMM赏参,SGMMs沿盅,DNN
用到的庫
OpenFST: Weighted Finite State Transducer Library(加權有限狀態(tài)轉換器)
ATLAS纫溃、CLAPACK:標準的線性代數(shù)庫
sph2pipe:由sph文件轉換成其他音頻文件
irstlm:語言模型的工具箱
sctk:score benchmark(評價ASR基準)
中文語音語料庫
- AI SHELL公司開源178小時中文語音語料及基本訓練腳本,見kaldi-master/egs/aishell
- 清華大學30小時的數(shù)據(jù)集南窗,thchs30
- CVTE公司開源其訓練好的TDNN模型郎楼,http://kaldi-asr.org/models.html
實際效果
使用CVTE訓練好的SR模型做中文在線識別窒悔,困惑度(PPL)和字錯誤率(CER)
CVTE201701(1000 utts): ppl 340; cer: 4.55%
CVTE201703(10000 utts): ppl 313; cer: 4.5%
CVTE201705(5000 utts): ppl 200; cer: 15.7%
CVTE201705_02(7000 utts): ppl 1000+; cer: 5.58%
THCHS30(2496 utts): ppl 2000+; cer: 8.25%
3. 現(xiàn)有解決方案
-
科訊嘉聯(lián)
-
深世信息
-
騰訊催收機器人CR
-
靈聲音機器人