機器人開發(fā)

1.百度語音

簡介

百度語音識別通過 REST API 的方式給開發(fā)者提供一個通用的 HTTP 接口。上傳需要完整的錄音文件殴瘦,錄音文件時長不超過60s。REST API丰歌,均封裝了 Java屉凯、Python、PHP悠砚、C#、NodeJs、C++ 共6種開發(fā)語言的SDK绰筛。功能等同于REST API描融。SDK中識別使用JSON方式提交本地文件铝噩。

離線語音識別SDK目前只有iOS和Android窿克。對于Android SDK骏庸,離線語音識別包括離線命令詞和喚醒詞让歼。

  • 離線命令詞: 斷網(wǎng)時激活,只能識別預定義的短語谋右。聯(lián)網(wǎng)時,強制使用在線識別啸蜜。固定短語的語法需要在官網(wǎng)預定義并下載為baidu_speech_grammar.bsg文件
  • 喚醒詞:本地功能辈挂,不需要網(wǎng)絡。喚醒詞即識別“關鍵詞”终蒂,當SDK的識別引擎“聽到”錄音中的關鍵詞后,立即告知用戶拇泣。與android系統(tǒng)的鎖屏喚醒完全無關。關鍵詞和離線命令詞一樣睁蕾,需要預定義并下載為WakeUp.bin文件

iOS支持離在線并行識別债朵,但需要注意的是在線識別效果遠優(yōu)于離線識別子眶,不推薦使用離線識別序芦。

首次使用離線,SDK將會后臺下載離線授權文件渴杆,成功后射窒,授權文件有效期(三年)內無需聯(lián)網(wǎng)将塑。有效期即將結束后SDK將自動多次嘗試聯(lián)網(wǎng)更新證書)蝌麸。

費用

語音識別、合成服務免費敢辩,接口調用量無限。QPS識別默認為10戚长,合成為100

語種

支持普通話怠苔、粵語同廉、英語柑司、四川話

自定義詞庫

自定義詞庫適合短句,保證詞庫中一模一樣的短句可以被識別出蟆湖,詞庫中的分詞優(yōu)先級較高玻粪。 自定義詞庫僅對dev_pid = 1536隅津,即普通話(支持簡單的英文識別)生效劲室,并且原始音頻的采用率為16K。

最好在1萬行以內呢铆。

副作用:如果用戶的測試集中包含大量非自定義詞表的query,整體上準確率下降棺克。

注意事項

目前 API 僅支持整段語音識別的模式线定,即需要上傳完整語音文件進行識別。文件大小不超過10M斤讥,時長不超過60s湾趾。 語音數(shù)據(jù)上傳POST方式有2種:

1.JSON格式POST上傳本地文件

語音數(shù)據(jù)和其他參數(shù)通過標準 JSON 格式串行化 POST 上傳

2.raw格式POST上傳本地文件

即raw格式POST上傳本地文件語音數(shù)據(jù)直接放在 HTTP BODY 中派草,控制參數(shù)以及相關統(tǒng)計信息通過 header和url里參數(shù)傳遞。語音格式近迁,pcm 或者 wav 或者 amr。不區(qū)分大小寫歧譬,推薦使用pcm文件搏存。采樣率 16000瑰步, 固定值

2. Kaldi

Kaldi是一個開源的語音識別工具箱璧眠,基于C++編寫, 可以在Windows和unix平臺上編譯舌界。

特色

與文本無關的LVCSR系統(tǒng);
基于FST的訓練和解碼呻拌;
最大似然訓練睦焕;
各種各樣的線性和映射變換;
有VTLN垃喊,SAT的腳本

聲學模型

支持標準的機器學習訓練模型;
線性變換如:LDA初家,HLDA,MLLR溜在;
說話人自適應:fMLLR他托,MLLR掖肋;
支持GMM赏参,SGMMs沿盅,DNN

用到的庫

OpenFST: Weighted Finite State Transducer Library(加權有限狀態(tài)轉換器)
ATLAS纫溃、CLAPACK:標準的線性代數(shù)庫
sph2pipe:由sph文件轉換成其他音頻文件
irstlm:語言模型的工具箱
sctk:score benchmark(評價ASR基準)

中文語音語料庫

  1. AI SHELL公司開源178小時中文語音語料及基本訓練腳本,見kaldi-master/egs/aishell
  2. 清華大學30小時的數(shù)據(jù)集南窗,thchs30
  3. CVTE公司開源其訓練好的TDNN模型郎楼,http://kaldi-asr.org/models.html

實際效果

使用CVTE訓練好的SR模型做中文在線識別窒悔,困惑度(PPL)和字錯誤率(CER)
CVTE201701(1000 utts): ppl 340; cer: 4.55%
CVTE201703(10000 utts): ppl 313; cer: 4.5%
CVTE201705(5000 utts): ppl 200; cer: 15.7%
CVTE201705_02(7000 utts): ppl 1000+; cer: 5.58%
THCHS30(2496 utts): ppl 2000+; cer: 8.25%

3. 現(xiàn)有解決方案

  • 科訊嘉聯(lián)

  • 深世信息

  • 騰訊催收機器人CR

  • 靈聲音機器人

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市简珠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌膘融,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件氧映,死亡現(xiàn)場離奇詭異脱货,居然都是意外死亡,警方通過查閱死者的電腦和手機臼疫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門扣孟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人凤价,你說我怎么就攤上這事±担” “怎么了?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵格粪,是天一觀的道長。 經(jīng)常有香客問我帐萎,道長,這世上最難降的妖魔是什么赁项? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任澈段,我火速辦了婚禮,結果婚禮上败富,老公的妹妹穿的比我還像新娘。我一直安慰自己芬骄,他們只是感情好,可當我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布账阻。 她就那樣靜靜地躺著泽本,像睡著了一般。 火紅的嫁衣襯著肌膚如雪规丽。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天造成,我揣著相機與錄音雄嚣,去河邊找鬼。 笑死缓升,一個胖子當著我的面吹牛,可吹牛的內容都是我干的港谊。 我是一名探鬼主播,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼燥狰,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了龙致?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤屈梁,失蹤者是張志新(化名)和其女友劉穎榛了,沒想到半個月后在讶,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體霜大,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了湖笨。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蹦骑。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖眠菇,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情捎废,我是刑警寧澤,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布排截,位于F島的核電站辐益,受9級特大地震影響断傲,放射性物質發(fā)生泄漏智政。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一垦垂、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧乔外,春花似錦、人聲如沸杨幼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至找蜜,卻和暖如春稳析,著一層夾襖步出監(jiān)牢的瞬間洗做,已是汗流浹背彰居。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留畦徘,地道東北人。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓井辆,卻偏偏與公主長得像溶握,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子睡榆,可洞房花燭夜當晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內容