語(yǔ)音方案比對(duì)介紹
語(yǔ)音交互是現(xiàn)今應(yīng)用最多的智能交互方式决乎,在人工智能越來(lái)越火的當(dāng)下應(yīng)用十分廣泛,所以特別針對(duì)車內(nèi)環(huán)境佃迄,在駕駛員安心駕駛的時(shí)候泼差,用語(yǔ)音可以安全的進(jìn)行操控,所以針對(duì)公司的車聯(lián)網(wǎng)的業(yè)務(wù)需求呵俏,我做了一個(gè)語(yǔ)音方案的研究和比對(duì)堆缘。
語(yǔ)音需求
整體來(lái)說(shuō)語(yǔ)音需求,選擇的語(yǔ)音方案至少要滿足語(yǔ)音喚醒普碎,語(yǔ)音合成吼肥,語(yǔ)義解析三大基礎(chǔ)功能
- 語(yǔ)音喚醒: 能夠通過(guò)喚醒詞,喚醒語(yǔ)音助手麻车,進(jìn)行后續(xù)用戶語(yǔ)義的識(shí)別缀皱,免去手動(dòng)點(diǎn)擊喚醒的操作
- 語(yǔ)音合成: 俗稱TTS(Text To Speech),支持將文本轉(zhuǎn)換成語(yǔ)音播報(bào)出來(lái)
-
語(yǔ)義解析: 支持將用戶輸入的語(yǔ)音绪氛,轉(zhuǎn)換成文本唆鸡,并進(jìn)行相應(yīng)的分析涝影,定位到相應(yīng)的場(chǎng)景枣察,關(guān)鍵字 返回結(jié)果幫助我們定位到用戶需求。
例如:"導(dǎo)航到深圳北站"燃逻,除了解析語(yǔ)音返回整句文本之外序目,還需要定位到這是地圖場(chǎng)景,關(guān)鍵字是POI點(diǎn)深圳北站
語(yǔ)音方案
現(xiàn)今市面上比較常用的語(yǔ)音方案有:騰訊云語(yǔ)音伯襟,訊飛語(yǔ)音猿涨,百度語(yǔ)音,思必馳姆怪,云知聲叛赚,同行者澡绩,搜狗語(yǔ)音云
- 同行者并不同于其他只做語(yǔ)音方案,它提供的更多的是智能設(shè)備的整套系統(tǒng)方案俺附,有對(duì)外開(kāi)放SDK肥卡,但需要走商務(wù)渠道才能試用
- 思必馳 主要針對(duì)場(chǎng)景進(jìn)行制定化開(kāi)發(fā),無(wú)對(duì)外開(kāi)放平臺(tái)進(jìn)行試用事镣,需要走商務(wù)合作
所以暫時(shí)著重比對(duì)介紹一下騰訊云語(yǔ)音步鉴,訊飛語(yǔ)音,百度語(yǔ)音, 云知聲璃哟,搜狗語(yǔ)音云
訊飛語(yǔ)音
訊飛語(yǔ)音開(kāi)發(fā)平臺(tái) 云知聲語(yǔ)音開(kāi)發(fā)平臺(tái)
優(yōu)點(diǎn):
- 支持的語(yǔ)義場(chǎng)景廣泛氛琢,包括家居,地圖随闪,應(yīng)用阳似,音樂(lè)等等27個(gè)場(chǎng)景,8個(gè)聊天對(duì)話類型
- 語(yǔ)義解析除了整個(gè)語(yǔ)句文本外铐伴,還提供詳細(xì)的域名障般,操作,類型盛杰,關(guān)鍵字等Json數(shù)據(jù)挽荡,便于開(kāi)發(fā)
- 在線功能 語(yǔ)義解析,語(yǔ)音合成即供,命令詞識(shí)別審核通過(guò)后定拟,可以無(wú)限制免費(fèi)使用
- 訊飛平臺(tái)可以對(duì)接微信公眾號(hào),在微信公眾賬號(hào)中增加智能問(wèn)答的功能。
- 訊飛和云知聲 成熟的車載案例很多
缺點(diǎn):
- 語(yǔ)音喚醒功能需要收費(fèi)逗嫡,最高五萬(wàn)套裝機(jī)量授權(quán)需要 25000青自,更大的裝機(jī)量需要定制化開(kāi)發(fā)
- 喚醒詞只支持4-6個(gè)漢字,無(wú)法更少
- 有些個(gè)別語(yǔ)義關(guān)鍵字驱证,無(wú)法正確解析到延窜,但是整句文本都能準(zhǔn)確返回
- 免費(fèi)的語(yǔ)音合成只支持在線,會(huì)耗費(fèi)很多流量
備注: 云知聲的對(duì)外開(kāi)放平臺(tái)抹锄,主要功能和使用形式同訊飛基本一致逆瑞,喚醒和離線語(yǔ)音合成都需要收費(fèi)定制化開(kāi)發(fā)
訊飛語(yǔ)音開(kāi)發(fā)平臺(tái) 云知聲語(yǔ)音開(kāi)發(fā)平臺(tái)
騰訊云語(yǔ)音
使用騰訊云語(yǔ)音需要注冊(cè)騰訊云賬號(hào),添加項(xiàng)目和服務(wù)伙单,云語(yǔ)音只是整個(gè)騰訊云中的一個(gè)產(chǎn)品获高,不收費(fèi)
特點(diǎn):
- 沒(méi)有提供語(yǔ)音喚醒服務(wù)
- 提供實(shí)時(shí)流式識(shí)別,離線語(yǔ)音識(shí)別吻育,語(yǔ)音合成功能
- 離線語(yǔ)音識(shí)別功能 不是離線語(yǔ)音合成或者離線識(shí)別語(yǔ)音念秧, 只是支持將錄制好的音頻上傳 RESTful API 進(jìn)行語(yǔ)音識(shí)別,還是需要訪問(wèn)在線API
- 語(yǔ)音識(shí)別和語(yǔ)音合成不是同一個(gè)SDK布疼,語(yǔ)音識(shí)別是獨(dú)立的Android SDK,語(yǔ)音合成是一個(gè)獨(dú)立的 RESTful API接口
- 語(yǔ)音識(shí)別成熟的客戶案例少摊趾,只有五個(gè) 沒(méi)有車載行業(yè)币狠,語(yǔ)音合成有一個(gè)騰訊地圖
- 語(yǔ)音識(shí)別需要自己提供關(guān)鍵字,進(jìn)行識(shí)別檢索砾层,關(guān)鍵字最多200個(gè)
百度語(yǔ)音
特點(diǎn):
- 語(yǔ)音喚醒总寻,語(yǔ)音識(shí)別,語(yǔ)音合成三大功能基礎(chǔ)服務(wù)永久免費(fèi)
- 語(yǔ)音識(shí)別梢为,語(yǔ)音合成支持離線在線混合SDK渐行,根據(jù)網(wǎng)絡(luò)情況和指令進(jìn)行自動(dòng)切換,以及全平臺(tái)的RESTful API
- 語(yǔ)音識(shí)別的離線SDK支持自定義語(yǔ)義铸董,在線SDK可以設(shè)置識(shí)別場(chǎng)景
- 支持開(kāi)發(fā)者上傳詞庫(kù)祟印,用以訓(xùn)練識(shí)別模型
- 語(yǔ)音合成 支持多語(yǔ)言多音色選擇,可調(diào)節(jié)語(yǔ)速粟害、音調(diào)蕴忆、音量、音頻碼率
- 語(yǔ)音喚醒最多支持十個(gè)喚醒詞悲幅,包括最多三個(gè)自定義喚醒詞套鹅,也叫做基礎(chǔ)喚醒詞(“小暢你好”),剩下可選百度提供的命令喚醒詞(“上一首汰具,下一首”)
搜狗語(yǔ)音云
特點(diǎn):
- 無(wú)語(yǔ)音喚醒功能卓鹿,提供三大核心功能,語(yǔ)音識(shí)別(離線/在線)留荔,音樂(lè)檢索吟孙,語(yǔ)音合成
- 語(yǔ)音識(shí)別免費(fèi)提供,搜狗著重在語(yǔ)音識(shí)別的準(zhǔn)確性聚蝶,對(duì)于語(yǔ)義支持的不是很廣泛杰妓,支持十個(gè)以內(nèi)的語(yǔ)義場(chǎng)景,離線識(shí)別能通過(guò)離線的語(yǔ)音包碘勉,準(zhǔn)確識(shí)別到語(yǔ)音
- 語(yǔ)音合成巷挥,只提供離線版,但是需要走商務(wù)渠道進(jìn)行合作验靡,不免費(fèi)對(duì)外開(kāi)放
- 音樂(lè)檢索倍宾,可以根據(jù)音樂(lè)片段檢索出整個(gè)音樂(lè)的歌曲名
總結(jié)
經(jīng)過(guò)比對(duì)和試用SDK Demo,總體來(lái)說(shuō)晴叨,百度語(yǔ)音最適合凿宾,,不僅能夠滿足我們的語(yǔ)音需求兼蕊,還支持自定義深度優(yōu)化,相比較其他語(yǔ)音方案件蚕,百度語(yǔ)音具有以下三大優(yōu)勢(shì):
免費(fèi)支持語(yǔ)音喚醒孙技,相對(duì)比其他方案产禾,喚醒都是收費(fèi)的,而且還能夠支持最多三個(gè)自定義喚醒詞
提供離線語(yǔ)音識(shí)別和語(yǔ)音合成牵啦,其他語(yǔ)音方案只提供在線語(yǔ)音合成和識(shí)別亚情,離線都需要收費(fèi),百度語(yǔ)音免費(fèi)提供哈雏,能夠減少很大的流量消耗
能夠自定義語(yǔ)義,我們可以根據(jù)自己的業(yè)務(wù)需求定義一些語(yǔ)義加入到離線識(shí)別中楞件,做到深度化定制,給用戶更好的體驗(yàn)裳瘪,
例如:"我要點(diǎn)肯德基"土浸,"打開(kāi)行車記錄儀"