1.功能描述:
語音合成:基于業(yè)界領(lǐng)先的深度神經(jīng)網(wǎng)絡(luò)技術(shù),提供高度擬人搭幻、流暢自然的語音合成服務(wù),讓您的應(yīng)用逞盆、設(shè)備開口說話檀蹋,更具個(gè)性
2.特色優(yōu)勢
支持多語言多音色
支持中文、英文云芦、中英文混讀合成俯逾,提供基礎(chǔ)音庫和精品音庫共9種發(fā)音人供您選擇,讓您的應(yīng)用擁有個(gè)性化的聲音
豐富的場景應(yīng)用
支持純在線舅逸、純離線桌肴、離在線融合三種應(yīng)用方式,支持在有網(wǎng)琉历、無網(wǎng)坠七、弱網(wǎng)環(huán)境下的合成播報(bào)水醋,滿足不同的場景需求
方便快捷的集成方式
提供REST API接口,方便可發(fā)起網(wǎng)絡(luò)請求的設(shè)備進(jìn)行合成彪置;提供Android拄踪、iOS SDK,輕巧簡便拳魁,便于手機(jī)宫蛆、智能硬件快速集成
3.調(diào)用攻略(Python3)及評測
3.1API(Python)說明:
請嚴(yán)格按照文檔里描述的參數(shù)進(jìn)行開發(fā)。請注意以下幾個(gè)問題:
1.合成文本長度必須小于1024字節(jié)的猛,如果本文長度較長耀盗,可以采用多次請求的方式。切忌文本長度超過限制卦尊。
2.新創(chuàng)建語音合成應(yīng)用不限制每日調(diào)用量叛拷,但有QPS限額。詳細(xì)限額數(shù)據(jù)可在控制臺(tái)中查看岂却。完成個(gè)人實(shí)名認(rèn)證及企業(yè)認(rèn)證可提高QPS限額忿薇。若需更大QPS可進(jìn)一步商務(wù)合作咨詢。
3.必填字段中躏哩,嚴(yán)格按照文檔描述中內(nèi)容填寫署浩。
配置AipSpeech
如果用戶需要配置AipSpeech的網(wǎng)絡(luò)請求參數(shù)(一般不需要配置),可以在構(gòu)造AipSpeech之后調(diào)用接口設(shè)置參數(shù)扫尺,目前只支持以下參數(shù):
接口 說明
setConnectionTimeoutInMillis 建立連接的超時(shí)時(shí)間(單位:毫秒
setSocketTimeoutInMillis 通過打開的連接傳輸數(shù)據(jù)的超時(shí)時(shí)間(單位:毫秒)
3.2 接口說明
語音合成接口描述
基于該接口筋栋,開發(fā)者可以輕松的獲取語音合成能力
輸入?yún)?shù):
返回樣例:
// 成功返回二進(jìn)制文件流
// 失敗返回
{
"err_no":500,
"err_msg":"notsupport.",
"sn":"abcdefgh",
"idx":1
}
錯(cuò)誤信息
若請求錯(cuò)誤,服務(wù)器將返回的JSON文本包含以下參數(shù):
error_code:錯(cuò)誤碼正驻。
error_msg:錯(cuò)誤描述信息弊攘,幫助理解和解決發(fā)生的錯(cuò)誤。
錯(cuò)誤碼 含義
500 不支持的輸入
501 輸入?yún)?shù)不正確
502 token驗(yàn)證失敗
503 合成后端錯(cuò)誤
3.3 代碼實(shí)現(xiàn)
Python3調(diào)用代碼如下:
from aip import AipSpeech
APP_ID = '你的 App ID'
API_KEY = '你的 Api Key'
SECRET_KEY = '你的 Secret Key'
def doc2speech(content,resultfile):
? ? client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
? ? result? = client.synthesis(content, 'zh', 1, {
? ? ? ? 'vol': 5,
? ? })
? ? # 識別正確返回語音二進(jìn)制 錯(cuò)誤則返回dict 參照下面錯(cuò)誤碼
? ? if not isinstance(result, dict):
? ? ? ? with open(resultfile, 'wb') as f:
? ? ? ? ? ? f.write(result)
doc2speech('測試百度語音功能','../voc/voc1.mp3')
4.功能評測
選用不同的數(shù)據(jù)對效果進(jìn)行測試姑曙,發(fā)現(xiàn)生成速度很快襟交,效果很好∩丝浚可以應(yīng)用于:
泛閱讀:通過閱讀類APP閱讀小說或新聞時(shí)捣域,使用語音合成技術(shù)為用戶提供多種發(fā)音人的朗讀功能,釋放雙手和雙眼宴合,獲得更極致的閱讀體驗(yàn)
訂單播報(bào):可應(yīng)用于打車軟件焕梅、餐飲叫號、排隊(duì)軟件等場景形纺,通過語音合成進(jìn)行訂單播報(bào)丘侠,讓您便捷獲得通知信息
智能硬件:可集成到兒童故事機(jī)、智能機(jī)器人逐样、平板設(shè)備等智能硬件設(shè)備蜗字,使用戶與設(shè)備的交互更自然打肝、更親切
等場景。
5 應(yīng)用案例
應(yīng)用語音合成功能對我以前寫的人群流量方案進(jìn)行升級挪捕,原文章鏈接如下:
https://ai.baidu.com/forum/topic/show/953160
原方案在發(fā)現(xiàn)過于擁擠后生成警告信息發(fā)給工作人員粗梭,由工作人員來進(jìn)行疏散,需要比較長的時(shí)間周期级零。升級后直接對于過于擁擠的時(shí)候断医,除了發(fā)布警告信息給工作人員之外,還通過語音合成生成警告信息奏纪,通過園區(qū)的廣播鉴嗤,直接指導(dǎo)人們離開過于擁擠的地方,降低危險(xiǎn)性序调。
修改后的方案如圖所示:
例如對于案例中醉锅,設(shè)置的是:區(qū)域1一個(gè)人也不應(yīng)該有(因?yàn)榻褂斡荆瑓^(qū)域2報(bào)警閾值650发绢,區(qū)域3報(bào)警閾值200.
need-to-insert-img
那么在分析后就會(huì)觸發(fā)針對區(qū)域2的報(bào)警廣播硬耍,“附近人員過多,最大650人边酒,現(xiàn)已733人经柴,請啟動(dòng)限流疏散措施”。