12月11 日襟企,起步于計(jì)算機(jī)視覺(jué)的依圖正式進(jìn)軍語(yǔ)音識(shí)別領(lǐng)域,宣布其在全球最大的中文開(kāi)源數(shù)據(jù)庫(kù)AISHELL-2中取得了短語(yǔ)音聽(tīng)寫(xiě)字錯(cuò)率3.71%的好成績(jī)狮含。
依圖還宣布與微軟合作推出依圖開(kāi)放平臺(tái)顽悼,提供語(yǔ)音識(shí)別算法API及大量的數(shù)據(jù)集曼振;依圖同時(shí)宣布與華為合作,結(jié)合依圖的軟件優(yōu)勢(shì)和華為昇騰(Ascend)系列芯片Atlas 300 AI加速卡的硬件優(yōu)勢(shì)蔚龙,發(fā)布軟硬件一體化的智能語(yǔ)音聯(lián)合解決方案冰评。
值得注意的是,依圖針對(duì)不同場(chǎng)景木羹,采用了同一種語(yǔ)音識(shí)別算法甲雅,單個(gè)算法模型表現(xiàn)出了多場(chǎng)景的適用性。
信息源:
https://www.leiphone.com/news/201812/GmTkTYOsCXZ0u4Bs.html
點(diǎn)評(píng)
目前坑填,多家從語(yǔ)音或視覺(jué)出發(fā)的公司抛人,在經(jīng)過(guò)各場(chǎng)景的商業(yè)探索后,已形成相似判斷:AI時(shí)代最重要的交互入口不會(huì)只包含單一的語(yǔ)音或圖像功能脐瑰,而是圖像妖枚、語(yǔ)音等多模態(tài)技術(shù)的融合。
在依圖之前苍在,同樣屬于“計(jì)算機(jī)視覺(jué)四小龍”的云從已在今年10月發(fā)布全新Pyramidal-FSMN語(yǔ)音識(shí)別模型绝页,將錯(cuò)詞率降低至2.97%,超過(guò)受過(guò)嚴(yán)格訓(xùn)練的專業(yè)人類速記員寂恬。
今年7月抒寂,智能語(yǔ)音公司云知聲聯(lián)合創(chuàng)始人、芯片技術(shù)負(fù)責(zé)人李宵寒也曾在接受采訪時(shí)說(shuō):“人工智能設(shè)備是讓機(jī)器更像人掠剑,這樣的話就必須提供多種感知能力,圖像是必不可少的環(huán)節(jié)郊愧∑右耄”云知聲目前也確實(shí)在做圖像方面的布局。
未來(lái)属铁,市場(chǎng)上會(huì)出現(xiàn)更多像云知聲眠寿、云從、依圖這樣的“跨賽道”行為焦蘑;打造多模態(tài)技術(shù)能力將成為人工智能行業(yè)的重要趨勢(shì)盯拱。