姓名:任思遠(yuǎn)
學(xué)號:17021210990
轉(zhuǎn)載自:https://mp.weixin.qq.com/s/3pqZxEV-kRBKcWwoiqkSng
【嵌牛導(dǎo)讀】:擁有iPhone的朋友一定對Siri很熟悉端考,他是如何實(shí)現(xiàn)的?iPhone公司在研發(fā)過程中又遇到過什么挑戰(zhàn)揭厚?在這篇文章中讓我們來一一了解却特。
【嵌牛鼻子】:Siri、機(jī)器學(xué)習(xí)筛圆、語音識(shí)別
【嵌牛提問】:“嘿裂明,Siri”是怎么實(shí)現(xiàn)的?
【嵌牛正文】:
“嘿太援,Siri闽晦。你是怎么做到這么聰明的?” “我只是凡事都盡力而為”
這并不是一句玩笑話提岔,對于 Siri 來說仙蛉,它的確每天在盡力提供著服務(wù)。
兩天前唧垦,蘋果在公司機(jī)器學(xué)習(xí)博客上發(fā)布了最新的一篇文章捅儒,詳細(xì)解釋了“嘿液样,Siri”這個(gè)隨時(shí)喚醒智能助手的功能是如何實(shí)現(xiàn)的振亮。
2014 年 6 月巧还,蘋果帶來了 iOS 8 系統(tǒng),新增了 “嘿坊秸,Siri” 功能麸祷,可以免按鍵來喚醒語音助手 Siri 。一句簡單的「嘿 Siri」就可以激活褒搔,讓 Siri 為你設(shè)定鬧鐘阶牍,查看日歷。
在最新的文章中星瘾,蘋果詳細(xì)地介紹了如何讓硬件芯片走孽、底層軟件還有網(wǎng)絡(luò)服務(wù)相結(jié)合,在最新的 iPhone琳状,iPad磕瓷,還有 Apple Watch 上實(shí)現(xiàn)“嘿,Siri”這個(gè)功能念逞。
為了讓用戶可以隨時(shí)喚醒 Siri困食,蘋果在運(yùn)動(dòng)協(xié)處理器中集成了非常小的語音識(shí)別裝置,這個(gè)裝置一直保持運(yùn)行翎承,并等待用戶說出“嘿 Siri”硕盹。當(dāng)識(shí)別到這兩個(gè)單詞后,Siri 會(huì)將后面的語音處理為命令或查詢叨咖。
iPhone 或 Apple Watch 上的麥克風(fēng)會(huì)以每秒 1.6 萬次的速度將你的聲音轉(zhuǎn)化為一連串的瞬時(shí)波形樣本瘩例。每次將大約 0.2 秒的音頻輸入到聲學(xué)模型,神經(jīng)網(wǎng)絡(luò)會(huì)將這些聲學(xué)模型轉(zhuǎn)換為概率分布甸各,并使用時(shí)間集成來計(jì)算這個(gè)聲音是「嘿 Siri」的可信度仰剿。
蘋果已經(jīng)設(shè)定了信度分?jǐn)?shù)的幾個(gè)敏感閾值,如果分?jǐn)?shù)足夠高痴晦,Siri 就被激活南吮,并開始處理用戶的命令或查詢。
但并不是說可信度的分值低于閾值的話誊酌,Siri 就徹底不理你部凑。
如果分?jǐn)?shù)超過了最低閾值,但沒有達(dá)到激活的閾值碧浊,譬如你的聲音有口音或者不清楚涂邀,這時(shí)設(shè)備會(huì)進(jìn)入「敏感模式」,并持續(xù)幾分鐘箱锐。這樣當(dāng)用戶再次重復(fù)「嘿 Siri」時(shí)比勉,可以更快地激活。
雖然變得更敏感,但是為了為了減少誤識(shí)別或者意外激活 Siri 的情況浩聋,我們在進(jìn)行初始化「嘿 Siri」的時(shí)候观蜗,會(huì)被要求連續(xù)說五次「嘿 Siri」。
這樣在初始化完成后衣洁,用戶的聲音會(huì)轉(zhuǎn)化成波形并送達(dá)到 Siri 的服務(wù)器里墓捻。在使用過程中,蘋果會(huì)記錄不同環(huán)境中遠(yuǎn)近激活“嘿 Siri”的情況坊夫,比如在廚房中砖第、車中和臥室中等不同距離的情況。
與此同時(shí)环凿,蘋果還制定了一些與語音相關(guān)的規(guī)范梧兼,發(fā)音接近 Siri 的「Syria」(敘利亞) 和「serious」(嚴(yán)肅的) 等詞語將被放在上下文中進(jìn)行識(shí)別。
持續(xù)等候喚醒會(huì)不會(huì)增加耗電情況和占用內(nèi)存智听,影響手機(jī)正常使用袱院?蘋果也做出了解釋。
為了避免主處理器一直處于檢測觸發(fā)詞的狀態(tài)瞭稼,iPhone 中的 AOP(一種小且低能耗的處理器)會(huì)使用其一小部分處理能力來運(yùn)行一個(gè)探測器和一個(gè)小版本的聲學(xué)模型忽洛。當(dāng)信度分?jǐn)?shù)超過最低閾值時(shí),AOP 會(huì)「提醒」主處理器進(jìn)行下一步操作环肘。
而電池更小的 Apple Watch 在整合 Siri 時(shí)需要考慮的挑戰(zhàn)更多欲虚。為了不影響手表的續(xù)航表現(xiàn),Apple Watch 的「嘿 Siri」檢測器只有在手表啟動(dòng)時(shí)才會(huì)運(yùn)行悔雹,它可以檢測到手腕抬起的手勢复哆。只有用戶做出這樣的手勢, Siri 才可能被激活腌零。
當(dāng)然 “嘿梯找,Siri”的實(shí)現(xiàn)還有一些復(fù)雜的算法介紹,如果有興趣益涧,可以在這里看到詳細(xì)的內(nèi)容锈锤。
2012 年 4 月,Google 推出了看上去非诚醒科幻的 Google Project Glass 眼鏡久免。它可以把信息顯示在眼鏡右上角的小屏幕上。用戶可以對著眼鏡的麥克風(fēng)說 “OK扭弧,Glass”阎姥,一個(gè)菜單就會(huì)自動(dòng)出現(xiàn)。
這是語音喚醒功能第一次的公開展示鸽捻。
2013 年呼巴,收購了摩托羅拉的 Google 推出了 Moto X 泽腮,這款安卓手機(jī)一個(gè)亮點(diǎn)就是可以 24 小時(shí)全程等候喚醒,提供 Google Now 服務(wù)衣赶。
Google 打造了 2 顆低功耗 SoC 芯片來實(shí)現(xiàn)這個(gè)功能诊赊,專門等待著用戶隨時(shí)輸入語音命令。
當(dāng)時(shí) Google 為了功耗考慮屑埋,并沒有采用語言模型豪筝、數(shù)據(jù)分析等方法痰滋,使用最簡單直接的分類方法在用戶輸入語音流中尋找“OK Google”這幾個(gè)字摘能。
隨著智能助手在各種軟硬件結(jié)合上帶來的功能提升,語音識(shí)別技術(shù)也在快速發(fā)展敲街,準(zhǔn)確性已經(jīng)不是語音助手追求的目標(biāo)团搞,更加流暢和擬人成為目前研究的重點(diǎn)。
新版的 Siri 在 iOS 11 獲得提升多艇。Siri 的語音仍然是用語音合成技術(shù)來做逻恐,但在人工智能算法、語音內(nèi)容上做了改進(jìn)峻黍。
根據(jù) Siri 團(tuán)隊(duì)的說法复隆,蘋果公司從數(shù)百位候選人中篩出了一位“新的、有語音天賦的女性”姆涩,讓她讀 10-20 小時(shí)的書挽拂、笑話、導(dǎo)航和問答等文本內(nèi)容骨饿,并錄制下來亏栈。Siri 團(tuán)隊(duì)希望新的語音內(nèi)容可以幫助改善 Siri 語音的流暢度。
微軟在今年 8 月推出了第五代微軟小冰宏赘,啟用全新的“生成模型”來生成對話绒北。在這個(gè)模式下,小冰說的每一句話都有可能是完全生成的察署。在表達(dá)方面闷游,沒有人工干預(yù)的情況下小冰還可以準(zhǔn)確識(shí)別“生長”和“伸長”中多音字的正確讀法。