技術(shù)世界不會(huì)讓人永遠(yuǎn)躺在功勞簿上齿诞。
繁忙之余衡便,感謝愉快的地鐵閱讀時(shí)光献起,讀了一本科普書《智能語音時(shí)代》洋访。可能由于譯者不是專業(yè)人士的緣故谴餐,在翻譯中有一些常識(shí)性錯(cuò)誤姻政,例如出現(xiàn)了“網(wǎng)景公司正在奮力開發(fā)IE瀏覽器”之類的,但是瑕不掩瑜总寒,作者還是給出了很多有意思的事實(shí)和觀點(diǎn)扶歪,例如:
最好的魔術(shù)就是——
能從逝者那里拿回一些東西,
能讓某些東西無中生有摄闸,
能讓無生命的東西具有靈性善镰。
“不動(dòng)筆墨不讀書”,讀書后的隨筆札記就是下面的這些文字年枕。
語音是什么炫欺?
語音,是人類呱呱墜地后最早使用的溝通方式熏兄,也是現(xiàn)代人際交流最基本的方式品洛,更是未來人機(jī)交互最重要的方式。語言把我們連接起來摩桶,人們知道如何說話桥状,因?yàn)槲覀兘K其一生都在說話。
語音對(duì)我們有意義硝清,是因?yàn)槲覀冎浪硎镜膶?duì)象及概念辅斟,我們有邏輯和常識(shí),有知識(shí)本體這樣一個(gè)組織體系芦拿,通過語言來傳播思想士飒。人們把聽到的信息和頭腦中已有的信息結(jié)合起來進(jìn)行理解。
語音這一能力把我們和其他物種區(qū)分開來蔗崎。語音調(diào)整著我們的關(guān)系酵幕,它能塑造思想、表達(dá)感受缓苛、溝通需求芳撒;能發(fā)起變革、挽救生命未桥,激起愛恨情仇番官。
當(dāng)語音遇到人工智能
手機(jī)把云計(jì)算帶個(gè)了每一個(gè)人,只要隨身帶著麥克風(fēng)钢属,就在日常生活中真正掌握了人工智能這一工具∶徘科學(xué)技術(shù)是賦能的核心要素淆党,當(dāng)語音和人工智能結(jié)合的時(shí)候——
語音正在變成影響現(xiàn)實(shí)的通用遙控器,成為幾乎控制任何一種技術(shù)裝置的手段。語音把對(duì)人工智能的控制權(quán)交給了用戶染乌,正在引領(lǐng)著“環(huán)境智能”的實(shí)現(xiàn)山孔。在使用很多應(yīng)用程序的時(shí)候,人們會(huì)拋棄鍵盤和觸摸屏荷憋,而選擇更自然台颠、更讓人自在的語音界面。語音技術(shù)創(chuàng)新了與客戶交互的方式勒庄,還創(chuàng)新了收集數(shù)據(jù)并以此創(chuàng)造利潤(rùn)的方式串前。
智能語音改變了隱私、自主權(quán)和關(guān)系实蔽。人與人工智能之間的對(duì)話荡碾,可能是新文明到來的征兆。然而局装,效率的提高代價(jià)是獨(dú)立性的減弱坛吁。智能語音模糊了人與機(jī)器的界限,模糊了隱私铐尚、自主權(quán)和親密感的界限拨脉,還模糊了人際關(guān)系與數(shù)字關(guān)系、現(xiàn)實(shí)與虛擬宣增、甚至可能是生與死的界限玫膀。
智能語音中的技術(shù)
涉及智能語音的技術(shù)包括:自動(dòng)語音識(shí)別,自然語言理解统舀,自然語言生成和語音合成匆骗。這些技術(shù)往往都把基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)作為一種重要的手段,多層結(jié)構(gòu)誉简、數(shù)字的精細(xì)輸出和加權(quán)調(diào)整賦予了神經(jīng)網(wǎng)絡(luò)更多的功能碉就。
把聲波轉(zhuǎn)換成文字:自動(dòng)語音識(shí)別
語音識(shí)別系統(tǒng)很少能夠處理非常確定的情況,一般在猜測(cè)人們最有可能說什么闷串,通過聲學(xué)模型(聲波分析)和語言模型(相當(dāng)于字典)配對(duì)來實(shí)現(xiàn)這一點(diǎn)瓮钥。衡量語音識(shí)別系統(tǒng)準(zhǔn)確度的經(jīng)典方法是使用電話總機(jī)通話記錄的數(shù)據(jù)集。
識(shí)別出這些文字表達(dá)什么:自然語言理解
計(jì)算機(jī)是用來處理數(shù)字而不是文字的烹吵,要處理語音就必須先用數(shù)字來表示語言碉熄。使用被稱為向量的有序字符串來表示文字,這種方法稱為詞嵌入肋拔。神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)區(qū)分單詞的屬性锈津,并不需要171000維向量來表示一種語言,可以在不到1000個(gè)有意義的特征中完成這項(xiàng)工作凉蜂。不僅單個(gè)單詞能被嵌入琼梆,向量也可以粗略地表示短語性誉、句子和整個(gè)文檔。句子的意義是在詞匯的動(dòng)態(tài)流中被發(fā)現(xiàn)的茎杂,而這些詞匯同時(shí)又在修飾著其他復(fù)雜的詞匯错览。深度學(xué)習(xí)能夠幫助計(jì)算機(jī)理解句子的意思。
形成一個(gè)合適的回復(fù):自然語言生成
語言人工智能使用信息檢索比任何其他技術(shù)都多煌往。例如倾哺,LSTM能夠準(zhǔn)確定位郵件中那些最有助于預(yù)先構(gòu)思回復(fù)的部分,而不會(huì)被那些不太重要的句子干擾刽脖。這或許就是做Google羞海、百度等搜索公司的核心競(jìng)爭(zhēng)力之一吧。
將回復(fù)變成語音答復(fù):語音合成
變幻莫測(cè)的發(fā)音和韻律意味著一個(gè)單詞可以以幾乎無限多的方式發(fā)音曾棕,這使得語音合成變得棘手扣猫。基于單元拼接的語言合成集合了真實(shí)人類的語音片段翘地,這種參數(shù)化合成的方法一直是語音行業(yè)的“天鵝絨奶酪”申尤。2017年8月Siri推進(jìn)了新的基于神經(jīng)網(wǎng)絡(luò)的語音合成方法——一個(gè)混合系統(tǒng)將合成的音頻片段和人工生成的音頻片段鏈接起來。
語音技術(shù)要適應(yīng)人類對(duì)話的復(fù)雜性和多樣性衙耕,面對(duì)一個(gè)核心挑戰(zhàn):變異性(下一步對(duì)話的走向)昧穿。社交對(duì)話中充滿了事實(shí)、細(xì)節(jié)和俚語橙喘,包含無限多的變化时鸵,例如話題的突然轉(zhuǎn)移、同語言一樣重要的情感元素等厅瞎。另外饰潜,交談中會(huì)有停頓、矛盾和簸、暗示和笑話彭雾。因此,社交對(duì)話是語音技術(shù)的終極挑戰(zhàn)之一锁保。
語音助手產(chǎn)品的人性化
互聯(lián)網(wǎng)上應(yīng)該有人們最好的朋友嗎薯酝?
當(dāng)聽到有人說話時(shí),我們會(huì)自動(dòng)做出判斷和假定爽柒,擁有講話的能力實(shí)質(zhì)上就具備了人的特質(zhì)吴菠。而語音助手在個(gè)性上應(yīng)該如何友善、如何有同情心浩村、如何有智慧呢做葵?需要設(shè)定它的年齡、性別心墅、種族和社會(huì)背景嗎蜂挪?自我應(yīng)該是真實(shí)生命專屬的重挑,真實(shí)的人并不完全由他們的職業(yè)來定義,可以為語音助手打造獨(dú)特的身份棠涮。
語音助手必須能夠表達(dá)自己的脆弱,對(duì)事情感到不確定或擔(dān)心刺覆,才顯得它更像一個(gè)人严肪。
谷歌發(fā)現(xiàn),擁有最高用戶留存率的語音應(yīng)用是那些擁有強(qiáng)烈角色性的應(yīng)用程序谦屑。對(duì)話設(shè)計(jì)的著力點(diǎn)在科學(xué)和藝術(shù)的連接上驳糯。平易近人的個(gè)性會(huì)鼓勵(lì)用戶學(xué)習(xí)使用語音助手的技能集。因此氢橙,語音助手擁有能夠鼓勵(lì)人們?cè)敢馀c之打交道的個(gè)性是很重要的酝枢。
當(dāng)用戶試圖得到一個(gè)問題的答案或完成一項(xiàng)任務(wù)時(shí),語音助手的回答必須是嚴(yán)謹(jǐn)客觀的悍手。人類不是純粹尋求信息的生物帘睦,他們有情緒,會(huì)焦慮坦康,都是需要應(yīng)對(duì)的竣付。關(guān)系是由感情來維系的,情商并不局限于感受到對(duì)方的情緒滞欠。情感計(jì)算技術(shù)——從面部表情古胆、詞匯選擇和音調(diào)上進(jìn)行情感分析——只能在有限的程度上提高互動(dòng)的質(zhì)量。微軟小娜感覺就像融合了Google Now 的世俗氣和Siri的迷人魅力筛璧。
個(gè)性化產(chǎn)品將推動(dòng)用戶的參與逸绎,但構(gòu)建角色是通過使用基于規(guī)則的人工創(chuàng)作方法進(jìn)行的。也就是說夭谤,賦予語音人工智能個(gè)性是有意義的棺牧,但選擇恰當(dāng)?shù)膫€(gè)性是很棘手的事。一個(gè)普遍的事實(shí)是沮翔,各個(gè)廠家的語音助手一般都是女性化的陨帆,這不是約定俗成,而是有著深層次的含義采蚀。
智能語音的應(yīng)用架構(gòu)
不論是亞馬遜疲牵、谷歌、微軟榆鼠,還是國(guó)內(nèi)的百度纲爸、阿里和小米,面向語音助手的智能語音應(yīng)用都采取了基于代理(關(guān)于代理妆够,可以參考當(dāng)你問代理機(jī)制的時(shí)候识啦?指的是Agent,Proxy,Broker還是Delegate呢负蚊?)的架構(gòu),其巧妙之處在于它是模塊化的颓哮、可擴(kuò)展的家妆,可以不斷地把新的業(yè)務(wù)系統(tǒng)囊入其中。
例如冕茅,Microsoft Bot Framework伤极,開發(fā)者可以為任何商家創(chuàng)建一個(gè)自然語言的界面∫躺耍基于云端的人工智能服務(wù)能夠?qū)Υ颂岣咧С稚谄海越馕稣Z言、組織對(duì)話乍楚、甚至還能分析出隱藏在人們語言之后的感情当编。
開發(fā)自然語言的應(yīng)用程序,即使是聚焦在非常具體的領(lǐng)域徒溪,可能也會(huì)非常困難忿偷。當(dāng)要把很多信息呈現(xiàn)出來時(shí)(如很多天的天氣預(yù)報(bào)或者可選航班),視覺呈現(xiàn)會(huì)比語音呈現(xiàn)更有效率词渤。不僅著眼于已存在的智能手機(jī)應(yīng)用程序牵舱,而是更多地聚焦于創(chuàng)造一些能讓自然語言交流大顯身手的場(chǎng)景。
對(duì)于數(shù)據(jù)的應(yīng)用而言缺虐,結(jié)構(gòu)化數(shù)據(jù)是指以標(biāo)準(zhǔn)化的芜壁、計(jì)算機(jī)可讀的方式列出的信息數(shù)據(jù)庫。知識(shí)圖譜以類似生物學(xué)分類的方法來標(biāo)柱各種關(guān)系高氮。為了解決知識(shí)圖譜的問題慧妄,轉(zhuǎn)而運(yùn)用了從非結(jié)構(gòu)化數(shù)據(jù)中尋找答案的系統(tǒng),包括網(wǎng)頁剪芍、掃描文檔和數(shù)字化圖書塞淹。智能語音可以越來越多地充當(dāng)回答問題的百科全書。微軟的概念圖譜在規(guī)模和覆蓋范圍上也一直在與谷歌的知識(shí)圖譜進(jìn)行競(jìng)爭(zhēng)罪裹。如何將基于知識(shí)型的人工智能與機(jī)器學(xué)習(xí)型的人工智能兩種技術(shù)結(jié)合起來饱普,創(chuàng)造一個(gè)混合性系統(tǒng)呢?
智能語音應(yīng)用中的問題
智能語音在實(shí)際的状共、以目標(biāo)為導(dǎo)向的應(yīng)用中已經(jīng)做的十分出色了套耕。Siri對(duì)話調(diào)用的早期6個(gè)應(yīng)用領(lǐng)域是:短信、音頻和視頻通話峡继、付款冯袍、拍照、鍛煉、乘車預(yù)定康愤。在從傳統(tǒng)的搜索引擎到人工智能服務(wù)的轉(zhuǎn)變中儡循,亞馬遜獲利最多,微軟贏得美名征冷,谷歌損失最多择膝,但仍令人敬畏。
智能語音正在被嘗試廣泛地應(yīng)用资盅,例如调榄,認(rèn)知系統(tǒng)會(huì)分析我們用語音和文字進(jìn)行交流時(shí)候的表現(xiàn),這些分析結(jié)果有助于發(fā)現(xiàn)精神性疾病各階段的跡象呵扛。然而,語音助手會(huì)對(duì)他們掌握的知識(shí)負(fù)責(zé)么筐带?某一功能在未來的某個(gè)時(shí)候可能意味著一種責(zé)任今穿。
凡事都有兩面性,智能語音應(yīng)用可能會(huì)存在哪些負(fù)面影響呢伦籍?人們有權(quán)感知真實(shí)的世界蓝晒。盡管老人和兒童都傾向于將語音助手?jǐn)M人化,那么與擬人化產(chǎn)品互動(dòng)會(huì)如何影響人們隨后的社交欲望呢帖鸦?用戶提出要求并獲得滿足芝薇,且無須任何付出,這可能不利于道德和情感的發(fā)展作儿,尤其是對(duì)兒童而言洛二,實(shí)際上,關(guān)于孩子們?nèi)绾慰创?dāng)今的聊天機(jī)器人的研究還很少攻锰。
從商業(yè)上看晾嘶,用戶愿意為什么樣的交談付費(fèi)呢?為成為被選中的語音搜索結(jié)果而付費(fèi)娶吞,只是一個(gè)時(shí)間問題垒迂,這種廣告可能更費(fèi)錢。正如一場(chǎng)貨架空間爭(zhēng)奪戰(zhàn)即將出現(xiàn)妒蛇,從理論上講机断,每個(gè)位置的價(jià)格都將更高,因?yàn)橥瑯佣嗟男枨蟊粩D壓到了更小的空間里绣夺。當(dāng)眾多競(jìng)爭(zhēng)者都在努力讓客戶聽到自己的聲音時(shí)吏奸,要占據(jù)市場(chǎng)的主導(dǎo)地位就變得更加困難。但目前的情況是乐导,語音廣告似乎不太可能產(chǎn)生與在線廣告和移動(dòng)廣告相當(dāng)?shù)氖杖肟喽。驗(yàn)檫m合播放語音廣告的平臺(tái)比較少。需要注意的是物臂,一項(xiàng)市場(chǎng)研究預(yù)測(cè)旺拉,到2022年語音購(gòu)物的規(guī)模將從目前的每年20億美元增加到每年400億美元产上,可惜書中并沒有給出應(yīng)用的出處,所以無從考證蛾狗。
智能語音是一場(chǎng)為用戶設(shè)計(jì)單一界面的競(jìng)賽晋涣。提供唯一權(quán)威答案的戰(zhàn)略意味著我們生活在一個(gè)簡(jiǎn)單和絕對(duì)的世界里。對(duì)知識(shí)的控制是一種強(qiáng)大的力量,它正在被集中到少數(shù)精英團(tuán)隊(duì)的手中茄蚯,控制權(quán)決定了語音流量的去向彻磁,這可能是潛在的另一個(gè)問題。
最后佃扼,你希望擁有自己記憶的語音助手嗎?