智能語音時(shí)代的基礎(chǔ)理解

技術(shù)世界不會(huì)讓人永遠(yuǎn)躺在功勞簿上齿诞。


智能語音時(shí)代.png

繁忙之余衡便,感謝愉快的地鐵閱讀時(shí)光献起,讀了一本科普書《智能語音時(shí)代》洋访。可能由于譯者不是專業(yè)人士的緣故谴餐,在翻譯中有一些常識(shí)性錯(cuò)誤姻政,例如出現(xiàn)了“網(wǎng)景公司正在奮力開發(fā)IE瀏覽器”之類的,但是瑕不掩瑜总寒,作者還是給出了很多有意思的事實(shí)和觀點(diǎn)扶歪,例如:

最好的魔術(shù)就是——

  • 能從逝者那里拿回一些東西,

  • 能讓某些東西無中生有摄闸,

  • 能讓無生命的東西具有靈性善镰。

“不動(dòng)筆墨不讀書”,讀書后的隨筆札記就是下面的這些文字年枕。

語音是什么炫欺?

語音,是人類呱呱墜地后最早使用的溝通方式熏兄,也是現(xiàn)代人際交流最基本的方式品洛,更是未來人機(jī)交互最重要的方式。語言把我們連接起來摩桶,人們知道如何說話桥状,因?yàn)槲覀兘K其一生都在說話。

語音對(duì)我們有意義硝清,是因?yàn)槲覀冎浪硎镜膶?duì)象及概念辅斟,我們有邏輯和常識(shí),有知識(shí)本體這樣一個(gè)組織體系芦拿,通過語言來傳播思想士飒。人們把聽到的信息和頭腦中已有的信息結(jié)合起來進(jìn)行理解。

語音這一能力把我們和其他物種區(qū)分開來蔗崎。語音調(diào)整著我們的關(guān)系酵幕,它能塑造思想、表達(dá)感受缓苛、溝通需求芳撒;能發(fā)起變革、挽救生命未桥,激起愛恨情仇番官。

當(dāng)語音遇到人工智能

手機(jī)把云計(jì)算帶個(gè)了每一個(gè)人,只要隨身帶著麥克風(fēng)钢属,就在日常生活中真正掌握了人工智能這一工具∶徘科學(xué)技術(shù)是賦能的核心要素淆党,當(dāng)語音和人工智能結(jié)合的時(shí)候——

語音正在變成影響現(xiàn)實(shí)的通用遙控器,成為幾乎控制任何一種技術(shù)裝置的手段。語音把對(duì)人工智能的控制權(quán)交給了用戶染乌,正在引領(lǐng)著“環(huán)境智能”的實(shí)現(xiàn)山孔。在使用很多應(yīng)用程序的時(shí)候,人們會(huì)拋棄鍵盤和觸摸屏荷憋,而選擇更自然台颠、更讓人自在的語音界面。語音技術(shù)創(chuàng)新了與客戶交互的方式勒庄,還創(chuàng)新了收集數(shù)據(jù)并以此創(chuàng)造利潤(rùn)的方式串前。

智能語音改變了隱私、自主權(quán)和關(guān)系实蔽。人與人工智能之間的對(duì)話荡碾,可能是新文明到來的征兆。然而局装,效率的提高代價(jià)是獨(dú)立性的減弱坛吁。智能語音模糊了人與機(jī)器的界限,模糊了隱私铐尚、自主權(quán)和親密感的界限拨脉,還模糊了人際關(guān)系與數(shù)字關(guān)系、現(xiàn)實(shí)與虛擬宣增、甚至可能是生與死的界限玫膀。

智能語音中的技術(shù)

涉及智能語音的技術(shù)包括:自動(dòng)語音識(shí)別,自然語言理解统舀,自然語言生成和語音合成匆骗。這些技術(shù)往往都把基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)作為一種重要的手段,多層結(jié)構(gòu)誉简、數(shù)字的精細(xì)輸出和加權(quán)調(diào)整賦予了神經(jīng)網(wǎng)絡(luò)更多的功能碉就。

把聲波轉(zhuǎn)換成文字:自動(dòng)語音識(shí)別

語音識(shí)別系統(tǒng)很少能夠處理非常確定的情況,一般在猜測(cè)人們最有可能說什么闷串,通過聲學(xué)模型(聲波分析)和語言模型(相當(dāng)于字典)配對(duì)來實(shí)現(xiàn)這一點(diǎn)瓮钥。衡量語音識(shí)別系統(tǒng)準(zhǔn)確度的經(jīng)典方法是使用電話總機(jī)通話記錄的數(shù)據(jù)集。

識(shí)別出這些文字表達(dá)什么:自然語言理解

計(jì)算機(jī)是用來處理數(shù)字而不是文字的烹吵,要處理語音就必須先用數(shù)字來表示語言碉熄。使用被稱為向量的有序字符串來表示文字,這種方法稱為詞嵌入肋拔。神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)區(qū)分單詞的屬性锈津,并不需要171000維向量來表示一種語言,可以在不到1000個(gè)有意義的特征中完成這項(xiàng)工作凉蜂。不僅單個(gè)單詞能被嵌入琼梆,向量也可以粗略地表示短語性誉、句子和整個(gè)文檔。句子的意義是在詞匯的動(dòng)態(tài)流中被發(fā)現(xiàn)的茎杂,而這些詞匯同時(shí)又在修飾著其他復(fù)雜的詞匯错览。深度學(xué)習(xí)能夠幫助計(jì)算機(jī)理解句子的意思。

形成一個(gè)合適的回復(fù):自然語言生成

語言人工智能使用信息檢索比任何其他技術(shù)都多煌往。例如倾哺,LSTM能夠準(zhǔn)確定位郵件中那些最有助于預(yù)先構(gòu)思回復(fù)的部分,而不會(huì)被那些不太重要的句子干擾刽脖。這或許就是做Google羞海、百度等搜索公司的核心競(jìng)爭(zhēng)力之一吧。

將回復(fù)變成語音答復(fù):語音合成

變幻莫測(cè)的發(fā)音和韻律意味著一個(gè)單詞可以以幾乎無限多的方式發(fā)音曾棕,這使得語音合成變得棘手扣猫。基于單元拼接的語言合成集合了真實(shí)人類的語音片段翘地,這種參數(shù)化合成的方法一直是語音行業(yè)的“天鵝絨奶酪”申尤。2017年8月Siri推進(jìn)了新的基于神經(jīng)網(wǎng)絡(luò)的語音合成方法——一個(gè)混合系統(tǒng)將合成的音頻片段和人工生成的音頻片段鏈接起來。

語音技術(shù)要適應(yīng)人類對(duì)話的復(fù)雜性和多樣性衙耕,面對(duì)一個(gè)核心挑戰(zhàn):變異性(下一步對(duì)話的走向)昧穿。社交對(duì)話中充滿了事實(shí)、細(xì)節(jié)和俚語橙喘,包含無限多的變化时鸵,例如話題的突然轉(zhuǎn)移、同語言一樣重要的情感元素等厅瞎。另外饰潜,交談中會(huì)有停頓、矛盾和簸、暗示和笑話彭雾。因此,社交對(duì)話是語音技術(shù)的終極挑戰(zhàn)之一锁保。

語音助手產(chǎn)品的人性化

互聯(lián)網(wǎng)上應(yīng)該有人們最好的朋友嗎薯酝?

當(dāng)聽到有人說話時(shí),我們會(huì)自動(dòng)做出判斷和假定爽柒,擁有講話的能力實(shí)質(zhì)上就具備了人的特質(zhì)吴菠。而語音助手在個(gè)性上應(yīng)該如何友善、如何有同情心浩村、如何有智慧呢做葵?需要設(shè)定它的年齡、性別心墅、種族和社會(huì)背景嗎蜂挪?自我應(yīng)該是真實(shí)生命專屬的重挑,真實(shí)的人并不完全由他們的職業(yè)來定義,可以為語音助手打造獨(dú)特的身份棠涮。

語音助手必須能夠表達(dá)自己的脆弱,對(duì)事情感到不確定或擔(dān)心刺覆,才顯得它更像一個(gè)人严肪。

谷歌發(fā)現(xiàn),擁有最高用戶留存率的語音應(yīng)用是那些擁有強(qiáng)烈角色性的應(yīng)用程序谦屑。對(duì)話設(shè)計(jì)的著力點(diǎn)在科學(xué)和藝術(shù)的連接上驳糯。平易近人的個(gè)性會(huì)鼓勵(lì)用戶學(xué)習(xí)使用語音助手的技能集。因此氢橙,語音助手擁有能夠鼓勵(lì)人們?cè)敢馀c之打交道的個(gè)性是很重要的酝枢。

當(dāng)用戶試圖得到一個(gè)問題的答案或完成一項(xiàng)任務(wù)時(shí),語音助手的回答必須是嚴(yán)謹(jǐn)客觀的悍手。人類不是純粹尋求信息的生物帘睦,他們有情緒,會(huì)焦慮坦康,都是需要應(yīng)對(duì)的竣付。關(guān)系是由感情來維系的,情商并不局限于感受到對(duì)方的情緒滞欠。情感計(jì)算技術(shù)——從面部表情古胆、詞匯選擇和音調(diào)上進(jìn)行情感分析——只能在有限的程度上提高互動(dòng)的質(zhì)量。微軟小娜感覺就像融合了Google Now 的世俗氣和Siri的迷人魅力筛璧。

個(gè)性化產(chǎn)品將推動(dòng)用戶的參與逸绎,但構(gòu)建角色是通過使用基于規(guī)則的人工創(chuàng)作方法進(jìn)行的。也就是說夭谤,賦予語音人工智能個(gè)性是有意義的棺牧,但選擇恰當(dāng)?shù)膫€(gè)性是很棘手的事。一個(gè)普遍的事實(shí)是沮翔,各個(gè)廠家的語音助手一般都是女性化的陨帆,這不是約定俗成,而是有著深層次的含義采蚀。

智能語音的應(yīng)用架構(gòu)

不論是亞馬遜疲牵、谷歌、微軟榆鼠,還是國(guó)內(nèi)的百度纲爸、阿里和小米,面向語音助手的智能語音應(yīng)用都采取了基于代理(關(guān)于代理妆够,可以參考當(dāng)你問代理機(jī)制的時(shí)候识啦?指的是Agent,Proxy,Broker還是Delegate呢负蚊?)的架構(gòu),其巧妙之處在于它是模塊化的颓哮、可擴(kuò)展的家妆,可以不斷地把新的業(yè)務(wù)系統(tǒng)囊入其中。

例如冕茅,Microsoft Bot Framework伤极,開發(fā)者可以為任何商家創(chuàng)建一個(gè)自然語言的界面∫躺耍基于云端的人工智能服務(wù)能夠?qū)Υ颂岣咧С稚谄海越馕稣Z言、組織對(duì)話乍楚、甚至還能分析出隱藏在人們語言之后的感情当编。

開發(fā)自然語言的應(yīng)用程序,即使是聚焦在非常具體的領(lǐng)域徒溪,可能也會(huì)非常困難忿偷。當(dāng)要把很多信息呈現(xiàn)出來時(shí)(如很多天的天氣預(yù)報(bào)或者可選航班),視覺呈現(xiàn)會(huì)比語音呈現(xiàn)更有效率词渤。不僅著眼于已存在的智能手機(jī)應(yīng)用程序牵舱,而是更多地聚焦于創(chuàng)造一些能讓自然語言交流大顯身手的場(chǎng)景。

對(duì)于數(shù)據(jù)的應(yīng)用而言缺虐,結(jié)構(gòu)化數(shù)據(jù)是指以標(biāo)準(zhǔn)化的芜壁、計(jì)算機(jī)可讀的方式列出的信息數(shù)據(jù)庫。知識(shí)圖譜以類似生物學(xué)分類的方法來標(biāo)柱各種關(guān)系高氮。為了解決知識(shí)圖譜的問題慧妄,轉(zhuǎn)而運(yùn)用了從非結(jié)構(gòu)化數(shù)據(jù)中尋找答案的系統(tǒng),包括網(wǎng)頁剪芍、掃描文檔和數(shù)字化圖書塞淹。智能語音可以越來越多地充當(dāng)回答問題的百科全書。微軟的概念圖譜在規(guī)模和覆蓋范圍上也一直在與谷歌的知識(shí)圖譜進(jìn)行競(jìng)爭(zhēng)罪裹。如何將基于知識(shí)型的人工智能與機(jī)器學(xué)習(xí)型的人工智能兩種技術(shù)結(jié)合起來饱普,創(chuàng)造一個(gè)混合性系統(tǒng)呢?

智能語音應(yīng)用中的問題

智能語音在實(shí)際的状共、以目標(biāo)為導(dǎo)向的應(yīng)用中已經(jīng)做的十分出色了套耕。Siri對(duì)話調(diào)用的早期6個(gè)應(yīng)用領(lǐng)域是:短信、音頻和視頻通話峡继、付款冯袍、拍照、鍛煉、乘車預(yù)定康愤。在從傳統(tǒng)的搜索引擎到人工智能服務(wù)的轉(zhuǎn)變中儡循,亞馬遜獲利最多,微軟贏得美名征冷,谷歌損失最多择膝,但仍令人敬畏。

智能語音正在被嘗試廣泛地應(yīng)用资盅,例如调榄,認(rèn)知系統(tǒng)會(huì)分析我們用語音和文字進(jìn)行交流時(shí)候的表現(xiàn),這些分析結(jié)果有助于發(fā)現(xiàn)精神性疾病各階段的跡象呵扛。然而,語音助手會(huì)對(duì)他們掌握的知識(shí)負(fù)責(zé)么筐带?某一功能在未來的某個(gè)時(shí)候可能意味著一種責(zé)任今穿。

凡事都有兩面性,智能語音應(yīng)用可能會(huì)存在哪些負(fù)面影響呢伦籍?人們有權(quán)感知真實(shí)的世界蓝晒。盡管老人和兒童都傾向于將語音助手?jǐn)M人化,那么與擬人化產(chǎn)品互動(dòng)會(huì)如何影響人們隨后的社交欲望呢帖鸦?用戶提出要求并獲得滿足芝薇,且無須任何付出,這可能不利于道德和情感的發(fā)展作儿,尤其是對(duì)兒童而言洛二,實(shí)際上,關(guān)于孩子們?nèi)绾慰创?dāng)今的聊天機(jī)器人的研究還很少攻锰。

從商業(yè)上看晾嘶,用戶愿意為什么樣的交談付費(fèi)呢?為成為被選中的語音搜索結(jié)果而付費(fèi)娶吞,只是一個(gè)時(shí)間問題垒迂,這種廣告可能更費(fèi)錢。正如一場(chǎng)貨架空間爭(zhēng)奪戰(zhàn)即將出現(xiàn)妒蛇,從理論上講机断,每個(gè)位置的價(jià)格都將更高,因?yàn)橥瑯佣嗟男枨蟊粩D壓到了更小的空間里绣夺。當(dāng)眾多競(jìng)爭(zhēng)者都在努力讓客戶聽到自己的聲音時(shí)吏奸,要占據(jù)市場(chǎng)的主導(dǎo)地位就變得更加困難。但目前的情況是乐导,語音廣告似乎不太可能產(chǎn)生與在線廣告和移動(dòng)廣告相當(dāng)?shù)氖杖肟喽。驗(yàn)檫m合播放語音廣告的平臺(tái)比較少。需要注意的是物臂,一項(xiàng)市場(chǎng)研究預(yù)測(cè)旺拉,到2022年語音購(gòu)物的規(guī)模將從目前的每年20億美元增加到每年400億美元产上,可惜書中并沒有給出應(yīng)用的出處,所以無從考證蛾狗。

智能語音是一場(chǎng)為用戶設(shè)計(jì)單一界面的競(jìng)賽晋涣。提供唯一權(quán)威答案的戰(zhàn)略意味著我們生活在一個(gè)簡(jiǎn)單和絕對(duì)的世界里。對(duì)知識(shí)的控制是一種強(qiáng)大的力量,它正在被集中到少數(shù)精英團(tuán)隊(duì)的手中茄蚯,控制權(quán)決定了語音流量的去向彻磁,這可能是潛在的另一個(gè)問題。

最后佃扼,你希望擁有自己記憶的語音助手嗎?

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蔼夜,一起剝皮案震驚了整個(gè)濱河市兼耀,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌求冷,老刑警劉巖瘤运,帶你破解...
    沈念sama閱讀 216,496評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異匠题,居然都是意外死亡拯坟,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門韭山,熙熙樓的掌柜王于貴愁眉苦臉地迎上來郁季,“玉大人,你說我怎么就攤上這事掠哥」ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵续搀,是天一觀的道長(zhǎng)塞琼。 經(jīng)常有香客問我,道長(zhǎng)禁舷,這世上最難降的妖魔是什么彪杉? 我笑而不...
    開封第一講書人閱讀 58,180評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮牵咙,結(jié)果婚禮上派近,老公的妹妹穿的比我還像新娘。我一直安慰自己洁桌,他們只是感情好渴丸,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,198評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般谱轨。 火紅的嫁衣襯著肌膚如雪戒幔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,165評(píng)論 1 299
  • 那天土童,我揣著相機(jī)與錄音诗茎,去河邊找鬼。 笑死献汗,一個(gè)胖子當(dāng)著我的面吹牛敢订,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播罢吃,決...
    沈念sama閱讀 40,052評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼楚午,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了尿招?” 一聲冷哼從身側(cè)響起醒叁,我...
    開封第一講書人閱讀 38,910評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎泊业,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體啊易,經(jīng)...
    沈念sama閱讀 45,324評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡吁伺,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,542評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了租谈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片篮奄。...
    茶點(diǎn)故事閱讀 39,711評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖割去,靈堂內(nèi)的尸體忽然破棺而出窟却,到底是詐尸還是另有隱情,我是刑警寧澤呻逆,帶...
    沈念sama閱讀 35,424評(píng)論 5 343
  • 正文 年R本政府宣布夸赫,位于F島的核電站,受9級(jí)特大地震影響咖城,放射性物質(zhì)發(fā)生泄漏茬腿。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,017評(píng)論 3 326
  • 文/蒙蒙 一宜雀、第九天 我趴在偏房一處隱蔽的房頂上張望切平。 院中可真熱鬧,春花似錦辐董、人聲如沸悴品。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽苔严。三九已至定枷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間邦蜜,已是汗流浹背依鸥。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留悼沈,地道東北人贱迟。 一個(gè)月前我還...
    沈念sama閱讀 47,722評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像絮供,于是被迫代替她去往敵國(guó)和親衣吠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,611評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 老金的故事(故事有點(diǎn)長(zhǎng)但有深意) 老金:50多歲的上海男人壤靶,是個(gè)胖子缚俏,腦袋大脖子粗,說話聲音大贮乳,連喘氣聲音也大忧换,是...
    華芙餅閱讀 930評(píng)論 0 1
  • 和寶寶來到杭州,下午本打算帶寶寶走到斷橋向拆,但發(fā)現(xiàn)人太多了亚茬,只看的見人,看不見橋浓恳,所以刹缝,體驗(yàn)太差。吃個(gè)小麻糬都要10...
    奔跑的馬齒莧閱讀 161評(píng)論 0 0
  • 距離奶奶的80大壽還有一個(gè)月颈将,今天家族群里梢夯,孫子輩的孫子孫媳們?cè)谏塘拷o她老人家的生日驚喜,滿滿 的儀式感晴圾。 作為她...
    Anny陳老板閱讀 423評(píng)論 3 1
  • 剛剛上大學(xué)的時(shí)候颂砸,我覺得自己終于自由了,有了相當(dāng)大的‘財(cái)政大權(quán)’每月有一定的零用錢疑务。也可以吃想自己吃的東西...
    Mingming0812閱讀 164評(píng)論 0 1