語(yǔ)音技術(shù)的進(jìn)步增強(qiáng)了電腦的理解能力官还,減少了對(duì)其的恐懼
英國(guó)科幻小說家 Arthuc C.Clarke 的筆記提到痊剖,
任何科技得到足夠的進(jìn)步時(shí)與魔術(shù)之間就難以區(qū)分了菠齿。
計(jì)算機(jī)語(yǔ)音技術(shù)的快速進(jìn)步惭每。使用這種技術(shù)就像念咒語(yǔ)一樣人灼,對(duì)著空氣說幾個(gè)詞围段,然后在附近的設(shè)備就會(huì)響應(yīng)你的命令。
亞馬遜出了一款放在桌面的圓柱形的語(yǔ)音設(shè)備 Echo投放,里面的的語(yǔ)音助手叫做 Alexa奈泪。你可以叫他播放音樂和電臺(tái)節(jié)目,講笑話灸芳,回答一些瑣碎的問題涝桅,甚至還能控制一些智能家具。截止至圣誕節(jié)前的數(shù)據(jù)烙样,美國(guó)大約有 4% 的家庭擁有該設(shè)備冯遂,而且語(yǔ)音助手的數(shù)量在智能手機(jī)上快速增加。蘋果公司的 Siri 每周要處理兩百萬的條命令谒获。美國(guó)的安卓用戶有 20% 使用 Google 搜索時(shí)是用語(yǔ)音輸入關(guān)鍵字的「蚣。現(xiàn)在用語(yǔ)音來寫電子郵件和短信的準(zhǔn)確率已經(jīng)足夠令人滿意了壁却,那么我們可以用語(yǔ)音輸入的時(shí)候我們?yōu)槭裁匆蜃帜兀?/p>
語(yǔ)音輸入這是非常大的轉(zhuǎn)變。這好像變得變得足夠簡(jiǎn)單寻定,通過使用自然的語(yǔ)句儒洛,語(yǔ)音是一種強(qiáng)大的文字轉(zhuǎn)換解決方式。窗口狼速,圖標(biāo)琅锻,菜單還有觸摸屏,更加喜歡用自然的方式來與計(jì)算機(jī)交互而不是用鍵盤輸入復(fù)雜的命令向胡。
但是不管怎么樣在能夠與電腦進(jìn)行溝通前我們需要一個(gè)好看的外觀恼蓬。類似于把手機(jī)天線隱藏掉,汽車的運(yùn)輸貨物時(shí)也不再需要用馬來拉僵芹,因此相對(duì)與目前的人們能想到的語(yǔ)音技術(shù)处硬,沒有屏幕和鍵盤的電腦可能更加有效,強(qiáng)大和普遍拇派。
語(yǔ)音技術(shù)不會(huì)完全取代其他形式的輸入或輸出荷辕,有時(shí)仍然會(huì)使用打字而不是語(yǔ)音( Amazon 說也可以使用 Echo 上的屏幕來實(shí)現(xiàn)交互)的方式來與機(jī)器進(jìn)行交互。但是語(yǔ)音可以增加了大量被科技包圍的用戶間的互動(dòng)分享件豌。例如洗衣機(jī)上的虛擬助手會(huì)通過你指定的控制中心告訴你轉(zhuǎn)了多少次疮方。但是,為了發(fā)掘全部潛能茧彤,需要更加超前的技術(shù)還有一系列在方便與隱私之間進(jìn)行權(quán)衡的問題骡显。
Alexa,它是深度學(xué)習(xí)的嗎曾掂?
語(yǔ)音識(shí)別系統(tǒng)已經(jīng)出現(xiàn)一年多了惫谤,但它還是不可靠而且需要長(zhǎng)時(shí)間的訓(xùn)練識(shí)別才能知道用戶的聲音。現(xiàn)在計(jì)算機(jī)借助深度學(xué)習(xí)這一新「技能」可以不通過訓(xùn)練而且可靠的辨識(shí)幾乎所有的人的聲音珠洗。深度學(xué)習(xí)是使用從互聯(lián)網(wǎng)上獲取的數(shù)百萬的樣本來訓(xùn)練機(jī)器溜歪,時(shí)期具有類似人的智力的一個(gè)軟件系統(tǒng)。借助深度學(xué)習(xí)许蓖,現(xiàn)在機(jī)器具有接近用人來翻譯的精確程度痹愚,將結(jié)果存入翻譯系統(tǒng)可以快速提高它的能力,而且機(jī)器將語(yǔ)言說出來的時(shí)候聲音更加自然而不會(huì)非常像生硬蛔糯≌總得來說,在各種形式中計(jì)算機(jī)可以更好的處理自然語(yǔ)言蚁飒。
雖然深度學(xué)習(xí)可以使機(jī)器辨認(rèn)說話者更加可靠而且使機(jī)器發(fā)出的聲音更加自然动壤,但是仍然無法理解所說的話的含義。這在所有的因素中是最困難的問題淮逻。如果語(yǔ)音設(shè)備足夠多的話琼懊,這個(gè)問題可能可以解決阁簸。計(jì)算機(jī)必須要理解其中的內(nèi)容才能維持連貫的談話而不是做一些簡(jiǎn)單的反饋。據(jù)調(diào)查哼丈,一天中使用最多的一條語(yǔ)音命令是「Hey启妹,Siri,設(shè)10分鐘記時(shí)」醉旦。大大小小的在大學(xué)里和公司里的研究人員都在研究怎么解決這個(gè)問題饶米,創(chuàng)建一個(gè)「機(jī)器人」可以處理更多詳細(xì)談話中的復(fù)雜內(nèi)容,例如從獲取信息來勸告使用者在抵押貸款來指定旅游計(jì)劃车胡。(此外檬输,Amazon 懸賞一百萬美金在20分鐘機(jī)器人與人的交流中,機(jī)器人具有連貫性和有吸引力的人)
當(dāng)自然對(duì)話代替固定指令時(shí)
顧客和監(jiān)管機(jī)構(gòu)在計(jì)算機(jī)語(yǔ)音的發(fā)展上總是扮演了一個(gè)決定性的角色匈棘。即使在目前丧慈,相對(duì)原始的模型已經(jīng)形成,科技公司處在一個(gè)左右為難的位置主卫。實(shí)現(xiàn)語(yǔ)音駕駛系統(tǒng)個(gè)性化推薦最有用的方法就是使用廣泛的個(gè)人數(shù)據(jù)逃默,例如日歷,郵件和其他敏感信息簇搅。這會(huì)增加對(duì)隱私和安全的擔(dān)心完域。
為了應(yīng)對(duì)未來復(fù)雜的事情,許多語(yǔ)音駕駛設(shè)備會(huì)一直在監(jiān)聽和等待被使用者激活馍资,一些人已經(jīng)擔(dān)心會(huì)暗中通過互聯(lián)網(wǎng)來連接麥克風(fēng)來監(jiān)聽每一間房間和每一臺(tái)智能手機(jī)。其實(shí)关噪,不是所有的聲音都會(huì)發(fā)送到云端鸟蟹,設(shè)備在開始回應(yīng)使用者的語(yǔ)音前會(huì)等待一些關(guān)鍵詞(例如:「Alexa」,「OK使兔,Google」建钥,「Hey,小娜」或者「Hey虐沥,Siri」)才會(huì)作出對(duì)應(yīng)的回答熊经。但當(dāng)在存儲(chǔ)的語(yǔ)音時(shí),機(jī)器是分不清要儲(chǔ)存什么和什么時(shí)候儲(chǔ)存的欲险。
據(jù)警察在 Arkansas 調(diào)查謀殺犯的時(shí)候镐依,他們無意中聽到 Amazon Echo 用語(yǔ)音在回答公司的許可證時(shí)才將犯人抓獲。由于目前的法律條文還不太清析天试。Amazon 拒絕與其合作調(diào)查槐壳,(與隱私擁護(hù)者)爭(zhēng)論。類似的狀況也發(fā)生在 2016 蘋果拒絕 FBI 的請(qǐng)求去解鎖恐怖分子的手機(jī)[1]喜每。這兩件事都放映需要特別的規(guī)章來界定面對(duì)安全問題時(shí)务唐,在什么時(shí)候和以怎樣的方式來獲得個(gè)人隱私雳攘。
消費(fèi)者將會(huì)適應(yīng)用語(yǔ)音使用計(jì)算機(jī),即使現(xiàn)在還有很多問題沒有解決枫笛。在很多情況下吨灭,語(yǔ)音比起其他的溝通反思更加方便和更加自然。獨(dú)一無二的交互方式刑巧,它可以被用來做一些其他的事情(駕駛喧兄,工作中或者在街上行走)。它可以擴(kuò)展計(jì)算機(jī)人類無法實(shí)現(xiàn)的能力海诲,除了用屏幕和鍵盤繁莹。它不僅會(huì)對(duì)計(jì)算機(jī)產(chǎn)生巨大的影響,而且還會(huì)對(duì)語(yǔ)言本身的使用產(chǎn)生巨大的影響特幔。電腦化的同聲翻譯可以使不相關(guān)的不同外語(yǔ)使用自由交流咨演;而在一個(gè)世界里,機(jī)器會(huì)說話蚯斯,這樣小語(yǔ)種可能更容易生存薄风。觸摸屏的到來是過去人類與計(jì)算機(jī)的交互方式最大的轉(zhuǎn)變。但語(yǔ)音的飛躍更重要拍嵌。