前言
什么是ai,什么是nlp,人工智能(對(duì)話的助手踏幻、圖像識(shí)別)是怎么實(shí)現(xiàn)的,又是怎么應(yīng)用的戳杀。在入行語音語義產(chǎn)品之初這些疑問就一直縈繞著腦海中该面。
經(jīng)過2年的工作實(shí)踐和學(xué)習(xí)探索,我也慢慢打開了人工智能的黑盒子信卡,當(dāng)然還有很多的不足隔缀。網(wǎng)上對(duì)于ai尤其是nlp的介紹很多是偏技術(shù)導(dǎo)向的,讀起來一頭霧水晦澀難懂傍菇,對(duì)于非技術(shù)的同學(xué)和有興趣想了解的人來說實(shí)在是不太友好猾瘸,在這里想和大家一起分享下我的一些經(jīng)驗(yàn)和理解,給大家理解ai理解自然語言處理打開一個(gè)小口子丢习。
一牵触、人的思考模式和人工智能
人認(rèn)識(shí)世界是從低緯度到高緯度的
比如一個(gè)圖片
從圖片的部分,形成整體的
(盲人摸象)
比如一句話一句話
從字詞構(gòu)成咐低,到句子意思揽思,再聯(lián)系自身過往的人生經(jīng)驗(yàn)去理解
(蘇聯(lián)笑話)
相反地,人去表達(dá)出來的東西是高緯度的见擦,包括語音、動(dòng)作,和特定場(chǎng)景书劝、文化列粪、閱歷等等的因素都是有關(guān)的。對(duì)于機(jī)器(人工智能)要去理解它酒来,就需要效仿人的理解和認(rèn)識(shí)過程卢未,從低緯度到高緯度去過程去實(shí)現(xiàn),這個(gè)在圖像識(shí)別的神經(jīng)網(wǎng)絡(luò)中非常的明顯役首。
(cv神經(jīng)網(wǎng)絡(luò)各層的圖像化-jpg-從邊線到小組合到整體)
二尝丐、為什么神經(jīng)網(wǎng)絡(luò)要是這個(gè)樣子的,神經(jīng)網(wǎng)絡(luò)的是怎么實(shí)現(xiàn)的呢
人的思考和認(rèn)知是通過神經(jīng)突觸的生成來實(shí)現(xiàn)的衡奥,不同的刺激建立不同的神經(jīng)結(jié)構(gòu)爹袁,讓人們記住理解東西(可以這么理解,不一定對(duì))
(視頻)
而機(jī)器沒法生成新的突觸矮固,那么參考人的神經(jīng)的結(jié)構(gòu)失息,建立神經(jīng)元譬淳、樹突
(人工神經(jīng)網(wǎng)絡(luò)示意圖)
通過數(shù)據(jù)的輸入和調(diào)整參數(shù)(損失函數(shù)、梯度下降盹兢、負(fù)采樣邻梆、學(xué)習(xí)率等等都在這一環(huán)節(jié)),將神經(jīng)網(wǎng)絡(luò)的參數(shù)調(diào)整到認(rèn)識(shí)該類事物的绎秒。完成訓(xùn)練后對(duì)于同樣的事物就可以使用這個(gè)模型來處理了
(手寫數(shù)字識(shí)別-ann的case)
從這個(gè)圖像識(shí)別的case可以看到浦妄,進(jìn)入神經(jīng)網(wǎng)絡(luò)處理之前,比較核心的一部是把高緯度數(shù)據(jù)轉(zhuǎn)化為低緯度數(shù)據(jù)见芹,比如圖片剂娄,根據(jù)48*48像素轉(zhuǎn)化為「1*784」的矩陣,才能進(jìn)入神經(jīng)網(wǎng)絡(luò)處理玄呛,那么對(duì)于文本來說也適用嗎阅懦,文本也可以轉(zhuǎn)化為數(shù)字嗎
三、文本數(shù)字化-最初的word2vec
那么如何將字詞轉(zhuǎn)化為數(shù)據(jù)呢徘铝,在剛開始時(shí)人們采用的是one-hot 向量
什么是one-hot向量
(例子介紹)
one-hot向量的缺點(diǎn)
這個(gè)時(shí)候人們想到了耳胎,相似意義的字詞在一個(gè)足夠大的文章中,所在的上下文位置往往是一樣的:
中國的首都是北京
美國的首都是華盛頓
美國的首府是華盛頓
那么基于這種上下文信息能否挖掘到字詞的數(shù)據(jù)化表示呢惕它,答案肯定是可以的
谷歌的研究員在2013年先后提出了word2vec模型用來獲取詞向量怕午,也叫詞嵌入,就是把字詞嵌入進(jìn)向量空間中怠缸,在向量空間中我們至少可以看出诗轻,有相同含義的字詞在向量空間中的位置是非常接近的。而且他們甚至可以做加減法
(case 1:向量空間)
(case 2:queen=king-man+woman)
1.所有這些不同的單詞都有一條直的紅色列揭北。 它們?cè)谶@個(gè)維度上是相似的(雖然我們不知道每個(gè)維度是什么)
2.你可以看到“woman”和“girl”在很多地方是相似的扳炬,“man”和“boy”也是一樣
3.“boy”和“girl”也有彼此相似的地方,但這些地方卻與“woman”或“man”不同搔体。這些是否可以總結(jié)出一個(gè)模糊的“youth”概念恨樟?可能吧。
4.除了最后一個(gè)單詞疚俱,所有單詞都是代表人劝术。 我添加了一個(gè)對(duì)象“water”來顯示類別之間的差異。你可以看到藍(lán)色列一直向下并在 “water”的詞嵌入之前停下了呆奕。
5.“king”和“queen”彼此之間相似养晋,但它們與其它單詞都不同。這些是否可以總結(jié)出一個(gè)模糊的“royalty”概念梁钾?
那么這種數(shù)據(jù)是如何獲得的呢绳泉?在word2vec中有兩種方法,一種是cbow(連續(xù)詞袋模型)姆泻,另一種是skip-gram(跳字模型)
外文作者的內(nèi)容(這部分有點(diǎn)和ann-手寫數(shù)字識(shí)別重復(fù)了零酪,包括訓(xùn)練方法和過程)
四冒嫡、詞向量后的nlp更多應(yīng)用-機(jī)器翻譯、文本分類…
有了具備語義信息的詞向量四苇,很多文本任務(wù)就可以運(yùn)行起來了
一般的任務(wù)分類有如下:
(這個(gè)也可以用nlp算法歸類那一頁替代)
意圖識(shí)別孝凌、ner的算法介紹
五、語音助手產(chǎn)品-對(duì)話產(chǎn)品的設(shè)計(jì)和實(shí)現(xiàn)
這幾年人工智能大火月腋,語音助手也不是什么新鮮的概念了蟀架,比較有代表性的百度、蘋果罗售、谷歌辜窑、小米等等都推出了自己的語音助手,那么究竟語音助手是怎么實(shí)現(xiàn)的呢寨躁,由哪些技術(shù)組成呢?在語音語義產(chǎn)品設(shè)計(jì)的工作和傳統(tǒng)產(chǎn)品設(shè)計(jì)的工作又有沒有不同呢牙勘。
從用戶使用層面來說职恳,語音助手一般由兩個(gè)模塊構(gòu)成,一個(gè)是功能性技能方面,還有就是兜底類技能放钦。
功能性技能簡(jiǎn)單的說,就是用戶通過語音實(shí)現(xiàn)平時(shí)手機(jī)app上的操作恭金。比如在車載語音助手中操禀,我們用語音來發(fā)起導(dǎo)航、聽音樂横腿、打電話颓屑;在家庭場(chǎng)景用語音進(jìn)行視頻點(diǎn)播,控制一些智能設(shè)備耿焊,比如燈揪惦、空調(diào)、洗衣機(jī)掃地機(jī)器人等等罗侯。
那它實(shí)際的組成的模塊是怎么樣的呢
一般對(duì)話助手由五個(gè)組成部分:語音識(shí)別(ASR)器腋,自然語言理解(NLU),對(duì)話管理(DM)钩杰,自然語言生成(NLG)和文本到語音合成(TTS)纫塌。ASR通過深度學(xué)習(xí)技術(shù)得到了較好的解決。 NLG和TTS容易控制讲弄。對(duì)話系統(tǒng)設(shè)計(jì)的難點(diǎn)主要在于NLU和DM措左,這將在下面的段落中詳細(xì)討論。
(圖)
語境的概念垂睬,dm的概念和組成
六媳荒、對(duì)話產(chǎn)品/語音助手的設(shè)計(jì)的工作內(nèi)容或關(guān)注點(diǎn)就僅僅如此嗎
答案肯定不是的抗悍,對(duì)話產(chǎn)品和傳統(tǒng)的有ui界面的產(chǎn)品,需要更加關(guān)注和用戶的交互钳枕,不斷提升用戶的使用體驗(yàn)
對(duì)話產(chǎn)品的設(shè)計(jì)原則介紹
(圖)
對(duì)比一下兩個(gè)車載助手的case(蔚來 vs 吉利)
(視頻:電話case缴渊;地圖case)
由于現(xiàn)在的ai其實(shí)是基于統(tǒng)計(jì)的,所以很多好的體驗(yàn)是由產(chǎn)品構(gòu)建規(guī)則設(shè)計(jì)出來的鱼炒,這就尤其考驗(yàn)對(duì)用戶衔沼、場(chǎng)景、需求的把握和了解昔瞧,像我們一個(gè)看起來簡(jiǎn)單的導(dǎo)航功能指蚁,考慮到行程狀態(tài)和用戶需求,就有近千個(gè)處理的規(guī)則自晰,來保證用戶的體驗(yàn)
對(duì)話產(chǎn)品的評(píng)測(cè)指標(biāo):聽清凝化、聽懂、滿足酬荞、快捷(需求滿足度)
需求滿足度:
引導(dǎo)救回和閑聊:
七搓劫、對(duì)話產(chǎn)品的最新進(jìn)展和未來思考
1、預(yù)訓(xùn)練帶來的黃金10年:bert混巧、transformer
2枪向、具備常識(shí)和推理能力的ai會(huì)是下一個(gè)目標(biāo)
3、nlp+cv+others咧党,多模態(tài)交互和萬物互聯(lián)是未來趨勢(shì)(發(fā)現(xiàn)用戶秘蛔、了解用戶、滿足用戶)