前言:
難道你就不好奇趋距,AI音箱是怎樣做出決定的嗎驰后?這就像別人問(wèn)你中午吃什么呀鸦难,然后你想:我吃這個(gè)吧珍语,不强衡,那就那個(gè)吧形葬,不合呐,選來(lái)選去還是選擇了別的.....
正文:
AI與人類(lèi)不同,它沒(méi)有發(fā)達(dá)的大腦笙以,無(wú)法自主的做出任何決定淌实。它所有的工作都要通過(guò)人類(lèi)的幫助來(lái)實(shí)現(xiàn)。那它理解語(yǔ)言的過(guò)程究竟是怎樣的呢猖腕?這就涉及到了NLP(自然語(yǔ)言處理)拆祈。顧名思義,它就是AI用來(lái)處理語(yǔ)言的方式倘感,而現(xiàn)在大部分公司所使用的工具都是python放坏。
下面舉例說(shuō)明
你 ??????? ???:天是什么顏色
某AI音箱:藍(lán)色
當(dāng)你說(shuō)完“天是什么顏色”這句話之后,AI音箱接受到了你的指令侠仇,然后它就要去搜索答案轻姿。這就涉及到了中文分詞和關(guān)鍵詞。什么是中文分詞呢逻炊?就是把一句切分成很多個(gè)詞組互亮。如:天是什么顏色,它的中文分詞可能是:天|是|什么|顏色
那什么是關(guān)鍵詞呢余素?如下:“天是什么顏色的”關(guān)鍵詞我們可以標(biāo)注成豹休,天|顏色。那天和顏色就是這句話的關(guān)鍵詞桨吊。
然后AI通過(guò)分詞和關(guān)鍵詞去搜索相關(guān)的答案威根,最后給出結(jié)果(藍(lán)色)。如果中文分詞和關(guān)鍵詞有一方標(biāo)注出錯(cuò)视乐,那出來(lái)的結(jié)果也會(huì)是錯(cuò)誤的洛搀。這就是我們所說(shuō)的badcase。在工作中我們需要去改badcase和標(biāo)注關(guān)鍵詞佑淀。
badcase有三種:
①中文分詞錯(cuò)誤 ??②關(guān)鍵詞錯(cuò)誤? ③中文分詞和關(guān)鍵詞均錯(cuò)
badcase的第一種和第二種留美,拿過(guò)來(lái)直接改就好。第三種會(huì)比較麻煩,需要同時(shí)看中文分詞的文件和關(guān)鍵詞的文件來(lái)處理谎砾。而分詞本身就很容易出問(wèn)題逢倍,如多音字造成的badcase
例? ?:花都是什么顏色的? ?
分詞:花 都是 什么 顏色 的 ——正確
????????? ??花都 是什么 顏色 的 ?——錯(cuò)誤
上面那句話正常我們都是說(shuō)花都(dou) 景图,可花都(du)也是一個(gè)詞较雕,但程序在切分的時(shí)候很容易混淆,所以會(huì)出現(xiàn)badcase挚币。
小知識(shí):中文分詞上歧義——組合型歧義和交集型歧義
例:研究生物的起源”可以切分為?
研究 ?生物?的 ?起源?
研究生 ?物 ?的 ?起源?
?其中亮蒋,“研究生物”為交集歧義字段。?
?
他 ?從 ?馬 ?上 ?下來(lái)?
他 ?從 ?馬上 ?下來(lái)?
?其中妆毕,“馬上”為組合型歧義字段宛蚓。
還是以“花都是什么顏色的”為例:
關(guān)鍵詞: 花 顏色
分 詞 :
① 花都 是 什么 顏色 的
② 花 都是 什么 顏色的
③花都 是 什么 顏色的
④花 都 是 什么 顏色 的
那請(qǐng)問(wèn)關(guān)鍵詞和哪一組分詞的組合不是badcase呢?
首先分詞1是badcase设塔,因?yàn)樵谶@句話的本意不是花都凄吏,所以分詞錯(cuò)誤。
而分詞2闰蛔,沒(méi)有“花都”的錯(cuò)誤痕钢,但它有“的”的錯(cuò)誤。什么是“的”的錯(cuò)誤呢序六?首先我們需要看關(guān)鍵詞任连,這句話的關(guān)鍵詞是花|顏色,所以在分詞里面例诀,顏色需要和的分開(kāi)随抠,所以這分詞和關(guān)鍵詞的組合是badcase。
再看分詞3繁涂,它綜合了分詞1和2的兩處錯(cuò)誤拱她,“花都”和“的”。所以它也是badcase扔罪。
而最后一組和關(guān)鍵詞的組合就不是badcase了秉沼。
小知識(shí):分詞粒度
然后我們?cè)诜催^(guò)來(lái)看分詞中的詞組如“顏色”,它是分詞中切分出來(lái)的一個(gè)序列矿酵,它的分詞粒度是二唬复。什么是分詞粒度,就是這個(gè)詞組的長(zhǎng)度全肮,如果是:“五顏六色”那它的分詞粒度就是四敞咧。
接著我們來(lái)看分詞和關(guān)鍵詞都有問(wèn)題的badcase
例句:天為什么是藍(lán)顏色的
① 關(guān)鍵詞??? 藍(lán) 顏色
? 分?? 詞 ? 天 為什么 是 藍(lán) 顏色的
②關(guān)鍵詞??? 天 顏色的
??分? 詞 ?? 天 為什么 是 藍(lán)顏色 的
③關(guān)鍵詞? ?天 顏色
? 分? 詞 ? 天 為什么 是 藍(lán) 顏色 的
很明顯第三組分詞和關(guān)鍵詞的組合不是badcase。
第一組錯(cuò)在辜腺,關(guān)鍵詞沒(méi)有主語(yǔ)休建,分詞應(yīng)該吧顏色和的分開(kāi)柱锹。
第二組錯(cuò)在,關(guān)鍵詞應(yīng)該是顏色而不是顏色的丰包,分詞應(yīng)該是 藍(lán) 顏色。
看這組的例句壤巷,天為什么是藍(lán)顏色的
在分詞正確的情況下邑彪,它的關(guān)鍵詞有幾種標(biāo)法?
① 天 藍(lán) ② 天 顏色 ③ 天 藍(lán)顏色
除此之外胧华,NLP里還包含了許多的知識(shí):語(yǔ)料庫(kù)寄症、詞法分析、漢字編碼矩动、句法分析有巧、語(yǔ)義分析、文本生成悲没、語(yǔ)音識(shí)別篮迎、等。更具體的各位可以去咨詢自己公司的智慧大腦——研發(fā)哥哥們示姿。他們的大腦儲(chǔ)存了很多知識(shí)甜橱,可以去深挖一下~