什么是自然語(yǔ)言處理鳄乏?
NLP 代表自然語(yǔ)言處理。NLP 是人類語(yǔ)言链方、計(jì)算機(jī)科學(xué)和人工智能的一個(gè)子領(lǐng)域。NLP 的目標(biāo)是向機(jī)器教授自然語(yǔ)言趾撵。這個(gè)想法不僅是機(jī)器應(yīng)該理解侄柔,而且它們也應(yīng)該交流。
根據(jù) Wikipedia 的定義占调,NLP [它是語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和人工智能的一個(gè)子領(lǐng)域移剪,涉及計(jì)算機(jī)與人類語(yǔ)言之間的交互究珊,特別是如何對(duì)計(jì)算機(jī)進(jìn)行編程以處理和分析大量自然語(yǔ)言數(shù)據(jù)]。
NLP 的需求是什么纵苛?
在神經(jīng)心理學(xué)剿涮、語(yǔ)言學(xué)和語(yǔ)言哲學(xué)中言津,自然語(yǔ)言或普通語(yǔ)言是人類通過(guò)使用和重復(fù)而自然進(jìn)化的任何語(yǔ)言,而無(wú)需有意識(shí)的計(jì)劃或預(yù)謀取试。自然語(yǔ)言可以采用不同的形式悬槽,例如語(yǔ)音或手語(yǔ)。它們與諸如用于計(jì)算機(jī)編程或研究邏輯的構(gòu)造語(yǔ)言和形式語(yǔ)言不同瞬浓。
簡(jiǎn)而言之初婆,由于使用和重復(fù)而在人類中自發(fā)進(jìn)化的任何語(yǔ)言,都被語(yǔ)言學(xué)猿棉、神經(jīng)心理學(xué)和語(yǔ)言哲學(xué)視為自然語(yǔ)言或普通語(yǔ)言磅叛。自然語(yǔ)言不同于構(gòu)造語(yǔ)言,如 Python萨赁、Java弊琴、C++ 編程語(yǔ)言。
如果我們了解人類歷史或人類進(jìn)化史杖爽,我們注意到在幾百萬(wàn)年之前我們就像動(dòng)物一樣敲董,但快進(jìn)幾百萬(wàn)年,人類已經(jīng)進(jìn)化了慰安。就像人類進(jìn)入太空一樣臣缀,他們使用各種技術(shù),而動(dòng)物們?nèi)匀辉趨擦种须x開(kāi)泻帮,并在數(shù)百萬(wàn)年中過(guò)著同樣的生活精置。所以問(wèn)題是我們(人類)做了什么而超越了動(dòng)物。所以我認(rèn)為有兩個(gè)因素锣杂,第一個(gè)因素是溝通和語(yǔ)言脂倦。無(wú)論我們?nèi)〉昧耸裁闯删停饕蛩厥俏覀兡軌蛳嗷ソ涣髟覀兡軌蚍窒砦覀兊南敕ɡ底琛N覀儼押芏嘞敕◤囊淮鷤鞯搅硪淮拖駮粯吁獯馈UZ(yǔ)言和交流有助于人類的成長(zhǎng)和進(jìn)化火欧。第二個(gè)因素是機(jī)器的使用。我們?yōu)椴煌挠騽?chuàng)建了很多機(jī)器茎截。那臺(tái)機(jī)器幫助人類越來(lái)越快地成長(zhǎng)和進(jìn)化苇侵。
第三個(gè)因素是我們將能夠與機(jī)器交流,就像我們與人類同胞交流一樣企锌。例如榆浓,想象一個(gè)我們與任何機(jī)器(例如 ATM)進(jìn)行通信的世界。想象一個(gè)老人想從ATM機(jī)上取錢撕攒,但是他不懂界面陡鹃。ATM機(jī)將幫助該人與機(jī)器進(jìn)行通信并協(xié)助他取款烘浦。
現(xiàn)實(shí)世界的應(yīng)用
我們?cè)谌粘I钪惺褂玫囊恍?yīng)用程序我們非常了解。Alexa萍鲸、Siri闷叉、Cortana 和聊天機(jī)器人都是NLP 應(yīng)用的示例。
讓我們討論更多的 NLP 應(yīng)用脊阴。
a. 上下文廣告:我們知道握侧,在 90 年代,我們過(guò)去常常觀看比賽蹬叭、電影或連續(xù)劇藕咏,充滿了各種廣告。公司假設(shè)有人會(huì)購(gòu)買該產(chǎn)品秽五。但是今天孽查,我們有了 NLP,我們可以處理和觀察人們的行為方式坦喘,他是什么樣的個(gè)性盲再,所以我們可以在這里使用有針對(duì)性的廣告。
我們都知道瓣铣,我們總是在社交網(wǎng)站上看到不同的廣告答朋。那么公司會(huì)做什么,他們會(huì)檢查個(gè)人資料棠笑、帖子或分析評(píng)論梦碗,并根據(jù)他們確定此人對(duì)運(yùn)動(dòng)、技術(shù)或化妝品感興趣蓖救。在此基礎(chǔ)上洪规,他們向我們展示了有針對(duì)性的廣告。
b. 電子郵件客戶端(垃圾郵件過(guò)濾循捺、智能回復(fù)):我們都知道垃圾郵件斩例。在這種情況下,某家公司向我們發(fā)送了一封郵件从橘,如果 Gmail 看起來(lái)念赶,這封郵件是垃圾郵件,那么它會(huì)自動(dòng)移至垃圾郵件文件夾恰力,而普通電子郵件則位于普通文件夾中叉谜。
還添加了新功能,如果我們收到某人的郵件牺勾,那么我們可以看到我們得到了一個(gè)聰明的回復(fù)(這是一種建議)正罢。建議會(huì)根據(jù)電子郵件內(nèi)容顯示。
c. 社交媒體:社交媒體中的一項(xiàng)具有挑戰(zhàn)性的任務(wù)是刪除成人內(nèi)容驻民。就像我們創(chuàng)建了一些社交媒體應(yīng)用程序翻具,數(shù)百萬(wàn)人在其中上傳了大量?jī)?nèi)容,以及我們?nèi)绾螐倪@些內(nèi)容中過(guò)濾成人內(nèi)容回还,或者一些用戶正在傳播負(fù)面或仇恨言論裆泳,因此將予以解決。我們可以使用 NLP 解決這些問(wèn)題柠硕。
d. 搜索引擎:我們可以以谷歌搜索引擎為例工禾。在那里我們可以直接向谷歌搜索一些一般性的問(wèn)題,即印度的首都是什么蝗柔。所以谷歌將獲取數(shù)據(jù)并在一行中顯示答案闻葵。
e. 聊天機(jī)器人:在當(dāng)今世界,很多公司都在使用聊天機(jī)器人癣丧。因此槽畔,聊天機(jī)器人的交流就像某個(gè)人像客戶主管一樣坐在另一端。假設(shè)我們以 Zomato 為例胁编,因?yàn)?Zomato 擁有數(shù)百萬(wàn)客戶厢钧,因此他們無(wú)法容納更多的客戶主管。因此嬉橙,聊天機(jī)器人有助于解決和提供初始級(jí)別的信息早直。
自然語(yǔ)言處理主要步驟包括:
分詞(只針對(duì)中文,英文等西方字母語(yǔ)言已經(jīng)用空格做好分詞了):將文章按詞組分開(kāi)
詞法分析:對(duì)于英文市框,有詞頭霞扬、詞根、詞尾的拆分枫振,名詞喻圃、動(dòng)詞、形容詞蒋得、副詞级及、介詞的定性,多種詞意的選擇额衙。比如DIAMOND饮焦,有菱形、棒球場(chǎng)窍侧、鉆石3個(gè)含義县踢,要根據(jù)應(yīng)用選擇正確的意思。
語(yǔ)法分析:通過(guò)語(yǔ)法樹(shù)或其他算法伟件,分析主語(yǔ)硼啤、謂語(yǔ)、賓語(yǔ)斧账、定語(yǔ)谴返、狀語(yǔ)煞肾、補(bǔ)語(yǔ)等句子元素。
語(yǔ)義分析:通過(guò)選擇詞的正確含義嗓袱,在正確句法的指導(dǎo)下籍救,將句子的正確含義表達(dá)出來(lái)。方法主要有語(yǔ)義文法渠抹、格文法蝙昙。
但是以上的分析,僅適用于小規(guī)模的實(shí)驗(yàn)室研究梧却,遠(yuǎn)不能應(yīng)用到實(shí)際語(yǔ)言環(huán)境中奇颠,比如說(shuō)語(yǔ)法,我們能總結(jié)出的語(yǔ)法是有限的放航,可是日常應(yīng)用的句子烈拒,絕大部分是不遵守語(yǔ)法的,如果讓語(yǔ)法包羅所有可能的應(yīng)用三椿,會(huì)出現(xiàn)爆炸的景象缺菌。
常見(jiàn)的 NLP 任務(wù)
a. 文本/文檔分類:文本分類是最基本的 NLP 任務(wù)之一,包括根據(jù)內(nèi)容為文本分配類別(標(biāo)簽)搜锰。
b. 情感分析:這是一種文本分類伴郁,其中 NLP 算法確定文本的正面、負(fù)面或中性內(nèi)涵蛋叼。用例包括通過(guò)分析推文焊傅、帖子、評(píng)論和其他反應(yīng)來(lái)分析客戶的反饋狈涮、檢測(cè)趨勢(shì)狐胎、進(jìn)行市場(chǎng)研究等。情緒分析可以涵蓋從 App Store 上發(fā)布新游戲到政治演講和監(jiān)管變化的所有內(nèi)容歌馍。
c. 信息檢索:假設(shè)我們有一些文本握巢,我們必須從該文本中提取名稱、位置松却、日期暴浦、產(chǎn)品名稱等實(shí)體。如果我們必須提取它晓锻,任何類似信息的東西都會(huì)在檢索中出現(xiàn)歌焦。
d. 詞性標(biāo)注:這是重要的文本預(yù)處理步驟之一。我們做什么砚哆,我們擁有的文本独撇,從該文本中,我們?yōu)槊總€(gè)單詞分配一個(gè)詞性,就像它是名詞或動(dòng)詞或形容詞或副詞一樣纷铣。此方法用于聊天機(jī)器人卵史,以便聊天機(jī)器人可以逐字理解每個(gè)單詞。
e. 語(yǔ)言檢測(cè)和機(jī)器翻譯:我們都知道谷歌翻譯使用相同的方法关炼。我們使用谷歌翻譯程腹,我們知道這是一個(gè)如此強(qiáng)大的應(yīng)用程序匣吊。存在許多語(yǔ)言的地方儒拂。即使我們知道一種語(yǔ)言,我們也可以了解其他語(yǔ)言色鸳。我們可以將文本數(shù)據(jù)從一種語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言社痛。
f. 對(duì)話代理:對(duì)話代理就像一個(gè)聊天機(jī)器人,但存在兩種聊天機(jī)器人命雀。一種是基于文本的蒜哀,另一種是基于語(yǔ)音的。我們可以舉一個(gè) Siri 或 Alexa 的例子吏砂,它們都是基于語(yǔ)音的撵儿。如果我們談?wù)撾妶?bào)、遠(yuǎn)足狐血,或者在 Swiggy 或 Zomato 上淀歇,他們有一個(gè)基于文本的聊天機(jī)器人。
g. 知識(shí)圖譜和 QA 系統(tǒng):假設(shè)我們有大量的數(shù)據(jù)庫(kù)匈织,并且從該數(shù)據(jù)庫(kù)中浪默,我們嘗試使用某種邏輯連接實(shí)體,然后我們制作一個(gè)知識(shí)圖譜缀匕,然后我們可以將其轉(zhuǎn)換為一個(gè) Question-Ask 申請(qǐng)纳决。
h. 文本摘要:這基本上就像,假設(shè)我們有一篇完整的文章乡小,我們可以從那篇文章中做一個(gè)總結(jié)阔加。我們可以給出一個(gè)小表格。我們可以舉的例子之一是 Inshorts 新聞應(yīng)用程序满钟。所以基本上這個(gè)應(yīng)用程序所做的就是幫助將新聞縮短為 60 字的新聞?wù)?/p>
i. 文本生成:我們?cè)谌粘I钪卸际褂梦谋旧墒だ啤<慈绻覀兛吹剑阪I盤中零远,當(dāng)我們根據(jù)您之前的打字行為自動(dòng)鍵入內(nèi)容時(shí)苗分,它會(huì)預(yù)測(cè)下一個(gè)單詞,并且我們都知道在與某人聊天時(shí)使用了多少牵辣。
j. 拼寫檢查和語(yǔ)法糾正:如果句子形成中出現(xiàn)拼寫錯(cuò)誤或發(fā)生某些語(yǔ)法錯(cuò)誤摔癣,它會(huì)突出顯示該單詞,以便我們改進(jìn)該單詞或句子。
k. 語(yǔ)音轉(zhuǎn)文本:在這里择浊,我們創(chuàng)建了一個(gè)像 Siri 和 Alexa 這樣的會(huì)話代理戴卜。此外,此 NLP 任務(wù)用于我們所說(shuō)的谷歌翻譯并將其轉(zhuǎn)換為文本琢岩。這也有助于我們用一種語(yǔ)言說(shuō)話并且我們可以轉(zhuǎn)換成另一種語(yǔ)言投剥。例如,不同國(guó)家的人們?cè)噲D交流担孔,但他們不理解彼此的語(yǔ)言江锨。所以谷歌翻譯幫助他們理解彼此的語(yǔ)言并進(jìn)行交流。
總之糕篇,目前ChatGPT的爆火啄育,使得國(guó)內(nèi)各大廠商開(kāi)始布局人工智能模型的具體應(yīng)用落地,一切技術(shù)都是為了提高人類生產(chǎn)生活而不斷的進(jìn)步拌消,學(xué)習(xí)永無(wú)止境挑豌,愿你我共同進(jìn)步,不被時(shí)代的潮流所遺棄墩崩。