自然語(yǔ)言處理(NLP)的初步理解

什么是自然語(yǔ)言處理鳄乏?

NLP 代表自然語(yǔ)言處理。NLP 是人類語(yǔ)言链方、計(jì)算機(jī)科學(xué)和人工智能的一個(gè)子領(lǐng)域。NLP 的目標(biāo)是向機(jī)器教授自然語(yǔ)言趾撵。這個(gè)想法不僅是機(jī)器應(yīng)該理解侄柔,而且它們也應(yīng)該交流。

根據(jù) Wikipedia 的定義占调,NLP [它是語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和人工智能的一個(gè)子領(lǐng)域移剪,涉及計(jì)算機(jī)與人類語(yǔ)言之間的交互究珊,特別是如何對(duì)計(jì)算機(jī)進(jìn)行編程以處理和分析大量自然語(yǔ)言數(shù)據(jù)]。

NLP 的需求是什么纵苛?

在神經(jīng)心理學(xué)剿涮、語(yǔ)言學(xué)和語(yǔ)言哲學(xué)中言津,自然語(yǔ)言或普通語(yǔ)言是人類通過(guò)使用和重復(fù)而自然進(jìn)化的任何語(yǔ)言,而無(wú)需有意識(shí)的計(jì)劃或預(yù)謀取试。自然語(yǔ)言可以采用不同的形式悬槽,例如語(yǔ)音或手語(yǔ)。它們與諸如用于計(jì)算機(jī)編程或研究邏輯的構(gòu)造語(yǔ)言和形式語(yǔ)言不同瞬浓。

簡(jiǎn)而言之初婆,由于使用和重復(fù)而在人類中自發(fā)進(jìn)化的任何語(yǔ)言,都被語(yǔ)言學(xué)猿棉、神經(jīng)心理學(xué)和語(yǔ)言哲學(xué)視為自然語(yǔ)言或普通語(yǔ)言磅叛。自然語(yǔ)言不同于構(gòu)造語(yǔ)言,如 Python萨赁、Java弊琴、C++ 編程語(yǔ)言。

如果我們了解人類歷史或人類進(jìn)化史杖爽,我們注意到在幾百萬(wàn)年之前我們就像動(dòng)物一樣敲董,但快進(jìn)幾百萬(wàn)年,人類已經(jīng)進(jìn)化了慰安。就像人類進(jìn)入太空一樣臣缀,他們使用各種技術(shù),而動(dòng)物們?nèi)匀辉趨擦种须x開(kāi)泻帮,并在數(shù)百萬(wàn)年中過(guò)著同樣的生活精置。所以問(wèn)題是我們(人類)做了什么而超越了動(dòng)物。所以我認(rèn)為有兩個(gè)因素锣杂,第一個(gè)因素是溝通和語(yǔ)言脂倦。無(wú)論我們?nèi)〉昧耸裁闯删停饕蛩厥俏覀兡軌蛳嗷ソ涣髟覀兡軌蚍窒砦覀兊南敕ɡ底琛N覀儼押芏嘞敕◤囊淮鷤鞯搅硪淮拖駮粯吁獯馈UZ(yǔ)言和交流有助于人類的成長(zhǎng)和進(jìn)化火欧。第二個(gè)因素是機(jī)器的使用。我們?yōu)椴煌挠騽?chuàng)建了很多機(jī)器茎截。那臺(tái)機(jī)器幫助人類越來(lái)越快地成長(zhǎng)和進(jìn)化苇侵。

第三個(gè)因素是我們將能夠與機(jī)器交流,就像我們與人類同胞交流一樣企锌。例如榆浓,想象一個(gè)我們與任何機(jī)器(例如 ATM)進(jìn)行通信的世界。想象一個(gè)老人想從ATM機(jī)上取錢撕攒,但是他不懂界面陡鹃。ATM機(jī)將幫助該人與機(jī)器進(jìn)行通信并協(xié)助他取款烘浦。

現(xiàn)實(shí)世界的應(yīng)用

我們?cè)谌粘I钪惺褂玫囊恍?yīng)用程序我們非常了解。Alexa萍鲸、Siri闷叉、Cortana 和聊天機(jī)器人都是NLP 應(yīng)用的示例。

讓我們討論更多的 NLP 應(yīng)用脊阴。

a. 上下文廣告:我們知道握侧,在 90 年代,我們過(guò)去常常觀看比賽蹬叭、電影或連續(xù)劇藕咏,充滿了各種廣告。公司假設(shè)有人會(huì)購(gòu)買該產(chǎn)品秽五。但是今天孽查,我們有了 NLP,我們可以處理和觀察人們的行為方式坦喘,他是什么樣的個(gè)性盲再,所以我們可以在這里使用有針對(duì)性的廣告。

我們都知道瓣铣,我們總是在社交網(wǎng)站上看到不同的廣告答朋。那么公司會(huì)做什么,他們會(huì)檢查個(gè)人資料棠笑、帖子或分析評(píng)論梦碗,并根據(jù)他們確定此人對(duì)運(yùn)動(dòng)、技術(shù)或化妝品感興趣蓖救。在此基礎(chǔ)上洪规,他們向我們展示了有針對(duì)性的廣告。

b. 電子郵件客戶端(垃圾郵件過(guò)濾循捺、智能回復(fù)):我們都知道垃圾郵件斩例。在這種情況下,某家公司向我們發(fā)送了一封郵件从橘,如果 Gmail 看起來(lái)念赶,這封郵件是垃圾郵件,那么它會(huì)自動(dòng)移至垃圾郵件文件夾恰力,而普通電子郵件則位于普通文件夾中叉谜。

還添加了新功能,如果我們收到某人的郵件牺勾,那么我們可以看到我們得到了一個(gè)聰明的回復(fù)(這是一種建議)正罢。建議會(huì)根據(jù)電子郵件內(nèi)容顯示。

c. 社交媒體:社交媒體中的一項(xiàng)具有挑戰(zhàn)性的任務(wù)是刪除成人內(nèi)容驻民。就像我們創(chuàng)建了一些社交媒體應(yīng)用程序翻具,數(shù)百萬(wàn)人在其中上傳了大量?jī)?nèi)容,以及我們?nèi)绾螐倪@些內(nèi)容中過(guò)濾成人內(nèi)容回还,或者一些用戶正在傳播負(fù)面或仇恨言論裆泳,因此將予以解決。我們可以使用 NLP 解決這些問(wèn)題柠硕。

d. 搜索引擎:我們可以以谷歌搜索引擎為例工禾。在那里我們可以直接向谷歌搜索一些一般性的問(wèn)題,即印度的首都是什么蝗柔。所以谷歌將獲取數(shù)據(jù)并在一行中顯示答案闻葵。

e. 聊天機(jī)器人:在當(dāng)今世界,很多公司都在使用聊天機(jī)器人癣丧。因此槽畔,聊天機(jī)器人的交流就像某個(gè)人像客戶主管一樣坐在另一端。假設(shè)我們以 Zomato 為例胁编,因?yàn)?Zomato 擁有數(shù)百萬(wàn)客戶厢钧,因此他們無(wú)法容納更多的客戶主管。因此嬉橙,聊天機(jī)器人有助于解決和提供初始級(jí)別的信息早直。

自然語(yǔ)言處理主要步驟包括:

  1. 分詞(只針對(duì)中文,英文等西方字母語(yǔ)言已經(jīng)用空格做好分詞了):將文章按詞組分開(kāi)

  2. 詞法分析:對(duì)于英文市框,有詞頭霞扬、詞根、詞尾的拆分枫振,名詞喻圃、動(dòng)詞、形容詞蒋得、副詞级及、介詞的定性,多種詞意的選擇额衙。比如DIAMOND饮焦,有菱形、棒球場(chǎng)窍侧、鉆石3個(gè)含義县踢,要根據(jù)應(yīng)用選擇正確的意思。

  3. 語(yǔ)法分析:通過(guò)語(yǔ)法樹(shù)或其他算法伟件,分析主語(yǔ)硼啤、謂語(yǔ)、賓語(yǔ)斧账、定語(yǔ)谴返、狀語(yǔ)煞肾、補(bǔ)語(yǔ)等句子元素。

  4. 語(yǔ)義分析:通過(guò)選擇詞的正確含義嗓袱,在正確句法的指導(dǎo)下籍救,將句子的正確含義表達(dá)出來(lái)。方法主要有語(yǔ)義文法渠抹、格文法蝙昙。

但是以上的分析,僅適用于小規(guī)模的實(shí)驗(yàn)室研究梧却,遠(yuǎn)不能應(yīng)用到實(shí)際語(yǔ)言環(huán)境中奇颠,比如說(shuō)語(yǔ)法,我們能總結(jié)出的語(yǔ)法是有限的放航,可是日常應(yīng)用的句子烈拒,絕大部分是不遵守語(yǔ)法的,如果讓語(yǔ)法包羅所有可能的應(yīng)用三椿,會(huì)出現(xiàn)爆炸的景象缺菌。

常見(jiàn)的 NLP 任務(wù)

a. 文本/文檔分類:文本分類是最基本的 NLP 任務(wù)之一,包括根據(jù)內(nèi)容為文本分配類別(標(biāo)簽)搜锰。

b. 情感分析:這是一種文本分類伴郁,其中 NLP 算法確定文本的正面、負(fù)面或中性內(nèi)涵蛋叼。用例包括通過(guò)分析推文焊傅、帖子、評(píng)論和其他反應(yīng)來(lái)分析客戶的反饋狈涮、檢測(cè)趨勢(shì)狐胎、進(jìn)行市場(chǎng)研究等。情緒分析可以涵蓋從 App Store 上發(fā)布新游戲到政治演講和監(jiān)管變化的所有內(nèi)容歌馍。

c. 信息檢索:假設(shè)我們有一些文本握巢,我們必須從該文本中提取名稱、位置松却、日期暴浦、產(chǎn)品名稱等實(shí)體。如果我們必須提取它晓锻,任何類似信息的東西都會(huì)在檢索中出現(xiàn)歌焦。

d. 詞性標(biāo)注:這是重要的文本預(yù)處理步驟之一。我們做什么砚哆,我們擁有的文本独撇,從該文本中,我們?yōu)槊總€(gè)單詞分配一個(gè)詞性,就像它是名詞或動(dòng)詞或形容詞或副詞一樣纷铣。此方法用于聊天機(jī)器人卵史,以便聊天機(jī)器人可以逐字理解每個(gè)單詞。

e. 語(yǔ)言檢測(cè)和機(jī)器翻譯:我們都知道谷歌翻譯使用相同的方法关炼。我們使用谷歌翻譯程腹,我們知道這是一個(gè)如此強(qiáng)大的應(yīng)用程序匣吊。存在許多語(yǔ)言的地方儒拂。即使我們知道一種語(yǔ)言,我們也可以了解其他語(yǔ)言色鸳。我們可以將文本數(shù)據(jù)從一種語(yǔ)言轉(zhuǎn)換為另一種語(yǔ)言社痛。

f. 對(duì)話代理:對(duì)話代理就像一個(gè)聊天機(jī)器人,但存在兩種聊天機(jī)器人命雀。一種是基于文本的蒜哀,另一種是基于語(yǔ)音的。我們可以舉一個(gè) Siri 或 Alexa 的例子吏砂,它們都是基于語(yǔ)音的撵儿。如果我們談?wù)撾妶?bào)、遠(yuǎn)足狐血,或者在 Swiggy 或 Zomato 上淀歇,他們有一個(gè)基于文本的聊天機(jī)器人。

g. 知識(shí)圖譜和 QA 系統(tǒng):假設(shè)我們有大量的數(shù)據(jù)庫(kù)匈织,并且從該數(shù)據(jù)庫(kù)中浪默,我們嘗試使用某種邏輯連接實(shí)體,然后我們制作一個(gè)知識(shí)圖譜缀匕,然后我們可以將其轉(zhuǎn)換為一個(gè) Question-Ask 申請(qǐng)纳决。

h. 文本摘要:這基本上就像,假設(shè)我們有一篇完整的文章乡小,我們可以從那篇文章中做一個(gè)總結(jié)阔加。我們可以給出一個(gè)小表格。我們可以舉的例子之一是 Inshorts 新聞應(yīng)用程序满钟。所以基本上這個(gè)應(yīng)用程序所做的就是幫助將新聞縮短為 60 字的新聞?wù)?/p>

i. 文本生成:我們?cè)谌粘I钪卸际褂梦谋旧墒だ啤<慈绻覀兛吹剑阪I盤中零远,當(dāng)我們根據(jù)您之前的打字行為自動(dòng)鍵入內(nèi)容時(shí)苗分,它會(huì)預(yù)測(cè)下一個(gè)單詞,并且我們都知道在與某人聊天時(shí)使用了多少牵辣。

j. 拼寫檢查和語(yǔ)法糾正:如果句子形成中出現(xiàn)拼寫錯(cuò)誤或發(fā)生某些語(yǔ)法錯(cuò)誤摔癣,它會(huì)突出顯示該單詞,以便我們改進(jìn)該單詞或句子。

k. 語(yǔ)音轉(zhuǎn)文本:在這里择浊,我們創(chuàng)建了一個(gè)像 Siri 和 Alexa 這樣的會(huì)話代理戴卜。此外,此 NLP 任務(wù)用于我們所說(shuō)的谷歌翻譯并將其轉(zhuǎn)換為文本琢岩。這也有助于我們用一種語(yǔ)言說(shuō)話并且我們可以轉(zhuǎn)換成另一種語(yǔ)言投剥。例如,不同國(guó)家的人們?cè)噲D交流担孔,但他們不理解彼此的語(yǔ)言江锨。所以谷歌翻譯幫助他們理解彼此的語(yǔ)言并進(jìn)行交流。

總之糕篇,目前ChatGPT的爆火啄育,使得國(guó)內(nèi)各大廠商開(kāi)始布局人工智能模型的具體應(yīng)用落地,一切技術(shù)都是為了提高人類生產(chǎn)生活而不斷的進(jìn)步拌消,學(xué)習(xí)永無(wú)止境挑豌,愿你我共同進(jìn)步,不被時(shí)代的潮流所遺棄墩崩。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末氓英,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子鹦筹,更是在濱河造成了極大的恐慌铝阐,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盛龄,死亡現(xiàn)場(chǎng)離奇詭異饰迹,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)余舶,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門啊鸭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人匿值,你說(shuō)我怎么就攤上這事赠制。” “怎么了挟憔?”我有些...
    開(kāi)封第一講書人閱讀 165,562評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵休傍,是天一觀的道長(zhǎng)寄纵。 經(jīng)常有香客問(wèn)我卷中,道長(zhǎng)氓涣,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 58,893評(píng)論 1 295
  • 正文 為了忘掉前任达传,我火速辦了婚禮篙耗,結(jié)果婚禮上迫筑,老公的妹妹穿的比我還像新娘。我一直安慰自己宗弯,他們只是感情好脯燃,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,917評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著蒙保,像睡著了一般辕棚。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上邓厕,一...
    開(kāi)封第一講書人閱讀 51,708評(píng)論 1 305
  • 那天逝嚎,我揣著相機(jī)與錄音,去河邊找鬼邑狸。 笑死懈糯,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的单雾。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼她紫,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼硅堆!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起贿讹,我...
    開(kāi)封第一講書人閱讀 39,342評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤渐逃,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后民褂,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體茄菊,經(jīng)...
    沈念sama閱讀 45,801評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,976評(píng)論 3 337
  • 正文 我和宋清朗相戀三年赊堪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了面殖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,115評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡哭廉,死狀恐怖脊僚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情遵绰,我是刑警寧澤辽幌,帶...
    沈念sama閱讀 35,804評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站椿访,受9級(jí)特大地震影響乌企,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜成玫,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,458評(píng)論 3 331
  • 文/蒙蒙 一加酵、第九天 我趴在偏房一處隱蔽的房頂上張望端辱。 院中可真熱鬧,春花似錦虽画、人聲如沸舞蔽。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,008評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)渗柿。三九已至,卻和暖如春脖岛,著一層夾襖步出監(jiān)牢的瞬間朵栖,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,135評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工柴梆, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留陨溅,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,365評(píng)論 3 373
  • 正文 我出身青樓绍在,卻偏偏與公主長(zhǎng)得像门扇,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子偿渡,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,055評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容