自然語言處理(二)文本處理流程

在”自然語言處理(一)“中歉胶,想必大家已經基本了解了什么是自然語言處理,今天缩赛,小叮當接著為大家分享自然語言處理中的文本處理流程秽五。

0.jpg

在自然語言處理過程中堡纬,計算機是不認識我們的文本信息的聂受,它所認識的只有0和1。

1.jpg

于是烤镐,我們便可知道蛋济,想要使用計算機進行文本處理,首先我們得讓計算機認識我們的文本信息炮叶。

2.jpg

那么碗旅,如何讓計算機認識我們的文本信息呢?通常我們會對文本信息進行預處理镜悉,分詞祟辟,特征化,將文本信息轉化為計算機能夠識別的0和1之后侣肄,再進行機器學習旧困、深度學習等對計算機識別出的文本進行處理。

(1)預處理(Preprocess)

我們通常使用的文本信息中,包含了標點吼具,特殊字符等僚纷,在大部分的文本處理任務中,我們認為文本中拗盒,攜帶的這些信息是無效的怖竭。預處理的目的就是去除這些無效的噪聲。(有的地方也把預處理這步稱之為”數據清洗“陡蝇。)

3.jpg

(2) 分詞(Tokenize)

分詞是指痊臭,將我們預處理后的文本信息,以詞為單位進行劃分登夫。這樣广匙,計算機便可以按詞來分配存儲單元。計算機憑借不同的存儲位置悼嫉,便可以識別出不同的詞。

4.jpg

(3) 特征化(Make Features )

特征化拼窥,簡單來說就是向量化戏蔑。在這步,計算機會根據已知的一些算法將不同的詞轉化為對應的數字信息鲁纠,從而使計算機能夠識別总棵。

5.jpg

(4)機器學習(Machine learning)

在文本處理過程中,機器學習改含,通常根據標簽情龄,對文本進行分類處理。例如對電商評論的情感分析捍壤,分析這句話是積極的還是消極的骤视。對郵件的識別,判斷文本郵件是否是垃圾郵件等鹃觉。簡單來理解就是专酗,我們已知特征化后的x1,x2,以及對應的標簽y1,y2;現在給我們一個x3,我們通過機器學習就可以預測出y3的值盗扇。

6.jpg

經過上面的介紹祷肯,想必大家已經基本了解文本處理的流程。那么疗隶,文本處理中佑笋,上面各步究竟是怎么實現的呢?貪多嚼不爛斑鼻,小叮當下次再為大家繼續(xù)分享~

?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末蒋纬,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌颠锉,老刑警劉巖法牲,帶你破解...
    沈念sama閱讀 222,000評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現場離奇詭異琼掠,居然都是意外死亡拒垃,警方通過查閱死者的電腦和手機,發(fā)現死者居然都...
    沈念sama閱讀 94,745評論 3 399
  • 文/潘曉璐 我一進店門瓷蛙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來悼瓮,“玉大人,你說我怎么就攤上這事艰猬『岜ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 168,561評論 0 360
  • 文/不壞的土叔 我叫張陵冠桃,是天一觀的道長命贴。 經常有香客問我,道長食听,這世上最難降的妖魔是什么胸蛛? 我笑而不...
    開封第一講書人閱讀 59,782評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮樱报,結果婚禮上葬项,老公的妹妹穿的比我還像新娘。我一直安慰自己迹蛤,他們只是感情好民珍,可當我...
    茶點故事閱讀 68,798評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著盗飒,像睡著了一般嚷量。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上逆趣,一...
    開封第一講書人閱讀 52,394評論 1 310
  • 那天津肛,我揣著相機與錄音,去河邊找鬼汗贫。 笑死身坐,一個胖子當著我的面吹牛,可吹牛的內容都是我干的落包。 我是一名探鬼主播部蛇,決...
    沈念sama閱讀 40,952評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼咐蝇!你這毒婦竟也來了涯鲁?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,852評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎抹腿,沒想到半個月后岛请,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 46,409評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡警绩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,483評論 3 341
  • 正文 我和宋清朗相戀三年崇败,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肩祥。...
    茶點故事閱讀 40,615評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡后室,死狀恐怖,靈堂內的尸體忽然破棺而出混狠,到底是詐尸還是另有隱情岸霹,我是刑警寧澤,帶...
    沈念sama閱讀 36,303評論 5 350
  • 正文 年R本政府宣布将饺,位于F島的核電站贡避,受9級特大地震影響,放射性物質發(fā)生泄漏予弧。R本人自食惡果不足惜刮吧,卻給世界環(huán)境...
    茶點故事閱讀 41,979評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望桌肴。 院中可真熱鬧皇筛,春花似錦琉历、人聲如沸坠七。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,470評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽彪置。三九已至,卻和暖如春蝇恶,著一層夾襖步出監(jiān)牢的瞬間拳魁,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,571評論 1 272
  • 我被黑心中介騙來泰國打工撮弧, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留潘懊,地道東北人。 一個月前我還...
    沈念sama閱讀 49,041評論 3 377
  • 正文 我出身青樓贿衍,卻偏偏與公主長得像授舟,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子贸辈,可洞房花燭夜當晚...
    茶點故事閱讀 45,630評論 2 359

推薦閱讀更多精彩內容