在”自然語言處理(一)“中歉胶,想必大家已經基本了解了什么是自然語言處理,今天缩赛,小叮當接著為大家分享自然語言處理中的文本處理流程秽五。
在自然語言處理過程中堡纬,計算機是不認識我們的文本信息的聂受,它所認識的只有0和1。
于是烤镐,我們便可知道蛋济,想要使用計算機進行文本處理,首先我們得讓計算機認識我們的文本信息炮叶。
那么碗旅,如何讓計算機認識我們的文本信息呢?通常我們會對文本信息進行預處理镜悉,分詞祟辟,特征化,將文本信息轉化為計算機能夠識別的0和1之后侣肄,再進行機器學習旧困、深度學習等對計算機識別出的文本進行處理。
(1)預處理(Preprocess)
我們通常使用的文本信息中,包含了標點吼具,特殊字符等僚纷,在大部分的文本處理任務中,我們認為文本中拗盒,攜帶的這些信息是無效的怖竭。預處理的目的就是去除這些無效的噪聲。(有的地方也把預處理這步稱之為”數據清洗“陡蝇。)
(2) 分詞(Tokenize)
分詞是指痊臭,將我們預處理后的文本信息,以詞為單位進行劃分登夫。這樣广匙,計算機便可以按詞來分配存儲單元。計算機憑借不同的存儲位置悼嫉,便可以識別出不同的詞。
(3) 特征化(Make Features )
特征化拼窥,簡單來說就是向量化戏蔑。在這步,計算機會根據已知的一些算法將不同的詞轉化為對應的數字信息鲁纠,從而使計算機能夠識別总棵。
(4)機器學習(Machine learning)
在文本處理過程中,機器學習改含,通常根據標簽情龄,對文本進行分類處理。例如對電商評論的情感分析捍壤,分析這句話是積極的還是消極的骤视。對郵件的識別,判斷文本郵件是否是垃圾郵件等鹃觉。簡單來理解就是专酗,我們已知特征化后的x1,x2,以及對應的標簽y1,y2;現在給我們一個x3,我們通過機器學習就可以預測出y3的值盗扇。
經過上面的介紹祷肯,想必大家已經基本了解文本處理的流程。那么疗隶,文本處理中佑笋,上面各步究竟是怎么實現的呢?貪多嚼不爛斑鼻,小叮當下次再為大家繼續(xù)分享~