自然語言處理的一般流程

整個過程一般可以概括為四部分拼窥,語料預(yù)處理->特征工程->模型訓(xùn)練->指標(biāo)評價

第一部分:語料預(yù)處理

通過語料清洗戏蔑、分詞、詞性標(biāo)注鲁纠、去停用詞四個大的方面來完成語料的預(yù)處理工作总棵。
(1)語料清洗
數(shù)據(jù)清洗,顧名思義就是在語料中找到我們感興趣的東西改含,把不感興趣的情龄、視為噪音的內(nèi)容清洗刪除,包括對于原始文本提取標(biāo)題捍壤、摘要骤视、正文等信息。
對于爬取的網(wǎng)頁內(nèi)容鹃觉,去除廣告专酗、標(biāo)簽、HTML盗扇、JS 等代碼和注釋等祷肯。常見的數(shù)據(jù)清洗方式有:人工去重、對齊疗隶、刪除和標(biāo)注等佑笋,或者規(guī)則提取內(nèi)容、正則表達(dá)式匹配斑鼻、根據(jù)詞性和命名實體提取蒋纬、編寫腳本或者代碼批處理等。
(2)分詞
中文語料數(shù)據(jù)為一批短文本或者長文本坚弱,比如:句子蜀备,文章摘要,段落或者整篇文章組成的一個集合史汗。一般句子琼掠、段落之間的字拒垃、詞語是連續(xù)的停撞,有一定含義。
而進(jìn)行文本挖掘分析時悼瓮,我們希望文本處理的最小單位粒度是詞或者詞語戈毒,所以這個時候就需要分詞來將文本全部進(jìn)行分詞。中文分詞方法將為
常見的分詞算法有:基于字符串匹配的分詞方法横堡、基于理解的分詞方法埋市、基于統(tǒng)計的分詞方法和基于規(guī)則的分詞方法,每種方法下面對應(yīng)許多具體的算法命贴。
當(dāng)前中文分詞算法的主要難點(diǎn)有歧義識別新詞識別道宅,比如:“羽毛球拍賣完了”食听,這個可以切分成“羽毛 球拍 賣 完 了”,也可切分成“羽毛球 拍賣 完 了”污茵,如果不依賴上下文其他的句子樱报,恐怕很難知道如何去理解。
(3)詞性標(biāo)注
詞性標(biāo)注泞当,就是給每個詞或者詞語打詞類標(biāo)簽迹蛤,如形容詞、動詞襟士、名詞等盗飒。這樣做可以讓文本在后面的處理中融入更多有用的語言信息。
詞性標(biāo)注是一個經(jīng)典的序列標(biāo)注問題陋桂,不過對于有些中文自然語言處理來說逆趣,詞性標(biāo)注不是非必需的。
比如嗜历,常見的文本分類就不用關(guān)心詞性問題汗贫,但是類似情感分析、知識推理卻是需要的秸脱,下圖是常見的中文詞性整理落包。


常見的詞性標(biāo)注方法可以分為基于規(guī)則和基于統(tǒng)計的方法。其中基于統(tǒng)計的方法摊唇,如基于最大熵的詞性標(biāo)注咐蝇、基于統(tǒng)計最大概率輸出詞性和基于 HMM 的詞性標(biāo)注。
(4)去停用詞
停用詞一般指對文本特征沒有任何貢獻(xiàn)作用的字詞巷查,比如標(biāo)點(diǎn)符號有序、語氣、人稱等一些詞岛请。所以在一般性的文本處理中旭寿,分詞之后,接下來一步就是去停用詞崇败。
但是對于中文來說盅称,去停用詞操作不是一成不變的,停用詞詞典是根據(jù)具體場景來決定的后室,比如在情感分析中缩膝,語氣詞、感嘆號是應(yīng)該保留的岸霹,因為他們對表示語氣程度疾层、感情色彩有一定的貢獻(xiàn)和意義。

第二部分:特征工程

做完語料預(yù)處理之后贡避,接下來需要考慮如何把分詞之后的字和詞語表示成計算機(jī)能夠計算的類型痛黎。
顯然予弧,如果要計算我們至少需要把中文分詞的字符串轉(zhuǎn)換成數(shù)字,確切的說應(yīng)該是數(shù)學(xué)中的向量湖饱。有兩種常用的表示模型分別是詞袋模型和詞向量桌肴。
詞袋模型(Bag of Word, BOW),即不考慮詞語原本在句子中的順序琉历,直接將每一個詞語或者符號統(tǒng)一放置在一個集合(如 list)坠七,然后按照計數(shù)的方式對出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計。統(tǒng)計詞頻這只是最基本的方式旗笔,TF-IDF 是詞袋模型的一個經(jīng)典用法彪置。
詞向量是將字、詞語轉(zhuǎn)換成向量矩陣的計算模型蝇恶。目前為止最常用的詞表示方法是 One-hot拳魁,這種方法把每個詞表示為一個很長的向量。
這個向量的維度是詞表大小撮弧,其中絕大多數(shù)元素為 0珍昨,只有一個維度的值為 1户矢,這個維度就代表了當(dāng)前的詞。
還有 Google 團(tuán)隊的 Word2Vec,其主要包含兩個模型:跳字模型(Skip-Gram)和連續(xù)詞袋模型(Continuous Bag of Words哑姚,簡稱 CBOW)陷揪,以及兩種高效訓(xùn)練的方法:負(fù)采樣(Negative Sampling)和層序 Softmax(Hierarchical Softmax)泪姨。
值得一提的是碰逸,Word2Vec 詞向量可以較好地表達(dá)不同詞之間的相似和類比關(guān)系。除此之外擎淤,還有一些詞向量的表示方式奢啥,如 Doc2Vec、WordRank 和 FastText 等嘴拢。

第三部分:模型訓(xùn)練

在特征向量選擇好之后桩盲,接下來要做的事情當(dāng)然就是訓(xùn)練模型,對于不同的應(yīng)用需求席吴,我們使用不同的模型赌结,傳統(tǒng)的有監(jiān)督和無監(jiān)督等機(jī)器學(xué)習(xí)模型,抢腐。
如 KNN姑曙、SVM襟交、Naive Bayes迈倍、決策樹、GBDT捣域、K-means 等模型啼染;深度學(xué)習(xí)模型比如 CNN宴合、RNN、LSTM迹鹅、 Seq2Seq卦洽、FastText、TextCNN 等斜棚。
訓(xùn)練過程需要關(guān)注以下幾點(diǎn):
(1)注意過擬合阀蒂、欠擬合問題,不斷提高模型的泛化能力
過擬合常見的解決方法有:
增大數(shù)據(jù)的訓(xùn)練量弟蚀;
增加正則化項蚤霞,如 L1 正則和 L2 正則;
特征選取不合理义钉,人工篩選特征和使用特征選擇算法昧绣;
采用 Dropout 方法等。
欠擬合常見的解決方法有:
添加其他特征項捶闸;
增加模型復(fù)雜度夜畴,比如神經(jīng)網(wǎng)絡(luò)加更多的層、線性模型通過添加多項式使模型泛化能力更強(qiáng)删壮;
減少正則化參數(shù)贪绘,正則化的目的是用來防止過擬合的,但是現(xiàn)在模型出現(xiàn)了欠擬合央碟,則需要減少正則化參數(shù)兔簇。
(2)對于神經(jīng)網(wǎng)絡(luò),注意梯度消失和梯度爆炸問題

第四部分:指標(biāo)評價

訓(xùn)練好的模型硬耍,上線之前要對模型進(jìn)行必要的評估垄琐,目的讓模型對語料具備較好的泛化能力。
對于二分類問題经柴,可將樣例根據(jù)其真實類別與學(xué)習(xí)器預(yù)測類別的組合劃分為真正例(True Positive)狸窘、假正例(False Positive)、真反例(True Negative)坯认、假反例(False Negative)四種情形翻擒,令 TP、FP牛哺、TN、FN 分別表示其對應(yīng)的樣例數(shù)引润,顯然有 TP+FP++TN+FN=樣例總數(shù)巩趁。分類結(jié)果的“混淆矩陣”(Confusion Matrix)如下:


。具體有以下這些指標(biāo)可以參考淳附。
(1)錯誤率议慰、精度蠢古、準(zhǔn)確率、精確度别凹、召回率草讶、F1 衡量
錯誤率:是分類錯誤的樣本數(shù)占樣本總數(shù)的比例。
精度:是分類正確的樣本數(shù)占樣本總數(shù)的比例炉菲。
準(zhǔn)確率堕战,縮寫表示用 P。準(zhǔn)確率是針對我們預(yù)測結(jié)果而言的拍霜,它表示的是預(yù)測為正的樣例中有多少是真正的正樣例践啄。
精確度,縮寫表示用 A沉御。精確度則是分類正確的樣本數(shù)占樣本總數(shù)的比例屿讽。Accuracy 反應(yīng)了分類器對整個樣本的判定能力(即能將正的判定為正的,負(fù)的判定為負(fù)的)吠裆。
召回率伐谈,縮寫表示用 R。召回率是針對我們原來的樣本而言的试疙,它表示的是樣本中的正例有多少被預(yù)測正確诵棵。
F1 衡量,表達(dá)出對查準(zhǔn)率/查全率的不同偏好祝旷。
(2)ROC 曲線履澳、AUC 曲線
ROC 全稱是“受試者工作特征”(Receiver Operating Characteristic)曲線。我們根據(jù)模型的預(yù)測結(jié)果怀跛,把閾值從0變到最大距贷,即剛開始是把每個樣本作為正例進(jìn)行預(yù)測,隨著閾值的增大吻谋,學(xué)習(xí)器預(yù)測正樣例數(shù)越來越少忠蝗,直到最后沒有一個樣本是正樣例。在這一過程中漓拾,每次計算出兩個重要量的值阁最,分別以它們?yōu)闄M、縱坐標(biāo)作圖骇两,就得到了 ROC 曲線速种。
AUC 就是 ROC 曲線下的面積,衡量學(xué)習(xí)器優(yōu)劣的一種性能指標(biāo)低千。AUC 是衡量二分類模型優(yōu)劣的一種評價指標(biāo)配阵,表示預(yù)測的正例排在負(fù)例前面的概率。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市闸餐,隨后出現(xiàn)的幾起案子饱亮,更是在濱河造成了極大的恐慌矾芙,老刑警劉巖舍沙,帶你破解...
    沈念sama閱讀 222,104評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異剔宪,居然都是意外死亡拂铡,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,816評論 3 399
  • 文/潘曉璐 我一進(jìn)店門葱绒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來感帅,“玉大人,你說我怎么就攤上這事地淀∈颍” “怎么了?”我有些...
    開封第一講書人閱讀 168,697評論 0 360
  • 文/不壞的土叔 我叫張陵帮毁,是天一觀的道長实苞。 經(jīng)常有香客問我,道長烈疚,這世上最難降的妖魔是什么黔牵? 我笑而不...
    開封第一講書人閱讀 59,836評論 1 298
  • 正文 為了忘掉前任,我火速辦了婚禮爷肝,結(jié)果婚禮上猾浦,老公的妹妹穿的比我還像新娘。我一直安慰自己灯抛,他們只是感情好金赦,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,851評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著对嚼,像睡著了一般素邪。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上猪半,一...
    開封第一講書人閱讀 52,441評論 1 310
  • 那天兔朦,我揣著相機(jī)與錄音,去河邊找鬼磨确。 笑死沽甥,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的乏奥。 我是一名探鬼主播摆舟,決...
    沈念sama閱讀 40,992評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了恨诱?” 一聲冷哼從身側(cè)響起媳瞪,我...
    開封第一講書人閱讀 39,899評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎照宝,沒想到半個月后蛇受,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,457評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡厕鹃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,529評論 3 341
  • 正文 我和宋清朗相戀三年兢仰,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片剂碴。...
    茶點(diǎn)故事閱讀 40,664評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡把将,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出忆矛,到底是詐尸還是另有隱情察蹲,我是刑警寧澤,帶...
    沈念sama閱讀 36,346評論 5 350
  • 正文 年R本政府宣布催训,位于F島的核電站洽议,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏瞳腌。R本人自食惡果不足惜绞铃,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,025評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嫂侍。 院中可真熱鬧儿捧,春花似錦、人聲如沸挑宠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,511評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽各淀。三九已至懒鉴,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間碎浇,已是汗流浹背临谱。 一陣腳步聲響...
    開封第一講書人閱讀 33,611評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留奴璃,地道東北人悉默。 一個月前我還...
    沈念sama閱讀 49,081評論 3 377
  • 正文 我出身青樓,卻偏偏與公主長得像苟穆,于是被迫代替她去往敵國和親抄课。 傳聞我的和親對象是個殘疾皇子唱星,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,675評論 2 359

推薦閱讀更多精彩內(nèi)容