NLP與文本分類跟我們有什么關系

我:Siri斯辰,我愛你
Siri:扯淡
我:我真的愛你
Siri:我希望你不要給其他手機也這么說

1 自然語言處理

自然語言處理(Natural Language Processing柜思,簡稱NLP)就是指用計算機對人類的自然語言進行有意義的分析與操作揩魂,是用計算機來理解、運用人類語言廊散,是計算機科學與語言學的交叉學科雹有。大家平時上網用到的百度、谷歌這些搜索引擎帆谍,還有前段時間熱傳的谷歌翻譯,都是NLP的一些重要實際應用轴咱。如果能夠充分利用NLP技術汛蝙,將會大幅提高我們的工作效率。

2 文本分類

文本分類(Text Classification)在NLP領域里是一個很普通而應用很廣的課題朴肺,指計算機將一篇文章歸于預先給定的某一類或某幾類的過程窖剑。主要的應用領域為網頁分類、微博情感分析戈稿、用戶評論挖掘西土、信息檢索、Web文檔自動分類鞍盗、數字圖書館翠储、自動文摘、分類新聞組橡疼、文本過濾、單詞語義辨析以及文檔的組織和管理等庐舟。

目前欣除,文本分類已經有了相當多的研究成果,比如應用很廣泛的基于規(guī)則特征的SVM分類器挪略,以及加上樸素貝葉斯方法的SVM分類器历帚,當然還有最大熵分類器、基于條件隨機場來構建依賴樹的分類方法杠娱。在傳統的文本分類詞袋模型中挽牢,在將文本轉換成文本向量的過程中,往往會造成文本向量維度過大的問題摊求,當然也有其他的壓縮了維度的一些分類方法禽拔。還有一些是基于人工的提取規(guī)則,甚至是hard coding方式。這樣不利于算法的推廣睹栖。近些年隨著深度神經網絡(Deep Neural Network, DNN)的興起硫惕,人們開始嘗試用DNN解決文本分類的問題。從2013年的word2vec開始野来,自然語言處理領域引爆了深度學習這個熱點恼除,至今已經快4年了。目前取得重要成果的NLP任務大多在文本理解范疇曼氛,如文本分類豁辉,機器翻譯,文檔摘要舀患,閱讀理解等徽级。

3.文本分類的過程

文本分類的過程

3.1 訓練樣本預處理

3.1.1 分詞

由于中文與英文的最大不同之處中文需要分詞,分詞的目的是將文檔分割成一個個的單詞构舟。常用的分詞工具包:perminusminus灰追、Stanford 漢語分詞工具(Bakeoff-2兩項第一)、哈工大語言云(LTP -cloud)狗超、ICTCLAS——(Bakeoff -1兩項第一)弹澎、庖丁解牛分詞、盤古分詞努咐、苦蒿、FudanNLP(復旦大學)。

3.1.2 去"停用詞"

分詞完成之后就要去除"停用詞"了渗稍。所謂的"停用詞"是那些沒有意義的詞語佩迟,他們對文本分類沒有貢獻,比如說各種標點符號竿屹,今后报强、今天、今年這樣的詞語等拱燃。去掉這些沒有作用的詞語可以減少文本特征向量的維數秉溉,從而減少不必要的運算量。

3.2 特征選擇

文本分類中最著名的特征提取方法就是向量空間模型(VSM)碗誉,即將樣本轉換為向量的形式召嘶。為了能實現這種轉換,需要做兩個工作:確定特征集和提取特征哮缺。

3.2.1 確定特征集

提取特征就是對所有訓練文檔分詞去停用詞后的結果做并集操作弄跌,提取出一個特征集合,包含所有在分詞去停用詞后的樣本中出現的單詞尝苇。

3.2.2 特征選擇

根據不同的業(yè)務铛只,文本分類中詞典的規(guī)模在萬級到千萬級甚至億級埠胖。而這么大的維度可能會帶來維度災難,因此就要想辦法從大量的特征中選擇一些有代表性的特征而又不影響分類的效果(而根據文獻中的結果格仲,特征選擇可以在一定程度上提高分類的效果)押袍。

3.2.3 特征抽取

另外一種解決維度災難的思路就是特征抽取。同樣是降維凯肋,相比特征選擇谊惭,特征抽取采用了一種高級的方法來進行。Topic Modeling是原理就是將利用映射將高緯度空間映射到低緯空間侮东,從而達到降維的目的圈盔。

3.3 計算特征權重

給定一個樣本,如何轉換成向量呢悄雅?
首先給一張流程圖:

計算特征權重

流程:

  • 1.首先驱敲,對樣本進行分詞,提取出所有的詞宽闲。
  • 2.根據已經生成的詞典众眨,如果詞典中的詞出現,就在相應對應的位置填入該詞的詞頻容诬。
  • 3.對生成的向量進行歸一化
    上面的所示的方法是比較簡單的一種娩梨,其中特征權重采用的為詞頻來表示,現在比較常用的特征權重的計算方式為TFIDF览徒,TFRF狈定。

3.4 模型訓練與預測

當把文本轉換成向量的形式后,大部分的工作其實已經做完了习蓬。后面所要做的就是利用算法進行訓練和預測了纽什。
現在文本分類的算法很多,常見的有Na?ve Bayes躲叼,SVM芦缰,KNN,Logistic回歸等枫慷。其中SVM據文獻中說是在工業(yè)界和學術界通吃的饺藤,不過據我了解現在公司里用SVM來做分類的不多,而Logistic回歸則是比較常用的流礁,因為相對來說簡單,而且可以并行化訓練罗丰。
最新的研究進展是利用深度學習來進行文本分類神帅,這個問題下次專門寫一篇文章。

4.文本分類中的關鍵技術

(1)文本表示
計算機并不具有人類的智慧萌抵,不能讀懂文字找御,所以必須把文本轉化成計算機能夠理解的形式元镀,即進行文本表示.目前文本表示模型主要是Gerard Salton和McGill于1969年提出的向量空間模型(VSM)。向量空間模型的基本思想是把文檔簡化為特征項的權重為分量的向量表示:(w1,w2,…,wn)霎桅,其中wi為第i個特征項的權重栖疑,一般選取詞作為特征項,權重用詞頻表示.詞頻分為絕對詞頻和相對詞頻.絕對詞頻滔驶,即用詞在文本中出現的頻率表示文本遇革;相對詞頻,即為歸一化的詞頻揭糕,其計算方法主要運用TF-IDF公式萝快。
除了向量空間模型外,還有概率模型.概率模型也考慮詞與詞的相關性著角,把文本集中的文檔分為相關文檔和無關文檔.以數學理論中的概率論為原理揪漩,通過賦予特征詞某個概率值來表示這些詞在相關文檔和無關文檔之間出現的概率,然后計算文檔間相關的概率吏口,系統據此概率做出決策奄容。
(2)特征選擇與特征抽取
由于文本數據的半結構化甚至于無結構化的特點,當用特征向量對文檔進行表示的時候产徊,特征向量通常會達到幾萬維甚至于幾十萬維.尋求一種有效的特征降維方法昂勒,降低特征空間的維數,提高分類的效率和精度囚痴,成為文本自動分類中至關重要的問題.降維技術總的可以分為兩類:特征選擇和特征抽取叁怪。
(3)文本分類算法
研究文本自動分類的核心問題是如何構造分類函數(分類器),分類函數需要通過某種算法進行學習獲得.分類是重要的數據挖掘方法深滚,在文本分類中奕谭,幾乎存在著和一般分類同樣多的方法.在眾多的文本分類算法中,重點介紹了Rocchio算法痴荐、樸素貝葉斯分類算法血柳、K-近鄰算法、決策樹算法生兆、神經網絡算法和支持向量機算法难捌。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市鸦难,隨后出現的幾起案子根吁,更是在濱河造成了極大的恐慌,老刑警劉巖合蔽,帶你破解...
    沈念sama閱讀 212,884評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件击敌,死亡現場離奇詭異,居然都是意外死亡拴事,警方通過查閱死者的電腦和手機沃斤,發(fā)現死者居然都...
    沈念sama閱讀 90,755評論 3 385
  • 文/潘曉璐 我一進店門圣蝎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人衡瓶,你說我怎么就攤上這事徘公。” “怎么了哮针?”我有些...
    開封第一講書人閱讀 158,369評論 0 348
  • 文/不壞的土叔 我叫張陵关面,是天一觀的道長。 經常有香客問我诚撵,道長缭裆,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,799評論 1 285
  • 正文 為了忘掉前任寿烟,我火速辦了婚禮澈驼,結果婚禮上,老公的妹妹穿的比我還像新娘筛武。我一直安慰自己缝其,他們只是感情好,可當我...
    茶點故事閱讀 65,910評論 6 386
  • 文/花漫 我一把揭開白布徘六。 她就那樣靜靜地躺著内边,像睡著了一般。 火紅的嫁衣襯著肌膚如雪待锈。 梳的紋絲不亂的頭發(fā)上漠其,一...
    開封第一講書人閱讀 50,096評論 1 291
  • 那天,我揣著相機與錄音竿音,去河邊找鬼和屎。 笑死,一個胖子當著我的面吹牛春瞬,可吹牛的內容都是我干的柴信。 我是一名探鬼主播,決...
    沈念sama閱讀 39,159評論 3 411
  • 文/蒼蘭香墨 我猛地睜開眼宽气,長吁一口氣:“原來是場噩夢啊……” “哼随常!你這毒婦竟也來了?” 一聲冷哼從身側響起萄涯,我...
    開封第一講書人閱讀 37,917評論 0 268
  • 序言:老撾萬榮一對情侶失蹤绪氛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后涝影,有當地人在樹林里發(fā)現了一具尸體钞楼,經...
    沈念sama閱讀 44,360評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,673評論 2 327
  • 正文 我和宋清朗相戀三年袄琳,在試婚紗的時候發(fā)現自己被綠了询件。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,814評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡唆樊,死狀恐怖宛琅,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情逗旁,我是刑警寧澤嘿辟,帶...
    沈念sama閱讀 34,509評論 4 334
  • 正文 年R本政府宣布,位于F島的核電站片效,受9級特大地震影響红伦,放射性物質發(fā)生泄漏。R本人自食惡果不足惜淀衣,卻給世界環(huán)境...
    茶點故事閱讀 40,156評論 3 317
  • 文/蒙蒙 一昙读、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧膨桥,春花似錦蛮浑、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,882評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至册舞,卻和暖如春蕴掏,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背调鲸。 一陣腳步聲響...
    開封第一講書人閱讀 32,123評論 1 267
  • 我被黑心中介騙來泰國打工盛杰, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人线得。 一個月前我還...
    沈念sama閱讀 46,641評論 2 362
  • 正文 我出身青樓饶唤,卻偏偏與公主長得像,于是被迫代替她去往敵國和親贯钩。 傳聞我的和親對象是個殘疾皇子募狂,可洞房花燭夜當晚...
    茶點故事閱讀 43,728評論 2 351

推薦閱讀更多精彩內容