第二周 - 20180422

數(shù)據(jù)預(yù)處理以及Doc2Vec過(guò)程

模型訓(xùn)練之前需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,畢竟文本信息很難直接用來(lái)擬合深胳。除了簡(jiǎn)單易懂的One-Hot編碼方式绰疤,業(yè)內(nèi)更常用的還是Doc2Vec方案。Doc2Vec可以對(duì)文本信息進(jìn)行低維稠密的分布式表達(dá)舞终,往往更適合用于分類轻庆、擬合等處理癣猾,本文也將采用Doc2Vec的技術(shù)路線。

一余爆、 數(shù)據(jù)清洗

數(shù)據(jù)來(lái)源是網(wǎng)絡(luò)爬蟲爬取的中文評(píng)論纷宇,在將其向量化之前,首先對(duì)其進(jìn)行清洗蛾方,去除了標(biāo)點(diǎn)符號(hào)等非建設(shè)性字符像捶。

數(shù)月前,一位當(dāng)時(shí)的好友“譴責(zé)”我發(fā)顏表情惡意賣萌的行為桩砰,而如今進(jìn)行數(shù)據(jù)清洗時(shí)才明白顏表情的“污染性”拓春。上圖中正則表達(dá)式里有大量的硬編碼,以用來(lái)過(guò)濾掉令人難以置信的顏表情亚隅,即使這樣硼莽,數(shù)據(jù)中仍然有少量的“非建設(shè)性字符”,可以忽略枢步。

二沉删、 分詞

英文句子中,單詞與單詞之間有空格間隔醉途,往往不需要進(jìn)行分詞矾瑰,取而代之的是“組塊分析”(chunking)。而中文文本的處理則相對(duì)更麻煩隘擎,Doc2Vec中的傳入數(shù)據(jù)需要中文分詞之后的結(jié)果殴穴。

本例中采用結(jié)巴分詞器進(jìn)行分詞,并開啟隱馬爾科夫參數(shù)使其能探索新詞货葬。

分詞之后的結(jié)果用列表存儲(chǔ)采幌。

三、 Doc2Vec

Doc2Vec是數(shù)據(jù)預(yù)處理過(guò)程中最重要的一個(gè)階段震桶,目的是將文本信息進(jìn)行低維稠密的分布式表達(dá)休傍。本文中基于gensim包實(shí)現(xiàn)。

Doc2Vec?或者叫做 paragraph2vec, sentence embeddings蹲姐,是一種非監(jiān)督式算法磨取,可以獲得 sentences/paragraphs/documents 的向量表達(dá),是 word2vec 的拓展柴墩。學(xué)出來(lái)的向量可以通過(guò)計(jì)算距離來(lái)找 sentences/paragraphs/documents 之間的相似性忙厌,可以用于文本聚類,對(duì)于有標(biāo)簽的數(shù)據(jù)江咳,還可以用監(jiān)督學(xué)習(xí)的方法進(jìn)行文本分類逢净,例如經(jīng)典的情感分析問(wèn)題。

其基本原理推薦博文基于gensim的doc2vec實(shí)踐 - CSDN博客

首先利用爬取的文本訓(xùn)練Doc2Vec:

得到一個(gè)模型:


利用這個(gè)模型再將分好詞的本文向量化:

最終生成向量(部分):

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末爹土,一起剝皮案震驚了整個(gè)濱河市甥雕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌着饥,老刑警劉巖犀农,帶你破解...
    沈念sama閱讀 212,718評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件惰赋,死亡現(xiàn)場(chǎng)離奇詭異宰掉,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)赁濒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門轨奄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人拒炎,你說(shuō)我怎么就攤上這事挪拟。” “怎么了击你?”我有些...
    開封第一講書人閱讀 158,207評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵玉组,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我丁侄,道長(zhǎng)惯雳,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評(píng)論 1 284
  • 正文 為了忘掉前任鸿摇,我火速辦了婚禮石景,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘拙吉。我一直安慰自己潮孽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,862評(píng)論 6 386
  • 文/花漫 我一把揭開白布筷黔。 她就那樣靜靜地躺著往史,像睡著了一般。 火紅的嫁衣襯著肌膚如雪佛舱。 梳的紋絲不亂的頭發(fā)上椎例,一...
    開封第一講書人閱讀 50,050評(píng)論 1 291
  • 那天,我揣著相機(jī)與錄音名眉,去河邊找鬼粟矿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛损拢,可吹牛的內(nèi)容都是我干的陌粹。 我是一名探鬼主播,決...
    沈念sama閱讀 39,136評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼福压,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼掏秩!你這毒婦竟也來(lái)了或舞?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,882評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蒙幻,失蹤者是張志新(化名)和其女友劉穎映凳,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體邮破,經(jīng)...
    沈念sama閱讀 44,330評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡诈豌,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,651評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抒和。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矫渔。...
    茶點(diǎn)故事閱讀 38,789評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖摧莽,靈堂內(nèi)的尸體忽然破棺而出庙洼,到底是詐尸還是另有隱情,我是刑警寧澤镊辕,帶...
    沈念sama閱讀 34,477評(píng)論 4 333
  • 正文 年R本政府宣布油够,位于F島的核電站,受9級(jí)特大地震影響征懈,放射性物質(zhì)發(fā)生泄漏石咬。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,135評(píng)論 3 317
  • 文/蒙蒙 一受裹、第九天 我趴在偏房一處隱蔽的房頂上張望碌补。 院中可真熱鬧,春花似錦棉饶、人聲如沸厦章。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)袜啃。三九已至,卻和暖如春幸缕,著一層夾襖步出監(jiān)牢的瞬間群发,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工发乔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留熟妓,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,598評(píng)論 2 362
  • 正文 我出身青樓栏尚,卻偏偏與公主長(zhǎng)得像起愈,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,697評(píng)論 2 351

推薦閱讀更多精彩內(nèi)容