基于snownlp的二次訓(xùn)練

1、snownlp是一個(gè)處理中文的類庫(kù)脓鹃,有中文分詞蛋辈、詞性標(biāo)注、情感分析将谊、文本分類冷溶、拼音、繁簡(jiǎn)尊浓、提取關(guān)鍵詞摘要等功能逞频。下載后可以直接用,不用訓(xùn)練栋齿。

2.能重新訓(xùn)練的模塊有seg(分析詞性)苗胀、sentiments(情感分析)、tag瓦堵、normal基协、

以sentiments模塊為例:


????sentiments目錄下有5個(gè)文件,其中init是程序菇用,neg和pos分別是消極和積極語(yǔ)料庫(kù)(也就是用來(lái)訓(xùn)練的數(shù)據(jù)集)sentiment.marshal.3和sentiment.marshal是訓(xùn)練保存的模型澜驮。(python2保存的是sentiment.marshal;python3保存的是sentiment.marshal.3)

替換語(yǔ)料集(數(shù)據(jù)集)

首先要找到能夠替換數(shù)據(jù)集的語(yǔ)料集惋鸥,數(shù)據(jù)格式要與原來(lái)相同杂穷,編碼方式為utf-8悍缠。

訓(xùn)練

????????找到函數(shù)接口(一般都在同級(jí)文件中)

init文件:

train()是訓(xùn)練函數(shù)、save是保存模型所用的函數(shù)

? ? ? ? ? ? 外部調(diào)用函數(shù)進(jìn)行訓(xùn)練

其中train.positive.txt和train.negative.txt為替換的數(shù)據(jù)集耐量,new.marshal為訓(xùn)練保存的模型飞蚓。

運(yùn)行這段代碼,成功后找到保存的模型(保存模型的位置是可以自定義的)

應(yīng)用新模型

方式一:將新模型名稱改為和原來(lái)模型名稱一致廊蜒,復(fù)制到sentiments目錄下替換原來(lái)的

方式二:改變讀取模型的路徑趴拧,同在init文件中操作

記得原路徑要注釋!山叮!

檢驗(yàn)?zāi)P褪欠裉鎿Q成功

用同一個(gè)例子應(yīng)用sentiments方法八堡,看原模型和新模型算出來(lái)的積極的概率(訓(xùn)練集不同,訓(xùn)練出兩個(gè)相同模型的概率很衅肝摺)概率不同則上述操作成功,如果概率不變缝龄,極有可能出現(xiàn)了誤操作汰现。





下面講一個(gè)seg與tag模塊的小方法


這是我找到的詞性數(shù)據(jù)集,需要將里面的BC兩列內(nèi)容轉(zhuǎn)化為txt文件(還有格式要求:每個(gè)具體例子之間有空格)

代碼實(shí)現(xiàn)如下:

第一個(gè)為表格路徑叔壤,第二個(gè)為表單名瞎饲,第三個(gè)為目標(biāo)保存路徑(均可自定義),運(yùn)行代碼炼绘,查看保存的文件嗅战。其中值得注意的是txt編碼方式需要轉(zhuǎn)換為utf-8。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末俺亮,一起剝皮案震驚了整個(gè)濱河市驮捍,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌脚曾,老刑警劉巖东且,帶你破解...
    沈念sama閱讀 212,599評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異本讥,居然都是意外死亡珊泳,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門拷沸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)色查,“玉大人,你說(shuō)我怎么就攤上這事撞芍⊙砹耍” “怎么了?”我有些...
    開封第一講書人閱讀 158,084評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵序无,是天一觀的道長(zhǎng)示惊。 經(jīng)常有香客問(wèn)我好港,道長(zhǎng),這世上最難降的妖魔是什么米罚? 我笑而不...
    開封第一講書人閱讀 56,708評(píng)論 1 284
  • 正文 為了忘掉前任钧汹,我火速辦了婚禮,結(jié)果婚禮上录择,老公的妹妹穿的比我還像新娘拔莱。我一直安慰自己,他們只是感情好隘竭,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,813評(píng)論 6 386
  • 文/花漫 我一把揭開白布塘秦。 她就那樣靜靜地躺著,像睡著了一般动看。 火紅的嫁衣襯著肌膚如雪尊剔。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 50,021評(píng)論 1 291
  • 那天菱皆,我揣著相機(jī)與錄音须误,去河邊找鬼。 笑死仇轻,一個(gè)胖子當(dāng)著我的面吹牛京痢,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播篷店,決...
    沈念sama閱讀 39,120評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼祭椰,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了疲陕?” 一聲冷哼從身側(cè)響起方淤,我...
    開封第一講書人閱讀 37,866評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎蹄殃,沒(méi)想到半個(gè)月后臣淤,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,308評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡窃爷,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,633評(píng)論 2 327
  • 正文 我和宋清朗相戀三年邑蒋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片按厘。...
    茶點(diǎn)故事閱讀 38,768評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡医吊,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出逮京,到底是詐尸還是另有隱情卿堂,我是刑警寧澤,帶...
    沈念sama閱讀 34,461評(píng)論 4 333
  • 正文 年R本政府宣布,位于F島的核電站草描,受9級(jí)特大地震影響览绿,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜穗慕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,094評(píng)論 3 317
  • 文/蒙蒙 一饿敲、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧逛绵,春花似錦怀各、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至胰苏,卻和暖如春硕蛹,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背硕并。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評(píng)論 1 267
  • 我被黑心中介騙來(lái)泰國(guó)打工法焰, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人鲤孵。 一個(gè)月前我還...
    沈念sama閱讀 46,571評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像辰如,于是被迫代替她去往敵國(guó)和親普监。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,666評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容