fasttest

背景

最近做優(yōu)化評(píng)論的工作榔至,涉及到一些自然語(yǔ)言處理的問(wèn)題抵赢,記錄如下。

中文和英文很大的一個(gè)不同在于中分需要分詞唧取。對(duì)于英文來(lái)說(shuō)铅鲤,一個(gè)單詞就是一個(gè)詞,而對(duì)于中文來(lái)說(shuō)枫弟,可能是一個(gè)漢字代表一個(gè)詞邢享,也可能是幾個(gè)漢字代表一個(gè)詞。因此在使用許多語(yǔ)言模型的時(shí)候淡诗,首先要進(jìn)行分詞骇塘。

分詞的一個(gè)簡(jiǎn)單的方案是使用結(jié)巴分詞伊履。其中涉及自定義詞語(yǔ)的權(quán)重和自定義停用詞。雖然是python寫的款违,但是支持很多語(yǔ)言的調(diào)用唐瀑,分詞之后就可以使用一些模型進(jìn)行語(yǔ)義分析。

“結(jié)巴”中文分詞:做最好的 Python 中文分詞組件


一段評(píng)論的關(guān)鍵信息插爹,有評(píng)論的字?jǐn)?shù)哄辣,關(guān)鍵詞,詞頻赠尾,主題力穗,情感傾向等

過(guò)長(zhǎng)或者過(guò)短的評(píng)論往往都不能提供有效信息。過(guò)長(zhǎng)的評(píng)論有可能是一些無(wú)意義的粘貼的段落气嫁,過(guò)短的評(píng)論信息含量比較少当窗。當(dāng)然,也有一些詳細(xì)的有效的長(zhǎng)評(píng)論杉编,只是占比確實(shí)小一些超全。

關(guān)鍵詞或者是敏感詞咆霜,可以過(guò)濾掉一些負(fù)面的評(píng)論邓馒,留下正面評(píng)論。但是簡(jiǎn)單的規(guī)則很難準(zhǔn)確的判斷語(yǔ)句的含義蛾坯,經(jīng)常誤傷或者漏網(wǎng)光酣。

利用機(jī)器學(xué)習(xí)模型可以幫助分析語(yǔ)句的含義。但是監(jiān)督學(xué)習(xí)需要樣本的標(biāo)注脉课。

對(duì)于標(biāo)注,有人工標(biāo)注最好,如果沒(méi)有观腊,可以采用用戶評(píng)分以及簡(jiǎn)單規(guī)則過(guò)濾幻梯,在模型訓(xùn)練之后,可進(jìn)一步對(duì)之前的分類再分類呈驶,反復(fù)迭代拷泽。如此也是加速人工標(biāo)注的方法。袖瞻。

監(jiān)督學(xué)習(xí)還需要樣本司致,也就是需要將分詞向量化。向量化的一種方式是one-hot聋迎,可同時(shí)配合tf-idf方法脂矫,另一種方式是采用word2vec方法。在得到詞特征之后霉晕,可以使用lr或者svm或者lstm等模型進(jìn)行訓(xùn)練庭再。fasttext是一種基于word2vec的文本分類工具捞奕。

fasttext除了可以用于分類,還可以得到詞向量拄轻,以計(jì)算詞語(yǔ)之間的相似度缝彬,僅在做關(guān)鍵詞過(guò)濾時(shí),也可以做詞語(yǔ)的擴(kuò)展哺眯,對(duì)于近義詞做相似的處理谷浅,好過(guò)字與字的嚴(yán)格匹配。


基本使用

fasttext可以對(duì)一個(gè)標(biāo)注的語(yǔ)段分類奶卓,也可以得到詞向量做為下一步的處理的特征

事實(shí)上一疯,如果做商品推薦,如果將一系列的商品看做一系列的分詞夺姑,也可以使用fasttext實(shí)現(xiàn)基于商品的協(xié)同過(guò)濾墩邀。

fasttext可以至少有兩種使用方式,一種是基于命令行的盏浙,一種是基于python的眉睹。命令行似乎更快一點(diǎn)。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末废膘,一起剝皮案震驚了整個(gè)濱河市竹海,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌丐黄,老刑警劉巖斋配,帶你破解...
    沈念sama閱讀 221,406評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異灌闺,居然都是意外死亡艰争,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,395評(píng)論 3 398
  • 文/潘曉璐 我一進(jìn)店門桂对,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)甩卓,“玉大人,你說(shuō)我怎么就攤上這事蕉斜∮馐粒” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 167,815評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵蛛勉,是天一觀的道長(zhǎng)鹿寻。 經(jīng)常有香客問(wèn)我,道長(zhǎng)诽凌,這世上最難降的妖魔是什么毡熏? 我笑而不...
    開(kāi)封第一講書人閱讀 59,537評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮侣诵,結(jié)果婚禮上痢法,老公的妹妹穿的比我還像新娘狱窘。我一直安慰自己,他們只是感情好财搁,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,536評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布蘸炸。 她就那樣靜靜地躺著,像睡著了一般尖奔。 火紅的嫁衣襯著肌膚如雪搭儒。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 52,184評(píng)論 1 308
  • 那天提茁,我揣著相機(jī)與錄音淹禾,去河邊找鬼。 笑死茴扁,一個(gè)胖子當(dāng)著我的面吹牛铃岔,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播峭火,決...
    沈念sama閱讀 40,776評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼毁习,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了卖丸?” 一聲冷哼從身側(cè)響起纺且,我...
    開(kāi)封第一講書人閱讀 39,668評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎坯苹,沒(méi)想到半個(gè)月后隆檀,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,212評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡粹湃,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,299評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了泉坐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片为鳄。...
    茶點(diǎn)故事閱讀 40,438評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖腕让,靈堂內(nèi)的尸體忽然破棺而出孤钦,到底是詐尸還是另有隱情,我是刑警寧澤纯丸,帶...
    沈念sama閱讀 36,128評(píng)論 5 349
  • 正文 年R本政府宣布偏形,位于F島的核電站,受9級(jí)特大地震影響觉鼻,放射性物質(zhì)發(fā)生泄漏俊扭。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,807評(píng)論 3 333
  • 文/蒙蒙 一坠陈、第九天 我趴在偏房一處隱蔽的房頂上張望萨惑。 院中可真熱鬧捐康,春花似錦、人聲如沸庸蔼。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 32,279評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)姐仅。三九已至花枫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間掏膏,已是汗流浹背乌昔。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 33,395評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留壤追,地道東北人磕道。 一個(gè)月前我還...
    沈念sama閱讀 48,827評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像行冰,于是被迫代替她去往敵國(guó)和親溺蕉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,446評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容