技術(shù)支持業(yè)務(wù)的機器學(xué)習(xí)算法實踐

業(yè)務(wù)背景:

? ? 隨著技術(shù)業(yè)務(wù)的產(chǎn)品化初厚,用戶對技術(shù)產(chǎn)品的使用過程中存在很多疑問,我們組織應(yīng)運而生孙技,主要負(fù)責(zé)技術(shù)產(chǎn)品日常過程中的答疑产禾;在答疑過程中會遇到很多對產(chǎn)品有抱怨的用戶,這些用戶比較大的特征是在會話語料牵啦、咨詢頻次亚情、滿意度方面;其他數(shù)據(jù)層還好哈雏,在語料層機器比較難識別楞件,在我所處的案例過程中,我一開始用的是開源的NLP包裳瘪,snownlp履因,但是snownlp的切詞不夠強大,而我們業(yè)務(wù)過程中又會存在很多的專有名詞盹愚,僅憑市場上的詞典無法很好的做切詞處理栅迄,需要自己建立詞典,所以我這邊整合了jieba的切詞皆怕,和snownlp所用到的貝葉斯分類器對文本進行分類毅舆。


數(shù)據(jù)鏈路:

? ? 文本切詞 -> 去stop word -> 用bag of word模型映射成為詞向量 -> 基于樸素貝葉斯的句子分類計算


原理似乎很簡單。愈腾。憋活。但是在此之前我干了啥。虱黄。悦即。因為我是冷場王,發(fā)起語料收集之后沒人鳥我。辜梳。粱甫。

????1.不斷地從語料里找專有名詞

????2.不斷地在語料里找各個分類的句子,直到形成每個庫都有上千行的語料作瞄。茶宵。。


成果:

有點小成績宗挥,之前沒白干乌庶,耶~(以防你們認(rèn)為我不開心)


技術(shù)點:

? ? · 切詞 ---- 一個反復(fù)而又繁瑣的過程

? ? 這個基本是調(diào)用jieba的接口就ok,jieba庫支持自己定制詞語契耿,然后程序啟動的時候load進來就好瞒大。

? ? 詞典有三列,自己定義的名詞搪桂,權(quán)重糠赦,詞性

? ? 然后調(diào)用jieba的cut方法即可

mvn 100 n

git 100 n


? ? · 訓(xùn)練貝葉斯分類器

? ? ? ? 這個訓(xùn)練過程干了什么事情:1.生成詞語圖譜向量 2.把切好的詞映射成詞向量 3.生成分類向量和各個大類的概率 p0V, p1V, pAb(這三個東西組成了分類器的核心)

? ? 解釋一下這三個變量背后所代表的意義:

? ? ????p1V、p0V(詞典里的每個詞屬于某個類的概率向量)

? ? ????pAb(詞典里某個類出現(xiàn)的概率)? ? ? ??

? ? · 樸素貝葉斯分類預(yù)測

? ? ? ? 有了各個分類向量和分類概率锅棕,在加上詞典拙泽,就可以進行分類預(yù)測了嘿嘿

? ? ? ? 基于貝葉斯條件概率,加上樸素假設(shè)(每個詞都是獨立變量裸燎,這個是簡化計算)

def classifyNB(self, vec2Classify):

????if sum(vec2Classify) < 2: # 這里我基于業(yè)務(wù)做了過濾顾瞻,因為用戶如果只說了一句話,一般不足以構(gòu)成abusive德绿,當(dāng)然也會出現(xiàn)用戶爆粗的時候只說了一句話荷荤,這樣的話他前后也會提供了一些abusive的詞,所以也不影響預(yù)測移稳,這個只是經(jīng)驗處理

????????return 0

# 這兩行就是基于條件概率的預(yù)測蕴纳,取log是對概率預(yù)測做了平滑處理,以防概率為0和概率太小導(dǎo)致的算法預(yù)測失效的情況

????p1 = sum(vec2Classify * self.p1Vec) + log(self.pClass1)

????p0 = sum(vec2Classify * self.p0Vec) + log(1.0 - self.pClass1)

????if p1 > p0:

????????return 1

????else:

????????return 0

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末个粱,一起剝皮案震驚了整個濱河市古毛,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌都许,老刑警劉巖稻薇,帶你破解...
    沈念sama閱讀 221,273評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異胶征,居然都是意外死亡塞椎,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,349評論 3 398
  • 文/潘曉璐 我一進店門睛低,熙熙樓的掌柜王于貴愁眉苦臉地迎上來案狠,“玉大人服傍,你說我怎么就攤上這事÷钐” “怎么了吹零?”我有些...
    開封第一講書人閱讀 167,709評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長从铲。 經(jīng)常有香客問我瘪校,道長澄暮,這世上最難降的妖魔是什么名段? 我笑而不...
    開封第一講書人閱讀 59,520評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮泣懊,結(jié)果婚禮上伸辟,老公的妹妹穿的比我還像新娘。我一直安慰自己馍刮,他們只是感情好信夫,可當(dāng)我...
    茶點故事閱讀 68,515評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著卡啰,像睡著了一般静稻。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上匈辱,一...
    開封第一講書人閱讀 52,158評論 1 308
  • 那天振湾,我揣著相機與錄音,去河邊找鬼亡脸。 笑死押搪,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的浅碾。 我是一名探鬼主播大州,決...
    沈念sama閱讀 40,755評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼垂谢!你這毒婦竟也來了厦画?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,660評論 0 276
  • 序言:老撾萬榮一對情侶失蹤滥朱,失蹤者是張志新(化名)和其女友劉穎苛白,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體焚虱,經(jīng)...
    沈念sama閱讀 46,203評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡购裙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,287評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了鹃栽。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片躏率。...
    茶點故事閱讀 40,427評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡躯畴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出薇芝,到底是詐尸還是另有隱情蓬抄,我是刑警寧澤,帶...
    沈念sama閱讀 36,122評論 5 349
  • 正文 年R本政府宣布夯到,位于F島的核電站嚷缭,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏耍贾。R本人自食惡果不足惜阅爽,卻給世界環(huán)境...
    茶點故事閱讀 41,801評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望荐开。 院中可真熱鬧付翁,春花似錦、人聲如沸晃听。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,272評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽脂信。三九已至齿坷,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間初斑,已是汗流浹背辛润。 一陣腳步聲響...
    開封第一講書人閱讀 33,393評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留越平,地道東北人频蛔。 一個月前我還...
    沈念sama閱讀 48,808評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像秦叛,于是被迫代替她去往敵國和親晦溪。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,440評論 2 359

推薦閱讀更多精彩內(nèi)容