技術(shù)支持業(yè)務(wù)的機器學(xué)習(xí)算法實踐

業(yè)務(wù)背景：

? ? 隨著技術(shù)業(yè)務(wù)的產(chǎn)品化初厚，用戶對技術(shù)產(chǎn)品的使用過程中存在很多疑問，我們組織應(yīng)運而生孙技，主要負(fù)責(zé)技術(shù)產(chǎn)品日常過程中的答疑产禾；在答疑過程中會遇到很多對產(chǎn)品有抱怨的用戶，這些用戶比較大的特征是在會話語料牵啦、咨詢頻次亚情、滿意度方面；其他數(shù)據(jù)層還好哈雏，在語料層機器比較難識別楞件，在我所處的案例過程中，我一開始用的是開源的NLP包裳瘪，snownlp履因，但是snownlp的切詞不夠強大，而我們業(yè)務(wù)過程中又會存在很多的專有名詞盹愚，僅憑市場上的詞典無法很好的做切詞處理栅迄，需要自己建立詞典，所以我這邊整合了jieba的切詞皆怕，和snownlp所用到的貝葉斯分類器對文本進行分類毅舆。

數(shù)據(jù)鏈路：

? ? 文本切詞 -> 去stop word -> 用bag of word模型映射成為詞向量 -> 基于樸素貝葉斯的句子分類計算

原理似乎很簡單。愈腾。憋活。但是在此之前我干了啥。虱黄。悦即。因為我是冷場王，發(fā)起語料收集之后沒人鳥我。辜梳。粱甫。

????1.不斷地從語料里找專有名詞

????2.不斷地在語料里找各個分類的句子，直到形成每個庫都有上千行的語料作瞄。茶宵。。

成果：

有點小成績宗挥，之前沒白干乌庶，耶～（以防你們認(rèn)為我不開心）

技術(shù)點：

? ? · 切詞 ---- 一個反復(fù)而又繁瑣的過程

? ? 這個基本是調(diào)用jieba的接口就ok，jieba庫支持自己定制詞語契耿，然后程序啟動的時候load進來就好瞒大。

? ? 詞典有三列，自己定義的名詞搪桂，權(quán)重糠赦，詞性

? ? 然后調(diào)用jieba的cut方法即可

mvn 100 n

git 100 n

? ? · 訓(xùn)練貝葉斯分類器

? ? ? ? 這個訓(xùn)練過程干了什么事情：1.生成詞語圖譜向量 2.把切好的詞映射成詞向量 3.生成分類向量和各個大類的概率 p0V, p1V, pAb（這三個東西組成了分類器的核心）

? ? 解釋一下這三個變量背后所代表的意義：

? ? ????p1V、p0V(詞典里的每個詞屬于某個類的概率向量)

? ? ????pAb(詞典里某個類出現(xiàn)的概率)? ? ? ??

? ? · 樸素貝葉斯分類預(yù)測

? ? ? ? 有了各個分類向量和分類概率锅棕，在加上詞典拙泽，就可以進行分類預(yù)測了嘿嘿

? ? ? ? 基于貝葉斯條件概率，加上樸素假設(shè)（每個詞都是獨立變量裸燎，這個是簡化計算）

def classifyNB(self, vec2Classify):

????if sum(vec2Classify) < 2: # 這里我基于業(yè)務(wù)做了過濾顾瞻，因為用戶如果只說了一句話，一般不足以構(gòu)成abusive德绿，當(dāng)然也會出現(xiàn)用戶爆粗的時候只說了一句話荷荤，這樣的話他前后也會提供了一些abusive的詞，所以也不影響預(yù)測移稳，這個只是經(jīng)驗處理

????????return 0

# 這兩行就是基于條件概率的預(yù)測蕴纳，取log是對概率預(yù)測做了平滑處理，以防概率為0和概率太小導(dǎo)致的算法預(yù)測失效的情況

????p1 = sum(vec2Classify * self.p1Vec) + log(self.pClass1)

????p0 = sum(vec2Classify * self.p0Vec) + log(1.0 - self.pClass1)

????if p1 > p0:

????????return 1

????else:

????????return 0

最后編輯于：2018.10.03 11:59:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末个粱，一起剝皮案震驚了整個濱河市古毛，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌都许，老刑警劉巖稻薇，帶你破解...
沈念sama閱讀 221,273評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異胶征，居然都是意外死亡塞椎，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,349評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門睛低，熙熙樓的掌柜王于貴愁眉苦臉地迎上來案狠，“玉大人服傍，你說我怎么就攤上這事÷钐” “怎么了吹零？”我有些...
開封第一講書人閱讀 167,709評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長从铲。經(jīng)常有香客問我瘪校，道長澄暮，這世上最難降的妖魔是什么名段？我笑而不...
開封第一講書人閱讀 59,520評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮泣懊，結(jié)果婚禮上伸辟，老公的妹妹穿的比我還像新娘。我一直安慰自己馍刮，他們只是感情好信夫，可當(dāng)我...
茶點故事閱讀 68,515評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著卡啰，像睡著了一般静稻。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上匈辱，一...
開封第一講書人閱讀 52,158評論 1贊 308
城市分裂傳說
那天振湾，我揣著相機與錄音，去河邊找鬼亡脸。笑死押搪，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的浅碾。我是一名探鬼主播大州，決...
沈念sama閱讀 40,755評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼垂谢！你這毒婦竟也來了厦画？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,660評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤滥朱，失蹤者是張志新（化名）和其女友劉穎苛白，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體焚虱，經(jīng)...
沈念sama閱讀 46,203評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡购裙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,287評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了鹃栽。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片躏率。...
茶點故事閱讀 40,427評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡躯畴，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出薇芝，到底是詐尸還是另有隱情蓬抄，我是刑警寧澤，帶...
沈念sama閱讀 36,122評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布夯到，位于F島的核電站嚷缭，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏耍贾。R本人自食惡果不足惜阅爽，卻給世界環(huán)境...
茶點故事閱讀 41,801評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望荐开。院中可真熱鬧付翁，春花似錦、人聲如沸晃听。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,272評論 0贊 23
一樁弒父案楔绞，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽脂信。三九已至齿坷，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間初斑，已是汗流浹背辛润。一陣腳步聲響...
開封第一講書人閱讀 33,393評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留越平，地道東北人频蛔。一個月前我還...
沈念sama閱讀 48,808評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像秦叛，于是被迫代替她去往敵國和親晦溪。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,440評論 2贊 359

技術(shù)支持業(yè)務(wù)的機器學(xué)習(xí)算法實踐

推薦閱讀更多精彩內(nèi)容