![Avatar notebook default](https://cdn2.jianshu.io/assets/default_avatar/avatar-notebook-default-640f7dde88592bdf6417d8ce1902636e.png)
6篇文章 · 13563字 · 7人關(guān)注
文本相似性的應(yīng)用場景會有很多香伴,在工業(yè)界我粗略遇到過: 熱點(diǎn)做輿情識別監(jiān)控的時(shí)候,需要對全網(wǎng)文章進(jìn)行聚合,聚合過程中需要知道哪些文章是一致的 推薦...
前言 最近很長時(shí)間沒有和大家分享東西了,最近一直在忙公司的項(xiàng)目,先說一聲抱歉幕垦。 之前寫過銷售預(yù)估算法,但是被諸多大佬吐槽有監(jiān)督學(xué)習(xí)部分毫無深度,...
17/12/30-update :很多朋友私密我想要代碼傅联,甚至利用金錢誘惑我先改,好吧,我淪陷了蒸走。因?yàn)樵即a涉及到公司的特征工程及一些利益tric...
檢測異常值一定程度上也可以叫做離群點(diǎn)識別仇奶,常規(guī)有以下幾種識別方法: 1.統(tǒng)計(jì)檢驗(yàn)(假設(shè)檢驗(yàn)) 舉個(gè)例子:以下一組用戶用車月花費(fèi):100,110比驻,...
我推薦一種之前在惠普做過一種排序方法:威爾遜區(qū)間法 我們先做如下設(shè)定: (1)每個(gè)用戶的打分都是獨(dú)立事件该溯。 (2)用戶只有兩個(gè)選擇,要么投喜歡'...
個(gè)人不建議填充缺失值别惦,建議設(shè)置啞變量或者剔除該變量狈茉,填充成本較高 常見填充缺失值的方法: 1.均值、眾數(shù)填充掸掸,填充結(jié)果粗糙對模型訓(xùn)練甚至有負(fù)面影...