1粘咖,TF?IDF算法 TF是指歸一化后的詞頻,IDF是指逆文檔頻率。給定一個(gè)文檔集合D抄罕,有d1,d2,d3,......,dn∈D锦募。文檔集合總共...
搜索意圖識(shí)別: Query分析: 分詞:切詞,pinyin分詞 查詢類目預(yù)測(cè): Query改寫: Query改寫本質(zhì)上是要找到和原始Query相...
在搜索過程中逛拱,需要使用同義詞來達(dá)到提高召回的目的,例如用戶搜索:口紅台猴,但是商品名稱卻不含口紅關(guān)鍵詞朽合,比如商品名為:xxx彩色唇膏。但其實(shí)兩個(gè)詞是...
從最開始的邏輯回歸到后來的CNN饱狂,RNN曹步,我們經(jīng)常會(huì)聽到激活函數(shù)這個(gè)詞,也經(jīng)常會(huì)聽到sigmod函數(shù)會(huì)造成神經(jīng)網(wǎng)絡(luò)梯度消失休讳,BN為什么能緩解梯度...
在模型的評(píng)估與調(diào)整的過程中讲婚,經(jīng)常會(huì)遇到過擬合與欠擬合的情況,如何有效的識(shí)別過擬合和欠擬合現(xiàn)象俊柔,并了解其中原因筹麸,有效的對(duì)模型進(jìn)行調(diào)整。 什么是過擬...
最近朋友面試有被問到文本聚類問題雏婶,總結(jié)如下: 聚類分析物赶,又稱群分析,它是研究(樣品或指標(biāo))分類問題的一種統(tǒng)計(jì)分析方法留晚,以相似性為基礎(chǔ)酵紫,在一個(gè)聚類...
1.RNN解決了什么問題错维? RNN主要用來解決序列問題奖地,強(qiáng)調(diào)的是先后順序,在NLP中引申出上下文的概念赋焕,一個(gè)翻譯問題参歹,這個(gè)詞的含義可能和前后的單...
Xgboost無論是工業(yè)界還是kaggle比賽效果都很好,學(xué)習(xí)過程中看了很多博客依然理解的不是很好宏邮,自己比較菜泽示,看了陳天奇大神PPT清晰了很多,...
最近被問到熱詞挖掘蜜氨,幾種挖掘場(chǎng)景用到的算法思路都比較接近械筛,特整理思路如下,做以后參考飒炎。 幾個(gè)熱詞挖掘常見場(chǎng)景: 搜索query熱詞挖掘 輿情長(zhǎng)文...