Search Results Relevance@Kaggle

最近改論文業(yè)余玩的一個(gè)比賽芙粱。我是在最后10幾天開(kāi)始玩的祭玉,雖然最后名次不高,但是還是挺有意義的一次比賽春畔。

題目:預(yù)測(cè)在線評(píng)論網(wǎng)站的搜索結(jié)果評(píng)分脱货。
數(shù)據(jù):查詢(query)、產(chǎn)品title律姨、產(chǎn)品描述

我加入的時(shí)候已經(jīng)有1000+只隊(duì)伍/個(gè)人參與了振峻。這是一個(gè)文本相關(guān)的預(yù)測(cè)任務(wù),我們需要通過(guò)給出的查詢线召、產(chǎn)品文本信息铺韧,預(yù)測(cè)用戶(多個(gè))對(duì)查詢結(jié)果的評(píng)分的中位數(shù),即查詢與結(jié)果的相關(guān)系數(shù)缓淹。

評(píng)估標(biāo)準(zhǔn)是quadratic weighted kappa[1]

Benchmark&其他選手提供的Script的一個(gè)簡(jiǎn)單思路就是將文本連接在一起哈打,用tfidf刻畫(huà)每個(gè)Doc,再通過(guò)svd分解成低維的矩陣讯壶,以相關(guān)系數(shù)作為label料仗,作為多分類問(wèn)題放入分類算法。

這里怎么處理文本是一個(gè)很有門(mén)道的活伏蚊,關(guān)于文本的預(yù)處理的工作主要以及主要工具:

  • 去除HTML標(biāo)簽立轧,使用的BeautifulSoup
  • 去除停用詞
  • 詞干提取,nltk.PorterStemmer

這里介紹兩個(gè)script作為benchmark:

  • 記為modelA,無(wú)預(yù)處理氛改,查詢+產(chǎn)品title->tfidf->SVD(400)->標(biāo)準(zhǔn)化->SVM
    這個(gè)方法帐萎,沒(méi)有對(duì)文本預(yù)處理,直接將查詢和產(chǎn)品title連接在一起胜卤。LB0.579+

  • 記為modelB疆导,完整的文本預(yù)處理->tfidf->SVD(400)->標(biāo)準(zhǔn)化->SVM
    這個(gè)方法使用了產(chǎn)品描述,并進(jìn)行了預(yù)處理工作葛躏。LB0.600+

有一個(gè)人對(duì)上述兩個(gè)方法使用了簡(jiǎn)單的線性stacking learning[2]澈段,在LB上得到了0.626的成績(jī)。

以上使用的是CV來(lái)搜索參數(shù)和防止過(guò)擬舰攒。

我使用的是8:2的線下訓(xùn)練集/驗(yàn)證集劃分败富,這樣做的原因是結(jié)果比較穩(wěn)定。

我的思路是尋求其它一套具有物理意義的特征體系摩窃。

  • 我發(fā)現(xiàn)訓(xùn)練集和測(cè)試集的查詢(query)是一樣的兽叮,一共260個(gè)。因此可以利用label給每個(gè)查詢做一套特征猾愿,主要是每個(gè)查詢label的統(tǒng)計(jì)(均值充择、max、min和標(biāo)準(zhǔn)差)匪蟀、每個(gè)label值(1,2,3,4)占比、以及占比的威爾遜區(qū)間[3]下限以及下限乘以占比宰僧、還有l(wèi)abel標(biāo)準(zhǔn)差的統(tǒng)計(jì)(均值材彪、max、min和標(biāo)準(zhǔn)差)琴儿。
  • 單詞粒度的統(tǒng)計(jì)信息:查詢段化、產(chǎn)品title、產(chǎn)品描述的單詞計(jì)數(shù)造成,查詢中的單詞出現(xiàn)在title中的數(shù)量以及占比等等显熏。
    這套特征體系LB0.57左右,記為modelX

接下來(lái)一段時(shí)間就是做modelA+modelB+modelX的stacking learning晒屎,結(jié)果一直在0.62~0.64左右徘徊喘蟆。期間嘗試過(guò)

  • 對(duì)relevance variance(一條記錄label的標(biāo)準(zhǔn)差)零和非零做分層學(xué)習(xí),即產(chǎn)生兩個(gè)model再做ensemble鼓鲁,線下確實(shí)提升了蕴轨,但是線上卻下降,原因不明骇吭。
  • 將modelA和modelB的輸出概率作為特征加入modelX橙弱,結(jié)果不好。

最后的幾天,改變ensemble的方法棘脐,改用modelA svd分解的后的特征+modelX特征作為modelA+斜筐,同理得到modelB+,這兩個(gè)模型再做stack learning蛀缝,調(diào)參后LB0.669.

最后一天顷链,嘗試了Word2vec[4],使用gensim訓(xùn)練了(query+product title+product description)組成的語(yǔ)料内斯,輸出了300維的word2vec蕴潦,再通過(guò)average的方法得到了每個(gè)doc的300維特征以此作為modelC的特征。與modelX結(jié)合俘闯,線下取得了比modelA+好的成績(jī)潭苞。

最后一次提交使用的是modelA+ + modelB+ + modelC+,LB是0.669(但比之前那個(gè)略差)真朗,我想應(yīng)該是欠擬合的緣故此疹,應(yīng)該會(huì)比之前有提高的。

最后成績(jī)并不理想遮婶,public LB rank 105蝗碎, private LB rank 85.

體會(huì):

  • 最后有點(diǎn)遺憾,應(yīng)該早點(diǎn)使用word2vec旗扑,google提前訓(xùn)練好的vector沒(méi)有下載下來(lái)= =蹦骑。
  • 可以看出來(lái)我并沒(méi)有做很細(xì)致的工作,幾乎都是benchmark上做ensemble臀防。
  • stacking learning很簡(jiǎn)單眠菇,卻很實(shí)用。

Reference

  1. https://en.wikipedia.org/wiki/Cohen's_kappa
  2. https://en.wikipedia.org/wiki/Ensemble_learning
  3. http://www.evanmiller.org/how-not-to-sort-by-average-rating.html
  4. https://code.google.com/p/word2vec/
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末袱衷,一起剝皮案震驚了整個(gè)濱河市捎废,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌致燥,老刑警劉巖登疗,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異嫌蚤,居然都是意外死亡辐益,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)脱吱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)荷腊,“玉大人,你說(shuō)我怎么就攤上這事急凰∨觯” “怎么了猜年?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)疾忍。 經(jīng)常有香客問(wèn)我乔外,道長(zhǎng),這世上最難降的妖魔是什么一罩? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任杨幼,我火速辦了婚禮,結(jié)果婚禮上聂渊,老公的妹妹穿的比我還像新娘差购。我一直安慰自己,他們只是感情好汉嗽,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布欲逃。 她就那樣靜靜地躺著,像睡著了一般饼暑。 火紅的嫁衣襯著肌膚如雪稳析。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,754評(píng)論 1 307
  • 那天弓叛,我揣著相機(jī)與錄音彰居,去河邊找鬼。 笑死撰筷,一個(gè)胖子當(dāng)著我的面吹牛陈惰,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播毕籽,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼奴潘,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了影钉?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤掘剪,失蹤者是張志新(化名)和其女友劉穎平委,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體夺谁,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡廉赔,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了匾鸥。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜡塌。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖勿负,靈堂內(nèi)的尸體忽然破棺而出馏艾,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布琅摩,位于F島的核電站铁孵,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏房资。R本人自食惡果不足惜蜕劝,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望轰异。 院中可真熱鬧岖沛,春花似錦、人聲如沸搭独。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)戳稽。三九已至馆蠕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間惊奇,已是汗流浹背互躬。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留颂郎,地道東北人吼渡。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像乓序,于是被迫代替她去往敵國(guó)和親寺酪。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容