在2016.03 - 2016.06實驗室相互組隊參加了2016 KDD CUP 大數(shù)據(jù)競賽扑毡,總共組了三支隊伍探遵。我所在這支隊伍取得了35/341的成績柳沙。
項目描述 :
基于相關(guān)機構(gòu)在 8 個會議前 5 年的論文被接收數(shù)據(jù)岩灭,預(yù)測相關(guān)研究機構(gòu) 2016 年論文的被接收數(shù)量,進而計算出 2016 年指定會議
的相關(guān)機構(gòu)影響力排名赂鲤。
主要工作 :
1噪径、特征選擇
2、特征抽取
3数初、分別使用了線性回歸模型與 LR 模型對機構(gòu)論文接收數(shù)量進行預(yù)測找爱,計算研究機構(gòu)的影響力
成績:
F 值 35/341
工作:
根據(jù)5年的歷史數(shù)據(jù),預(yù)測2016年指定會議的機構(gòu)排名泡孩。最后共我們確定了兩個特征车摄,
x1. 機構(gòu)每年每個會議論文的被接收數(shù)量茎杂。
x2. 2011-2015每個機構(gòu)在各個會議上的排名没宾,簡稱機構(gòu)排名诺凡。(我們假設(shè)每年的機構(gòu)排名都對下一年的排名產(chǎn)生影響)
Y值:機構(gòu)的相關(guān)性得分(概率得分0-1)病瞳,即機構(gòu)的影響力的分。這個有公式可以計算出來薄料!
補充(特征x2和Y值的區(qū)別):這里注意機構(gòu)的排名和相關(guān)性得分是不同的敞贡。比如,在2015年斯坦福大學(xué)的在KDD投遞了50篇文章摄职,排名第一誊役,但是這50篇文章的里面有許多第二第三作者的文章,按照給出的規(guī)則谷市,每個機構(gòu)只能給蛔垢。那么1/3分的分。那么官方也給出了一個公式通過排名計算機構(gòu)的相關(guān)性得分---即機構(gòu)的影響力得分迫悠,也就是Y值的實質(zhì)鹏漆。 ?所以,就是斯坦福排名第一创泄,但是艺玲,它的影響力卻不一定能夠排名第一!
我們就拿2011-2014年的數(shù)據(jù)作為訓(xùn)練集鞠抑,訓(xùn)練出來參數(shù)后饭聚,拿2015年的數(shù)據(jù)作為測試集,得出2016年的機構(gòu)機構(gòu)得分并排名搁拙。
然后秒梳,提出每一個會議的前20名作為最終的提交結(jié)果。
特征x1機構(gòu)每年每個會議論文的被接收數(shù)量paper_num:
特征x2為2011-2015每個機構(gòu)在各個會議上的排名:
相關(guān)性得分Y:根據(jù)比賽官網(wǎng)給的公式得到:
? ? ? ? ? ? ?我們據(jù)此提取出Y值:
特征及標(biāo)簽我們都構(gòu)造完了箕速,就可以利用算法進行了酪碘!當(dāng)然了,特征的提取及標(biāo)簽Y都需要我們選擇并進行提取計算盐茎。
給出一篇師姐總結(jié)的文章兴垦,總結(jié)的挺好,具體細節(jié)我就略了