用機(jī)器學(xué)習(xí)模型預(yù)測世界杯

??????????????????????????????????????????????????????????????????????????????????????????????????? ——作者:Ryan

引子:因本人工作與AI相關(guān)且愛好看球悍缠,故寫作此文,初衷是以寫作的方式督促自己持續(xù)學(xué)習(xí)耐量。才疏學(xué)淺,尚多不甚明了處廊蜒,歡迎探討斧正趴拧。


又到了世界杯季,作為真球迷的我很是興奮山叮,然而比我更興奮的是千千萬萬偽球迷。不知道為什么這次賭球之風(fēng)尤為盛行聘芜,印象中14年世界杯和16年歐洲杯的熱度遠(yuǎn)遠(yuǎn)不及本屆賽事。

既然大家都認(rèn)同科學(xué)技術(shù)是第一生產(chǎn)力缝龄,何不用科學(xué)的方法研究一下足球?如果以勝負(fù)預(yù)測為研究方向叔壤,作為當(dāng)前熱度最高的機(jī)器學(xué)習(xí)技術(shù)是當(dāng)仁不讓的首選武器瞎饲,預(yù)測過程可以看成一個(gè)分類過程炼绘,整個(gè)訓(xùn)練過程則是一個(gè)以歷程戰(zhàn)績嗅战、博彩賠率俺亮、球員能力等數(shù)據(jù)作為特征的有監(jiān)督學(xué)習(xí)驮捍。

當(dāng)然脚曾,這個(gè)想法早就有了,而且大部分已經(jīng)在代碼層面實(shí)現(xiàn)了本讥。作為一個(gè)研究課題珊泳,我們首先來看一看國內(nèi)外研究現(xiàn)狀。

首先我想說的是預(yù)測比賽不會(huì)很靠譜拷沸,因?yàn)樘卣鬟x擇太難,人為因素也太多撞芍,所以做球賽預(yù)測模型的收益不大秧了,所以也就是搞AI又喜歡看球的才會(huì)折騰折騰序无∈揪可能是國人比較重視投入產(chǎn)出的緣故,玩這個(gè)的很少米罚,國外倒是有很多愛好者在公開了他們的算法钧汹。

周六外面又陰雨綿綿录择,正好趁這片刻閑時(shí)拔莱,挑選互聯(lián)網(wǎng)上傳播最廣的兩套算法來了解一下隘竭。

1. Predicting FIFAWorld Cup 2018 using Machine Learning.

這套方法來自肯尼亞投資銀行的分析師Muriuki塘秦,他已將代碼托管在github上[1]动看。

Muriuki的模型比較簡單尊剔,數(shù)據(jù)來源與Kaggle數(shù)據(jù)集,特征只選取考慮了主客場類別的對(duì)陣數(shù)據(jù)菱皆,類別標(biāo)記是勝平負(fù)须误,以邏輯回歸作為分類算法仇轻。其中值得一提的是因?yàn)閿?shù)據(jù)集中存在主客場區(qū)別京痢,而世界杯除東道主外均為客戰(zhàn)篷店,為了保持?jǐn)?shù)據(jù)一致性,作者引入FIFA排名疲陕,每場比賽中Rank靠前的設(shè)為主隊(duì)(隱藏邏輯是排名靠前的球隊(duì)擁有更多球迷)方淤,這是個(gè)有意思的想法,以此為起點(diǎn)可以引申出更多的主客場數(shù)據(jù)處理方法蹄殃。

作者以70%的比例提取訓(xùn)練集,模型在測試集上的預(yù)測準(zhǔn)確率為55%窃爷。小組出線形勢的預(yù)測結(jié)果為:

Muriuki 預(yù)測結(jié)果

現(xiàn)在看來邑蒋,秘魯按厘、德國医吊、波蘭已經(jīng)涼了逮京。模型預(yù)測決賽將在巴西和德國中產(chǎn)生卿堂,最終巴西將捧杯雪恥。針對(duì)德國隊(duì)現(xiàn)在的狀態(tài)對(duì)此結(jié)果我也表示懷疑草描。

邏輯回歸是一種比較常用的分類算法,其優(yōu)點(diǎn)是應(yīng)用簡單穗慕,先對(duì)特征向量做線性變換再用sigmoid函數(shù)激活饿敲,最后求最大似然;預(yù)測結(jié)果就是0/1之間的概率怀各,直接明了。缺點(diǎn)是相比其他算法偏差偏高术浪;處理大量特征時(shí)效果不好瓢对。對(duì)于線性不可分問題胰苏、多分類問題硕蛹、共線性問題可分別用特征非線性化硕并、softmax和L2正則化加以應(yīng)對(duì)》ㄑ妫現(xiàn)在已存在LR的分布式實(shí)現(xiàn)鲤孵,計(jì)算效率進(jìn)一步提升。以邏輯回歸作為分類算法沒有問題辰如,畢竟特征太少,采用其他算法也有點(diǎn)殺雞用牛刀的感覺琉兜。

此模型相當(dāng)粗糙凯正。首先豌蟋,作者在附文中已明確表示廊散,他不是資深球迷梧疲,因此在特征工程上比較偷懶允睹,只有歷史對(duì)陣成績的特征可以表達(dá)的信息非常有限幌氮;其次,數(shù)據(jù)太過久遠(yuǎn)该互,粗略看了一下至少可以追溯到20世紀(jì)40年代米者,時(shí)效性是個(gè)問題;還有一個(gè)問題是將FIFA Rank作為判斷主客場類別的依據(jù)只在預(yù)測過程起了作用,在數(shù)據(jù)集中有很多國際賽事并未以此方法做預(yù)處理胰丁。采用什么機(jī)器學(xué)習(xí)算法其實(shí)不甚重要,在這個(gè)問題上特征工程的作用更加明顯喂分。

2. Prediction of theFIFA World Cup 2018 - A random forest approach with an emphasis on estimatedteam ability parameters

此篇論文發(fā)表在arxiv上[2]锦庸,作者是多特蒙德技術(shù)大學(xué)以Groll為首的AI科學(xué)家妻顶。

本文使用02到14年4屆世界杯比賽數(shù)據(jù),比較了三種不同的建模方法——Poisson Regression讳嘱、Random

Forest和Ranking Method 在預(yù)測比分中的效果幔嗦。前兩種基于相關(guān)變量如比分、經(jīng)濟(jì)等對(duì)抗信息建模沥潭,第三種方法顧名思義邀泉,基于球隊(duì)能力評(píng)價(jià)指標(biāo)如球員實(shí)力钝鸽、教練水平來建模汇恤。模擬結(jié)果顯示后兩種方法擁有更高的準(zhǔn)確率拔恰,經(jīng)驗(yàn)證將二者結(jié)合是更好的辦法因谎。最終颜懊,本文使用此結(jié)合算法計(jì)算了各隊(duì)在各杯賽階段的獲勝概率财岔。

作者在Introduction中系統(tǒng)介紹了近些年學(xué)者們的研究成果河爹,最初的一個(gè)有效建模策略是基于博彩賠率的建模。之后學(xué)者們發(fā)現(xiàn)可以建立假設(shè)進(jìn)球數(shù)服從泊松分布的統(tǒng)計(jì)模型咸这,最簡單的方式是附加條件獨(dú)立假設(shè)夷恍,目前許多研究人員已經(jīng)擺脫了這個(gè)強(qiáng)烈假設(shè),這看起來是更合理的酿雪,因?yàn)檫M(jìn)球數(shù)確實(shí)與對(duì)手有較強(qiáng)的相關(guān)性。與此完全不同的建模策略是采用隨機(jī)森林的集成學(xué)習(xí)侄刽,在Groll在早前發(fā)布的初步研究結(jié)果表明隨機(jī)森林提供了非常令人滿意的結(jié)果[3]执虹。

在數(shù)據(jù)層面唠梨,作者綜合考慮了很多方面袋励,最后挑選了如下特征。

1.經(jīng)濟(jì)因素:人均GDP茬故、人口。

2.競技因素:賠率(ODDSET)磺芭、FIFA排名赁炎。

3.主場優(yōu)勢:是否東道主、所在大陸徙垫、所在大洲。

4.隊(duì)員結(jié)構(gòu):最大與次大俱樂部隊(duì)友數(shù)放棒,平均年齡姻报、歐冠球員數(shù)间螟、異國俱樂部球員數(shù)吴旋。

5.教練因素:年齡厢破、執(zhí)教期荣瑟、是否與球隊(duì)同國籍摩泪。

在方法層面,作者詳細(xì)介紹了上文提到的幾種建模策略见坑。

1.隨機(jī)森林:隨機(jī)森林和GBDT都是常用的集成學(xué)習(xí)算法嚷掠,對(duì)此早有耳聞,但遺憾一直惰于深入研究鳄梅,其基本邏輯是通過建立大量獨(dú)立的CART決策樹后以投票或平均等方式集成各樹結(jié)果未檩,“隨機(jī)”的意思是在每棵樹中隨機(jī)采樣數(shù)據(jù)和在每個(gè)樹枝隨機(jī)提取特征戴尸,從而達(dá)到減少過擬合風(fēng)險(xiǎn)的目的。RF與GBDT的主要區(qū)別在于一個(gè)是并行模式冤狡,一個(gè)是串行模式。因?yàn)槲恼履康闹饕穷A(yù)測比分悲雳,隨意屬于回歸問題挎峦,故采用各決策樹均值作為最終結(jié)果合瓢。

特征重要性

上圖為訓(xùn)練后得到的特征重要程度坦胶,可以看出FIFA排名和賠率是影響最大的因素。

2.回歸法:作者綜述了各種回歸方法顿苇,其中效果最理想的是結(jié)合L1正則化的泊松回歸。進(jìn)球數(shù)服從泊松分布是一個(gè)很傳統(tǒng)的假設(shè)纪岁,比較隨機(jī)森林之后發(fā)現(xiàn)此方法稍有遜色凑队。

3.排序法:結(jié)合以往比賽進(jìn)球數(shù),結(jié)合泊松回歸創(chuàng)建一個(gè)最大似然估計(jì)模型來對(duì)球隊(duì)能力值參數(shù)進(jìn)行估計(jì)漩氨。為了區(qū)分不同賽事和不同比賽年份的影響程度,作者分別引入了兩種權(quán)重遗增。在時(shí)間上借鑒了在放射性元素半衰期的概念叫惊,距離現(xiàn)在時(shí)間越久遠(yuǎn)的比賽重要程度越低贡定,考慮到不同比賽的規(guī)模和重視程度不同,引入了FIFA排名計(jì)算方法缓待,按世界杯蚓耽、洲際杯、預(yù)選賽旋炒、友誼賽分別分配權(quán)重。

4.結(jié)合模型:最終作者比較了各個(gè)方法后瘫镇,將用排序方法計(jì)算的球隊(duì)能力值作為一個(gè)新的特征加入隨機(jī)森林作為最終模型鼎兽。

最終模型預(yù)測的各隊(duì)奪冠概率如下:

奪冠概率

模型預(yù)測的各階段各隊(duì)勝率如下:

階段勝率

此文所描述的模型無論在特征工程還是學(xué)習(xí)算法方面看起來都很合理铣除,尤其是在特征選擇上考慮的很全面∩姓常看完論文覺得還有幾點(diǎn)沒搞清楚择卦,比如進(jìn)球數(shù)服從泊松分布的背后邏輯?球隊(duì)所在大陸和所在大洲是否有必要區(qū)分為兩個(gè)特征郎嫁?博彩賠率數(shù)據(jù)結(jié)構(gòu)如何,綜合歐盤泽铛、亞盤尚辑?由于我對(duì)隨機(jī)森林算法不夠了解盔腔,所以后續(xù)有時(shí)間準(zhǔn)備實(shí)現(xiàn)一下文中方法杠茬,順便加深一下對(duì)隨機(jī)森林的理解。

注:文中方法與結(jié)論具有隨機(jī)性瓢喉,本文不構(gòu)成任何博彩建議吓坚,好好看球,遠(yuǎn)離賭博~

[1]https://github.com/itsmuriuki/FIFA-2018-World-cup-predictions.

[2]https://arxiv.org/abs/1806.03208.

[3] Schauberger, G. and A. Groll (2018):“Predicting matches in interna- tional football tournaments with random forests,” Statistical Modelling, in press.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末礁击,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子逗载,更是在濱河造成了極大的恐慌,老刑警劉巖厉斟,帶你破解...
    沈念sama閱讀 217,277評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件靶壮,死亡現(xiàn)場離奇詭異叠萍,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)茸习,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門纬霞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來冻辩,“玉大人,你說我怎么就攤上這事触幼∨鸢辏” “怎么了?”我有些...
    開封第一講書人閱讀 163,624評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵堂鲤,是天一觀的道長。 經(jīng)常有香客問我媒峡,道長瘟栖,這世上最難降的妖魔是什么谅阿? 我笑而不...
    開封第一講書人閱讀 58,356評(píng)論 1 293
  • 正文 為了忘掉前任半哟,我火速辦了婚禮奔穿,結(jié)果婚禮上镜沽,老公的妹妹穿的比我還像新娘贱田。我一直安慰自己,他們只是感情好嘴脾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,402評(píng)論 6 392
  • 文/花漫 我一把揭開白布蔬墩。 她就那樣靜靜地躺著,像睡著了一般耗拓。 火紅的嫁衣襯著肌膚如雪拇颅。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,292評(píng)論 1 301
  • 那天乔询,我揣著相機(jī)與錄音,去河邊找鬼竿刁。 笑死黄锤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的食拜。 我是一名探鬼主播,決...
    沈念sama閱讀 40,135評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼负甸,長吁一口氣:“原來是場噩夢啊……” “哼流强!你這毒婦竟也來了呻待?” 一聲冷哼從身側(cè)響起打月,我...
    開封第一講書人閱讀 38,992評(píng)論 0 275
  • 序言:老撾萬榮一對(duì)情侶失蹤蚕捉,失蹤者是張志新(化名)和其女友劉穎僵控,沒想到半個(gè)月后鱼冀,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體报破,經(jīng)...
    沈念sama閱讀 45,429評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡千绪,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,636評(píng)論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荸型。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盹靴。...
    茶點(diǎn)故事閱讀 39,785評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖稿静,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情辕狰,我是刑警寧澤改备,帶...
    沈念sama閱讀 35,492評(píng)論 5 345
  • 正文 年R本政府宣布蔓倍,位于F島的核電站悬钳,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏默勾。R本人自食惡果不足惜碉渡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,092評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望母剥。 院中可真熱鬧,春花似錦环疼、人聲如沸铭段。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至等限,卻和暖如春爸吮,著一層夾襖步出監(jiān)牢的瞬間望门,已是汗流浹背形娇。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評(píng)論 1 269
  • 我被黑心中介騙來泰國打工筹误, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留桐早,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,891評(píng)論 2 370
  • 正文 我出身青樓哄酝,卻偏偏與公主長得像,于是被迫代替她去往敵國和親祷膳。 傳聞我的和親對(duì)象是個(gè)殘疾皇子陶衅,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,713評(píng)論 2 354