用機(jī)器學(xué)習(xí)模型預(yù)測世界杯

??????????????????????????????????????????????????????????????????????????????????????????????????? ——作者：Ryan

引子：因本人工作與AI相關(guān)且愛好看球悍缠，故寫作此文，初衷是以寫作的方式督促自己持續(xù)學(xué)習(xí)耐量。才疏學(xué)淺，尚多不甚明了處廊蜒，歡迎探討斧正趴拧。

又到了世界杯季，作為真球迷的我很是興奮山叮，然而比我更興奮的是千千萬萬偽球迷。不知道為什么這次賭球之風(fēng)尤為盛行聘芜，印象中14年世界杯和16年歐洲杯的熱度遠(yuǎn)遠(yuǎn)不及本屆賽事。

既然大家都認(rèn)同科學(xué)技術(shù)是第一生產(chǎn)力缝龄，何不用科學(xué)的方法研究一下足球？如果以勝負(fù)預(yù)測為研究方向叔壤，作為當(dāng)前熱度最高的機(jī)器學(xué)習(xí)技術(shù)是當(dāng)仁不讓的首選武器瞎饲，預(yù)測過程可以看成一個(gè)分類過程炼绘，整個(gè)訓(xùn)練過程則是一個(gè)以歷程戰(zhàn)績嗅战、博彩賠率俺亮、球員能力等數(shù)據(jù)作為特征的有監(jiān)督學(xué)習(xí)驮捍。

當(dāng)然脚曾，這個(gè)想法早就有了，而且大部分已經(jīng)在代碼層面實(shí)現(xiàn)了本讥。作為一個(gè)研究課題珊泳，我們首先來看一看國內(nèi)外研究現(xiàn)狀。

首先我想說的是預(yù)測比賽不會(huì)很靠譜拷沸，因?yàn)樘卣鬟x擇太難，人為因素也太多撞芍，所以做球賽預(yù)測模型的收益不大秧了，所以也就是搞AI又喜歡看球的才會(huì)折騰折騰序无∈揪可能是國人比較重視投入產(chǎn)出的緣故，玩這個(gè)的很少米罚，國外倒是有很多愛好者在公開了他們的算法钧汹。

周六外面又陰雨綿綿录择，正好趁這片刻閑時(shí)拔莱，挑選互聯(lián)網(wǎng)上傳播最廣的兩套算法來了解一下隘竭。

1. Predicting FIFAWorld Cup 2018 using Machine Learning.

這套方法來自肯尼亞投資銀行的分析師Muriuki塘秦，他已將代碼托管在github上[1]动看。

Muriuki的模型比較簡單尊剔，數(shù)據(jù)來源與Kaggle數(shù)據(jù)集，特征只選取考慮了主客場類別的對(duì)陣數(shù)據(jù)菱皆，類別標(biāo)記是勝平負(fù)须误，以邏輯回歸作為分類算法仇轻。其中值得一提的是因?yàn)閿?shù)據(jù)集中存在主客場區(qū)別京痢，而世界杯除東道主外均為客戰(zhàn)篷店，為了保持?jǐn)?shù)據(jù)一致性，作者引入FIFA排名疲陕，每場比賽中Rank靠前的設(shè)為主隊(duì)（隱藏邏輯是排名靠前的球隊(duì)擁有更多球迷）方淤，這是個(gè)有意思的想法，以此為起點(diǎn)可以引申出更多的主客場數(shù)據(jù)處理方法蹄殃。

作者以70%的比例提取訓(xùn)練集，模型在測試集上的預(yù)測準(zhǔn)確率為55%窃爷。小組出線形勢的預(yù)測結(jié)果為：

Muriuki 預(yù)測結(jié)果

現(xiàn)在看來邑蒋，秘魯按厘、德國医吊、波蘭已經(jīng)涼了逮京。模型預(yù)測決賽將在巴西和德國中產(chǎn)生卿堂，最終巴西將捧杯雪恥。針對(duì)德國隊(duì)現(xiàn)在的狀態(tài)對(duì)此結(jié)果我也表示懷疑草描。

邏輯回歸是一種比較常用的分類算法，其優(yōu)點(diǎn)是應(yīng)用簡單穗慕，先對(duì)特征向量做線性變換再用sigmoid函數(shù)激活饿敲，最后求最大似然；預(yù)測結(jié)果就是0/1之間的概率怀各，直接明了。缺點(diǎn)是相比其他算法偏差偏高术浪；處理大量特征時(shí)效果不好瓢对。對(duì)于線性不可分問題胰苏、多分類問題硕蛹、共線性問題可分別用特征非線性化硕并、softmax和L2正則化加以應(yīng)對(duì)》ㄑ妫現(xiàn)在已存在LR的分布式實(shí)現(xiàn)鲤孵，計(jì)算效率進(jìn)一步提升。以邏輯回歸作為分類算法沒有問題辰如，畢竟特征太少，采用其他算法也有點(diǎn)殺雞用牛刀的感覺琉兜。

此模型相當(dāng)粗糙凯正。首先豌蟋，作者在附文中已明確表示廊散，他不是資深球迷梧疲，因此在特征工程上比較偷懶允睹，只有歷史對(duì)陣成績的特征可以表達(dá)的信息非常有限幌氮；其次，數(shù)據(jù)太過久遠(yuǎn)该互，粗略看了一下至少可以追溯到20世紀(jì)40年代米者，時(shí)效性是個(gè)問題；還有一個(gè)問題是將FIFA Rank作為判斷主客場類別的依據(jù)只在預(yù)測過程起了作用，在數(shù)據(jù)集中有很多國際賽事并未以此方法做預(yù)處理胰丁。采用什么機(jī)器學(xué)習(xí)算法其實(shí)不甚重要，在這個(gè)問題上特征工程的作用更加明顯喂分。

2. Prediction of theFIFA World Cup 2018 - A random forest approach with an emphasis on estimatedteam ability parameters

此篇論文發(fā)表在arxiv上[2]锦庸，作者是多特蒙德技術(shù)大學(xué)以Groll為首的AI科學(xué)家妻顶。

本文使用02到14年4屆世界杯比賽數(shù)據(jù)，比較了三種不同的建模方法——Poisson Regression讳嘱、Random

Forest和Ranking Method 在預(yù)測比分中的效果幔嗦。前兩種基于相關(guān)變量如比分、經(jīng)濟(jì)等對(duì)抗信息建模沥潭，第三種方法顧名思義邀泉，基于球隊(duì)能力評(píng)價(jià)指標(biāo)如球員實(shí)力钝鸽、教練水平來建模汇恤。模擬結(jié)果顯示后兩種方法擁有更高的準(zhǔn)確率拔恰，經(jīng)驗(yàn)證將二者結(jié)合是更好的辦法因谎。最終颜懊，本文使用此結(jié)合算法計(jì)算了各隊(duì)在各杯賽階段的獲勝概率财岔。

作者在Introduction中系統(tǒng)介紹了近些年學(xué)者們的研究成果河爹，最初的一個(gè)有效建模策略是基于博彩賠率的建模。之后學(xué)者們發(fā)現(xiàn)可以建立假設(shè)進(jìn)球數(shù)服從泊松分布的統(tǒng)計(jì)模型咸这，最簡單的方式是附加條件獨(dú)立假設(shè)夷恍，目前許多研究人員已經(jīng)擺脫了這個(gè)強(qiáng)烈假設(shè)，這看起來是更合理的酿雪，因?yàn)檫M(jìn)球數(shù)確實(shí)與對(duì)手有較強(qiáng)的相關(guān)性。與此完全不同的建模策略是采用隨機(jī)森林的集成學(xué)習(xí)侄刽，在Groll在早前發(fā)布的初步研究結(jié)果表明隨機(jī)森林提供了非常令人滿意的結(jié)果[3]执虹。

在數(shù)據(jù)層面唠梨，作者綜合考慮了很多方面袋励，最后挑選了如下特征。

1.經(jīng)濟(jì)因素：人均GDP茬故、人口。

2.競技因素：賠率(ODDSET)磺芭、FIFA排名赁炎。

3.主場優(yōu)勢：是否東道主、所在大陸徙垫、所在大洲。

4.隊(duì)員結(jié)構(gòu)：最大與次大俱樂部隊(duì)友數(shù)放棒，平均年齡姻报、歐冠球員數(shù)间螟、異國俱樂部球員數(shù)吴旋。

5.教練因素：年齡厢破、執(zhí)教期荣瑟、是否與球隊(duì)同國籍摩泪。

在方法層面，作者詳細(xì)介紹了上文提到的幾種建模策略见坑。

1.隨機(jī)森林：隨機(jī)森林和GBDT都是常用的集成學(xué)習(xí)算法嚷掠，對(duì)此早有耳聞，但遺憾一直惰于深入研究鳄梅，其基本邏輯是通過建立大量獨(dú)立的CART決策樹后以投票或平均等方式集成各樹結(jié)果未檩，“隨機(jī)”的意思是在每棵樹中隨機(jī)采樣數(shù)據(jù)和在每個(gè)樹枝隨機(jī)提取特征戴尸，從而達(dá)到減少過擬合風(fēng)險(xiǎn)的目的。RF與GBDT的主要區(qū)別在于一個(gè)是并行模式冤狡，一個(gè)是串行模式。因?yàn)槲恼履康闹饕穷A(yù)測比分悲雳，隨意屬于回歸問題挎峦，故采用各決策樹均值作為最終結(jié)果合瓢。

特征重要性

上圖為訓(xùn)練后得到的特征重要程度坦胶，可以看出FIFA排名和賠率是影響最大的因素。

2.回歸法：作者綜述了各種回歸方法顿苇，其中效果最理想的是結(jié)合L1正則化的泊松回歸。進(jìn)球數(shù)服從泊松分布是一個(gè)很傳統(tǒng)的假設(shè)纪岁，比較隨機(jī)森林之后發(fā)現(xiàn)此方法稍有遜色凑队。

3.排序法：結(jié)合以往比賽進(jìn)球數(shù)，結(jié)合泊松回歸創(chuàng)建一個(gè)最大似然估計(jì)模型來對(duì)球隊(duì)能力值參數(shù)進(jìn)行估計(jì)漩氨。為了區(qū)分不同賽事和不同比賽年份的影響程度，作者分別引入了兩種權(quán)重遗增。在時(shí)間上借鑒了在放射性元素半衰期的概念叫惊，距離現(xiàn)在時(shí)間越久遠(yuǎn)的比賽重要程度越低贡定，考慮到不同比賽的規(guī)模和重視程度不同，引入了FIFA排名計(jì)算方法缓待，按世界杯蚓耽、洲際杯、預(yù)選賽旋炒、友誼賽分別分配權(quán)重。

4.結(jié)合模型：最終作者比較了各個(gè)方法后瘫镇，將用排序方法計(jì)算的球隊(duì)能力值作為一個(gè)新的特征加入隨機(jī)森林作為最終模型鼎兽。

最終模型預(yù)測的各隊(duì)奪冠概率如下：

奪冠概率

模型預(yù)測的各階段各隊(duì)勝率如下：

階段勝率

此文所描述的模型無論在特征工程還是學(xué)習(xí)算法方面看起來都很合理铣除，尤其是在特征選擇上考慮的很全面∩姓常看完論文覺得還有幾點(diǎn)沒搞清楚择卦，比如進(jìn)球數(shù)服從泊松分布的背后邏輯？球隊(duì)所在大陸和所在大洲是否有必要區(qū)分為兩個(gè)特征郎嫁？博彩賠率數(shù)據(jù)結(jié)構(gòu)如何，綜合歐盤泽铛、亞盤尚辑？由于我對(duì)隨機(jī)森林算法不夠了解盔腔，所以后續(xù)有時(shí)間準(zhǔn)備實(shí)現(xiàn)一下文中方法杠茬，順便加深一下對(duì)隨機(jī)森林的理解。

注：文中方法與結(jié)論具有隨機(jī)性瓢喉，本文不構(gòu)成任何博彩建議吓坚，好好看球，遠(yuǎn)離賭博～

[1]https://github.com/itsmuriuki/FIFA-2018-World-cup-predictions.

[2]https://arxiv.org/abs/1806.03208.

[3] Schauberger, G. and A. Groll (2018):“Predicting matches in interna- tional football tournaments with random forests,” Statistical Modelling, in press.

最后編輯于：2018.06.30 11:53:50

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末礁击，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子逗载，更是在濱河造成了極大的恐慌，老刑警劉巖厉斟，帶你破解...
沈念sama閱讀 217,277評(píng)論 6贊 503
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件靶壮，死亡現(xiàn)場離奇詭異叠萍，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)茸习，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,689評(píng)論 3贊 393
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門纬霞，熙熙樓的掌柜王于貴愁眉苦臉地迎上來冻辩，“玉大人，你說我怎么就攤上這事触幼∨鸢辏” “怎么了？”我有些...
開封第一講書人閱讀 163,624評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵堂鲤，是天一觀的道長。經(jīng)常有香客問我媒峡，道長瘟栖，這世上最難降的妖魔是什么谅阿？我笑而不...
開封第一講書人閱讀 58,356評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任半哟，我火速辦了婚禮奔穿，結(jié)果婚禮上镜沽，老公的妹妹穿的比我還像新娘贱田。我一直安慰自己，他們只是感情好嘴脾，可當(dāng)我...
茶點(diǎn)故事閱讀 67,402評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布蔬墩。她就那樣靜靜地躺著，像睡著了一般耗拓。火紅的嫁衣襯著肌膚如雪拇颅。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,292評(píng)論 1贊 301
城市分裂傳說
那天乔询，我揣著相機(jī)與錄音，去河邊找鬼竿刁。笑死黄锤，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的食拜。我是一名探鬼主播，決...
沈念sama閱讀 40,135評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼负甸，長吁一口氣：“原來是場噩夢啊……” “哼流强！你這毒婦竟也來了呻待？” 一聲冷哼從身側(cè)響起打月，我...
開封第一講書人閱讀 38,992評(píng)論 0贊 275
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤蚕捉，失蹤者是張志新（化名）和其女友劉穎僵控，沒想到半個(gè)月后鱼冀，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體报破，經(jīng)...
沈念sama閱讀 45,429評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡千绪，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,636評(píng)論 3贊 334
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荸型。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片盹靴。...
茶點(diǎn)故事閱讀 39,785評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖稿静，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情辕狰，我是刑警寧澤改备，帶...
沈念sama閱讀 35,492評(píng)論 5贊 345
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蔓倍，位于F島的核電站悬钳，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏默勾。R本人自食惡果不足惜碉渡，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,092評(píng)論 3贊 328
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望母剥。院中可真熱鬧，春花似錦环疼、人聲如沸铭段。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,723評(píng)論 0贊 22
一樁弒父案序愚，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至等限，卻和暖如春爸吮，著一層夾襖步出監(jiān)牢的瞬間望门，已是汗流浹背形娇。一陣腳步聲響...
開封第一講書人閱讀 32,858評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工筹误，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留桐早，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,891評(píng)論 2贊 370
代替公主和親
正文我出身青樓哄酝，卻偏偏與公主長得像，于是被迫代替她去往敵國和親祷膳。傳聞我的和親對(duì)象是個(gè)殘疾皇子陶衅，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,713評(píng)論 2贊 354