看到kaggle绪妹、medium上有不少人用球隊(duì)的歷史數(shù)據(jù)來進(jìn)行建模預(yù)測(cè)邮旷,比如用到泊松分布、決策樹办陷、邏輯回歸等算法律歼,很大程度上能反映強(qiáng)者恒強(qiáng)的現(xiàn)象险毁,比如巴西、英格蘭等大概率能進(jìn)8強(qiáng)鲸鹦,就像高考模擬考試成績(jī)?cè)胶悯喂颍蟾怕矢呖家矔?huì)考得好。
這個(gè)和人腦的預(yù)測(cè)是類似的嵌戈,建立在你看了足夠多的球賽熟呛,對(duì)每一個(gè)國家隊(duì)尉姨、球員、教練九府、打法等都了如指掌侄旬,你才能有充分的判斷依據(jù)。而且你還不能帶有主觀的傾向宣羊,意大利球迷肯定篤定意大利能奪冠汰蜘,但他們?cè)陬A(yù)選賽就被淘汰了族操。
但是阿根廷輸沙特、德國輸日本這樣的黑天鵝事件泼舱,不管是AI還是人腦都是沒法預(yù)測(cè)的柠掂,否則真成預(yù)言者了依沮。買阿根廷、德國贏的人其實(shí)是選擇了大概率事件宋渔,但并沒有發(fā)生皇拣,他們的決策其實(shí)是對(duì)的薄嫡。
因?yàn)槭澜绫荣愑泻芏嘧儎?dòng)因素毫深,比如裁判規(guī)則、球員傷退钉寝、排兵布陣,甚至當(dāng)?shù)丨h(huán)境俘枫、食宿也都會(huì)有影響逮走,所以在進(jìn)行AI預(yù)測(cè)的時(shí)候师溅,需要有很多維度的數(shù)據(jù)進(jìn)行綜合分析,單單從球隊(duì)的歷史成績(jī)來判斷,肯定是對(duì)準(zhǔn)確率會(huì)有影響起便。
這其實(shí)是有貝葉斯定理的邏輯在里面窖维,大膽假設(shè)铸史,小心求證琳轿。
說了一大堆,還沒講如何用AI來預(yù)測(cè)挪哄。我前幾天在kaggle看到過一個(gè)博主用了GBM梯度提升算法琉闪,它通過求損失函數(shù)在梯度方向下降的方法迹炼,層層改進(jìn)。
大概描述下步驟:
1颠毙、數(shù)據(jù)準(zhǔn)備斯入。
該項(xiàng)目用了【FIFA 1992-2022世界排名】、【1872-2022國家隊(duì)比賽結(jié)果】?jī)蓚€(gè)數(shù)據(jù)集蛀蜜。通過數(shù)據(jù)預(yù)處理對(duì)兩個(gè)數(shù)據(jù)源進(jìn)行連接
2刻两、特征工程。
列出對(duì)預(yù)測(cè)比賽結(jié)果有影響的特征字段涵防,共37個(gè)闹伪。特征選取主要根據(jù)歷史經(jīng)驗(yàn)沪铭、直覺判斷偏瓤,比如過去的比賽積分杀怠、過去的進(jìn)球和損失、比賽的重要性、球隊(duì)排名、團(tuán)隊(duì)排名提升等等武氓。
接著要對(duì)各個(gè)特征進(jìn)行相關(guān)性檢測(cè)释树,判斷對(duì)預(yù)測(cè)是否有幫助,如果沒有幫助的特征則直接剔除华烟。最后留下11個(gè)最重要的特征,用來建模分析。
3漆枚、建立模型。
數(shù)據(jù)處理了抵知,接下來是通過機(jī)器學(xué)習(xí)模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練墙基,然后得出預(yù)測(cè)結(jié)果。
這里用了梯度提升和決策樹兩個(gè)算法刷喜,最終選recall最高的残制,博主測(cè)試后選擇了梯度提升算法。
算法具體使用操作方法如下:
4掖疮、預(yù)測(cè)世界杯比賽初茶。
搭建好模型,就可以把世界比賽的對(duì)陣數(shù)據(jù)放到模型里進(jìn)行預(yù)測(cè)浊闪。最終算出來小組賽恼布、十六強(qiáng)賽、八強(qiáng)賽搁宾、四強(qiáng)賽桥氏、總決賽的得分情況。
從目前看猛铅,預(yù)測(cè)結(jié)果其實(shí)還是復(fù)制歷史經(jīng)驗(yàn)字支,小組出線情況基本和世界排名情況一致,沒有超乎人的經(jīng)驗(yàn)范圍奸忽。對(duì)于黑馬堕伪、黑天鵝并沒有什么預(yù)測(cè)能力。
其他預(yù)測(cè)結(jié)果就不一一展示了栗菜,哦欠雌,最后好像預(yù)測(cè)是巴西奪冠概率較大。
總之疙筹,AI預(yù)測(cè)世界杯其實(shí)是對(duì)歷史數(shù)據(jù)的歸納總結(jié)富俄,而且完全依賴數(shù)據(jù)的喂養(yǎng)禁炒,能給出相對(duì)概率。
這和人的直覺一樣霍比,你覺得巴西會(huì)奪冠幕袱,肯定有一些過往的事實(shí)驗(yàn)證了你的直覺,不然就是瞎猜了悠瞬。