首先確定需要統(tǒng)計的數(shù)據(jù)箫荡,以及數(shù)據(jù)的來源蜻展。
通過畢達哥拉斯定律來進行估計:獲勝的概率等于得分的平方除以(得分的平方加上機會得分的平方)
使用到了Elo等級劃分制度喉誊,不懂就去百度
scipy 下載失敗,百度了錯誤之后試著下載
scipy-0.15.1-win32-superpack-python2.7纵顾,最新版本為python3.4
后來發(fā)現(xiàn)是依賴包沒有安裝伍茄,但是沒有辦法直接下載依賴包,所以搜索scipy for win64-Python2.7施逾,安裝成功
首先插入實驗相關(guān)模塊敷矫,然后設(shè)置回歸訓(xùn)練時所需用到的參數(shù)變量(當(dāng)每支隊伍沒有elo等級分時,賦予其基礎(chǔ)elo等級分)汉额,在最開始需要初始化數(shù)據(jù)曹仗,從T、O和M表格中讀入數(shù)據(jù)蠕搜,去除一些無關(guān)數(shù)據(jù)并將這三個表格通過Team屬性列進行連接(根據(jù)每支隊伍的Miscellaneous Opponent怎茫,Team統(tǒng)計數(shù)據(jù)csv文件進行初始)
將勝利隊伍和失敗隊伍的特征值隨機分配到每場比賽數(shù)據(jù)的左右側(cè)意思是,為了隨機產(chǎn)生[winTeam, loseTeam](勝利隊伍特征值在左側(cè)讥脐,對應(yīng)的y值標(biāo)簽為0)遭居,[loseTeam, winTeam](失敗隊伍在左側(cè)啼器, 對應(yīng)的y值標(biāo)簽為1)這樣的訓(xùn)練樣本旬渠。你也可以固定利用數(shù)據(jù)集前一半為[winTeam, loseTeam],后一半為[loseTeam, winTeam]這樣來生成數(shù)據(jù)端壳。只要保證兩類數(shù)據(jù)的分布比較均衡告丢,且在訓(xùn)練時隨機得取到兩類訓(xùn)練樣本即可。
最后出現(xiàn)找不到模塊的錯誤由朱老師接著完成