16 年美國大選豹悬,是美國民調(diào)第二次預(yù)測失敗声旺。之前的失敗在于抽樣有偏。按道理這次應(yīng)該不會犯同樣錯誤,可為什么偏離結(jié)果那么大呢秤朗?
一種解釋是支持特朗普選民蹲盘,不愿意發(fā)表真實想法颜矿,否則被支持希拉里的陌生人打壓 述寡,導(dǎo)致被試造假。
那用行為數(shù)據(jù)作為抽樣呢顶滩?比如利用 twitter 提及兩位候選人名字和情感詞語作為特征余掖,畢竟在 twitter 發(fā)表意見,頂多被人罵礁鲁,一般沒太大人身安全問題盐欺。作出準(zhǔn)確預(yù)測的 AI ,的確預(yù)測特朗普勝選高達(dá) 90% 仅醇,其他準(zhǔn)確預(yù)測 AI 勝率也差不多冗美。但預(yù)測失敗的 AI , 同樣認(rèn)為希拉里當(dāng)選高達(dá) 90% ,比如微軟析二、Facebook粉洼。
事實上节预,以上預(yù)測的概率與定義有很大問題。美國當(dāng)選是指優(yōu)先拿下多少個州属韧,而非實際意義公投安拟,特朗普從這一點上的確是大贏。但如果按照全民投票來算宵喂,希拉里微勝于特朗普糠赦,就是接近 50:50,這一點目前沒任何民調(diào)和專業(yè)機(jī)構(gòu)預(yù)測的值沒有一個是這樣锅棕。
美國民調(diào)已經(jīng)不會只抽樣一次拙泽,而是每月做一次統(tǒng)計,尤其在后面三輪總統(tǒng)辯論裸燎。以之前成功兩次預(yù)測奧巴馬當(dāng)選 538 分析機(jī)構(gòu)為例:
如圖所示顾瞻,橙色線屬于 538 預(yù)測希拉里當(dāng)選勝率,會發(fā)現(xiàn)結(jié)果波動性十分大顺少,這也是為什么調(diào)研機(jī)構(gòu)朋其、預(yù)測 AI 分歧大的原因之一王浴。
實際上在觀察窗口脆炎,二選一數(shù)據(jù)預(yù)測概率波動性越高,最后預(yù)測的結(jié)果越接近 50:50氓辣,正如圖中藍(lán)線(Rigorous updating)秒裕,只有到最后一刻才能說出到底哪個獲勝。
換到調(diào)研與數(shù)據(jù)分析場景钞啸,如果監(jiān)測的指標(biāo)屬于二項分布(比如判斷用戶是否忠誠)几蜻,觀察窗口波動性過大,用它作為決策就不那么合適了体斩。