阿根廷輸球了，別急，有人說他們能奪冠！

阿根廷在 2022 年卡達世界盃決賽以 1-0 擊敗巴西，梅西打進唯一進球，幫助阿根廷隊獲得 1986 年以來的首個世界盃冠軍。

整個世界盃期間，梅西在 7 場比賽中踢進 8 個進球，榮獲金靴獎（進球最多），金球獎（最佳球員）稱號。巴西隊、法國隊分別獲得亞軍和季軍。

FIFA 23 預測結果丨圖片來自官網

唉？不對啊！世界盃不是才剛開始嗎？而且阿根廷剛輸球啊！

以上結果是由足球遊戲 FIFA 23 模擬出來的，不過不少球迷買賬。FIFA 遊戲曾成功預測過往三屆世界盃的冠軍，也不怪其製作商EA揚言：大家可以不用看世界盃了，因為它已經“劇透”過了。

你會發現，每逢世界盃這樣的大賽，各種“預測”就成精了，什麼 AI 啊，大模型啊，又高科技啦（也有低科技的，還記得章魚保羅麼？）……

這些“先知”憑啥那麼“自信”？

哪些要素決定了預測結果？

近年來，包括足球在內的體育比賽大都透過傳統統計學、機器學習方法來預測結果。預測機構會收集球隊過往比賽的資料，將能夠影響比賽的因素資料結構化。結合博彩公司的盤口和賠率，利用機器學習演算法進行建模，最後跑出結果。

常用的演算法有“隨機森林（Random Forests）”，平時常用於市場營銷和醫療保險領域的計算。簡單來說，這套系統要建立一個“森林”，裡面種很多棵“樹”（透過子樣本集合訓練出的），當有一個新的輸入樣本進入，每一棵樹分別進行預測，給出自己的答案。再透過“民主投票機制”（比如取平均數等）得出結果。

另一種常用的辦法是“泊松分佈（Poisson Distribution）”，用來模擬一個離散事件在連續時間內發生次數的機率分佈。真實生活中，很多場景與“泊松分佈”相關，比如電商網站在某段時間內的點選率；放射性元素每秒內衰變的粒子個數；工廠機器人出現故障頻率等等。應用在球賽中，能根據歷史資料推演出的每個球隊的攻擊力和防守力，預測出一個球隊的進球機率。

機器學習，就是一個從已有資料中發現和學習潛在規律的過程。丨圖片來自 Giphy

但是一個複雜的機器學習模型，會根據納入的資料特徵採用多種演算法。

有一個國際研究團隊在今年世界盃看好阿根廷的死對頭——巴西，首先他們做了一個球隊的實力統計模型，利用泊松分佈演算法基於過去八年的國際賽事資料，預估團隊當前的能力。但並不是一個過往“戰績”的平均值計算，越近的比賽結果被賦予越多權重。“未來實力”的預估還包括 28 家國際博彩公司的賠率。結合更多資料維度，球隊市場價值，國際足聯排名，球隊結構所代表的球隊特徵，以及人口和人均 GDP 所代表的國家特徵，構建一個隨機森林模型。

這個團隊給出的最終結果是，巴西有15%的勝率奪冠，其次為阿根廷、荷蘭、德國和法國。

資料維度的選擇很重要。資料量和資料維度會造成預測結果的大相徑庭。國際足聯排名這樣的資料維度很好理解。但為什麼很多預測模型中還要加入社會經濟因素？

英國投行 Liberum Capital 的分析師 Joachim Klement 曾經成功預測 2014 年和 2018 年的世界盃冠軍，他拿“人均 GDP ”舉例：國家不能太窮，想要培養足球人才，基礎設施和足球場必不可少；但國家太富裕的話，孩子們又有足球以外太多的運動選擇了。

“人口”這一因素只有在足球是主流文化的地區才會起作用，比如拉丁美洲。2018 年的世界盃亞軍克羅埃西亞，其總人口只有 400 萬，是歐洲的一個小國家，但整個國家的足球系統對青訓的投入極大。

社會經濟因素也會影響足球賽事結果丨圖片來自 Giphy

（國家所在）天氣也是一個重要因素。太冷太熱都不被看好（看看東道主卡達隊），理想溫度是 14℃，或大致相當於歐洲南部和南美大部分地區的年平均溫度。這麼一說，除了英格蘭（1966）和德國（1964、1974、1990、2014），歷屆世界盃冠軍都符合這一點。

而最難衡量的，是“主場優勢”。可能是更熟悉的場地，本國粉絲們的打氣，甚至是“主場哨”。至今只有卡達作為東道主輸了揭幕戰——可見主場優勢雖然解釋不清楚，但影響卻真實存在。

機器學習，就是一個從已有資料中發現和學習潛在規律的過程。

一場比賽結果的判斷依據，確實與歷史表現有很大關係。

但所有預測模型都會加上那樣一句提示：“不保準兒哦～”

科學準還是玄學準？

足球比賽中，決定結果的意外因素實在太多。

因為卡達夏季的高溫，此次世界盃不得不推遲到冬季，這一下子打亂了各國足球聯賽的日程，令球員們也難以適應。“各個國家隊備戰的時間更少，壓縮球員在世界盃前的恢復時間，再加上卡達的氣候條件，增加了球員受傷的風險。”之前看好巴西奪冠的那個研究機構說。

大多數預測機構的看法類似。由於備戰、磨合時間更少，以打配合取勝，隊員實力均衡的隊伍，比如西班牙和德國，優勢就小了。而對於像 C羅、梅西這樣個人能力出眾的運動員，影響相對小些。但是另一面，對於他們的年齡來說，身體的疲勞將成為一個左右比賽結果的重要變數。

梅西丨圖片來自 Giphy

體育資料提供商 Opta 看好巴西，給出 15。8% 的奪冠機率，高於阿根廷（12。6%），法國（12。2%）。可就在今年 6 月，他們還一口咬定法國是奪冠熱門。他們給出的“改口”理由是：法國隊計程車氣和團隊合作出現週期性下滑，這顯然來自於最近的觀察。所以預測這種事，還是時間離得越近，準確性越高。

甚至直到比賽開始，預測依然在變。大資料公司 FiveThirtyEight 有一個“SPI指數”（足球強度指數），對每一場賽事做提前預測。但是賽場實時動態，也會被他們考慮進去，實時計算出剩餘時間內兩隊可能的比分情況——如果你平時關注現在的一些歐洲聯賽，轉播畫面上已經出現了實時預測比賽結果的資訊。

他們舉了一個例子。2014 年，巴西對克羅埃西亞。比賽之前，根據過往 SPI，模型給了巴西隊 86% 的獲勝機率。比賽開始的 11 分鐘，巴西隊後衛不幸上演烏龍，將對手原本射偏的射門踢入自家球門，巴西隊以 0-1 落後。

隨即，模型調整比分預測，算出巴西仍有機會扳回來，以58%的機率獲勝。根據以往的觀察，他們得出一個結論：優秀的球隊在開局短暫地落後，往往能被激發潛力，以更大比分優勢獲勝。球隊越優秀，“戲劇性”就越強。

所以他們再次調整了實時比分預測，認為巴西將有 66% 的機會贏得比賽。最終的戰績是 3-1，很準。

這類加入“實時計算”的模型，比單純的“AI 找規律”，更準了一些。但足球比賽是否真的能夠“預測”？

AI 依託於大資料，搭建機器學習模型給出一個看似最有可能的結果，給了一個讓人們“買單”的理由——用資料說話。

“即使採用最先進的統計技術，預測仍然非常不確定，因為足球是一場難以預測的比賽。”

高盛撰寫其2018 年世界盃預測報告時，就是這樣說的。也就是說，分析師絞盡腦汁算出的預測和賠率，最後一看，還不如“章魚保羅”靠譜。

一半科學，一半玄學丨圖片來自 Giphy

“保羅”預測勝負的方法，是選擇印有代表不同球隊國旗的玻璃缸，取出預先放入玻璃缸內的貝殼。在 2010 年的南非世界盃，保羅 8 次猜測全中，包括決賽西班牙擊敗荷蘭奪得冠軍。相比之下，知名“烏鴉嘴”球王貝利，屢戰屢敗。

章魚保羅丨圖片來自東方IC

科學還是玄學？哪有什麼道理可言。

卡塔爾當地的一名訓鷹師，用獵鷹對卡達與厄瓜多的世界盃揭幕戰進行了預測。他將卡達和厄瓜多兩國國旗分別綁在兩架無人機上，再給國旗綁上食物。然後放飛獵鷹，看它會挑選哪國國旗。結果只見獵鷹展翅飛翔，但與卡達國旗擦身而過，最終選擇了厄瓜多國旗。

偶然性大的體育賽事中，向來沒有什麼“一定準確”的預測方法。當比賽結果與權威，甚至大多數人判斷相左，我們也只能憤慨一句：“這不科學！”

而這，也是體育競技的樂趣之一了。

參考文獻

［1］ https：//www。zeileis。org/news/fifa2022/

［2］ https：//www。bcaresearch。com/reports？r=4201bf52ad3bfda09aed64d54c9a02f4&submissionGuid=85cb89ce-e607-422c-ab47-1fbd01c69f0f

［3］ https：//fivethirtyeight。com/features/how-our-2022-world-cup-predictions-work/

［4］ https：//liberum。s3。amazonaws。com/STRS_1013754。pdf？X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAICKLXNJJPOVS4TPQ%2F20221122%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221122T000000Z&X-Amz-Expires=86400&X-Amz-Signature=2b7c6dc7e88e4f154c44bf28c793857052dd114621ca332f5e72979eaf11db87&X-Amz-SignedHeaders=host

［5］ https：//new。qq。com/rain/a/20221120A01FK400。html

作者：柚子

編輯：沈知涵

別眨眼網

阿根廷輸球了，別急，有人說他們能奪冠！

相關推薦