阿根廷輸球了,別急,有人說他們能奪冠!

阿根廷在 2022 年卡達世界盃決賽以 1-0 擊敗巴西,梅西打進唯一進球,幫助阿根廷隊獲得 1986 年以來的首個世界盃冠軍。

整個世界盃期間,梅西在 7 場比賽中踢進 8 個進球,榮獲金靴獎(進球最多),金球獎(最佳球員)稱號。巴西隊、法國隊分別獲得亞軍和季軍。

阿根廷輸球了,別急,有人說他們能奪冠!

FIFA 23 預測結果丨圖片來自官網

唉?不對啊!世界盃不是才剛開始嗎?而且阿根廷剛輸球啊!

以上結果是由足球遊戲 FIFA 23 模擬出來的,不過不少球迷買賬。FIFA 遊戲曾成功預測過往三屆世界盃的冠軍,也不怪其製作商EA揚言:大家可以不用看世界盃了,因為它已經“劇透”過了。

你會發現,每逢世界盃這樣的大賽,各種“預測”就成精了,什麼 AI 啊,大模型啊,又高科技啦(也有低科技的,還記得章魚保羅麼?)……

這些“先知”憑啥那麼“自信”?

哪些要素決定了預測結果?

近年來,包括足球在內的體育比賽大都透過傳統統計學、機器學習方法來預測結果。預測機構會收集球隊過往比賽的資料,將能夠影響比賽的因素資料結構化。結合博彩公司的盤口和賠率,利用機器學習演算法進行建模,最後跑出結果。

常用的演算法有“隨機森林(Random Forests)”,平時常用於市場營銷和醫療保險領域的計算。簡單來說,這套系統要建立一個“森林”,裡面種很多棵“樹”(透過子樣本集合訓練出的),當有一個新的輸入樣本進入,每一棵樹分別進行預測,給出自己的答案。再透過“民主投票機制”(比如取平均數等)得出結果。

另一種常用的辦法是“泊松分佈(Poisson Distribution)”,用來模擬一個離散事件在連續時間內發生次數的機率分佈。真實生活中,很多場景與“泊松分佈”相關,比如電商網站在某段時間內的點選率;放射性元素每秒內衰變的粒子個數;工廠機器人出現故障頻率等等。應用在球賽中,能根據歷史資料推演出的每個球隊的攻擊力和防守力,預測出一個球隊的進球機率。

阿根廷輸球了,別急,有人說他們能奪冠!

機器學習,就是一個從已有資料中發現和學習潛在規律的過程。丨圖片來自 Giphy

但是一個複雜的機器學習模型,會根據納入的資料特徵採用多種演算法。

有一個國際研究團隊在今年世界盃看好阿根廷的死對頭——巴西,首先他們做了一個球隊的實力統計模型,利用泊松分佈演算法基於過去八年的國際賽事資料,預估團隊當前的能力。但並不是一個過往“戰績”的平均值計算,越近的比賽結果被賦予越多權重。“未來實力”的預估還包括 28 家國際博彩公司的賠率。結合更多資料維度,球隊市場價值,國際足聯排名,球隊結構所代表的球隊特徵,以及人口和人均 GDP 所代表的國家特徵,構建一個隨機森林模型。

這個團隊給出的最終結果是,巴西有15%的勝率奪冠,其次為阿根廷、荷蘭、德國和法國。

資料維度的選擇很重要。資料量和資料維度會造成預測結果的大相徑庭。國際足聯排名這樣的資料維度很好理解。但為什麼很多預測模型中還要加入社會經濟因素?

英國投行 Liberum Capital 的分析師 Joachim Klement 曾經成功預測 2014 年和 2018 年的世界盃冠軍,他拿“人均 GDP ”舉例:國家不能太窮,想要培養足球人才,基礎設施和足球場必不可少;但國家太富裕的話,孩子們又有足球以外太多的運動選擇了。

“人口”這一因素只有在足球是主流文化的地區才會起作用,比如拉丁美洲。2018 年的世界盃亞軍克羅埃西亞,其總人口只有 400 萬,是歐洲的一個小國家,但整個國家的足球系統對青訓的投入極大。

阿根廷輸球了,別急,有人說他們能奪冠!

社會經濟因素也會影響足球賽事結果丨圖片來自 Giphy

(國家所在)天氣也是一個重要因素。太冷太熱都不被看好(看看東道主卡達隊),理想溫度是 14℃,或大致相當於歐洲南部和南美大部分地區的年平均溫度。這麼一說,除了英格蘭(1966)和德國(1964、1974、1990、2014),歷屆世界盃冠軍都符合這一點。

而最難衡量的,是“主場優勢”。可能是更熟悉的場地,本國粉絲們的打氣,甚至是“主場哨”。至今只有卡達作為東道主輸了揭幕戰——可見主場優勢雖然解釋不清楚,但影響卻真實存在。

機器學習,就是一個從已有資料中發現和學習潛在規律的過程。

一場比賽結果的判斷依據,確實與歷史表現有很大關係。

但所有預測模型都會加上那樣一句提示:“不保準兒哦~”

科學準還是玄學準?

足球比賽中,決定結果的意外因素實在太多。

因為卡達夏季的高溫,此次世界盃不得不推遲到冬季,這一下子打亂了各國足球聯賽的日程,令球員們也難以適應。“各個國家隊備戰的時間更少,壓縮球員在世界盃前的恢復時間,再加上卡達的氣候條件,增加了球員受傷的風險。”之前看好巴西奪冠的那個研究機構說。

大多數預測機構的看法類似。由於備戰、磨合時間更少,以打配合取勝,隊員實力均衡的隊伍,比如西班牙和德國,優勢就小了。而對於像 C羅、梅西這樣個人能力出眾的運動員,影響相對小些。但是另一面,對於他們的年齡來說,身體的疲勞將成為一個左右比賽結果的重要變數。

阿根廷輸球了,別急,有人說他們能奪冠!

梅西丨圖片來自 Giphy

體育資料提供商 Opta 看好巴西,給出 15。8% 的奪冠機率,高於阿根廷(12。6%),法國(12。2%)。可就在今年 6 月,他們還一口咬定法國是奪冠熱門。他們給出的“改口”理由是:法國隊計程車氣和團隊合作出現週期性下滑,這顯然來自於最近的觀察。所以預測這種事,還是時間離得越近,準確性越高。

甚至直到比賽開始,預測依然在變。大資料公司 FiveThirtyEight 有一個“SPI指數”(足球強度指數),對每一場賽事做提前預測。但是賽場實時動態,也會被他們考慮進去,實時計算出剩餘時間內兩隊可能的比分情況——如果你平時關注現在的一些歐洲聯賽,轉播畫面上已經出現了實時預測比賽結果的資訊。

他們舉了一個例子。2014 年,巴西對克羅埃西亞。比賽之前,根據過往 SPI,模型給了巴西隊 86% 的獲勝機率。比賽開始的 11 分鐘,巴西隊後衛不幸上演烏龍,將對手原本射偏的射門踢入自家球門,巴西隊以 0-1 落後。

隨即,模型調整比分預測,算出巴西仍有機會扳回來,以58%的機率獲勝。根據以往的觀察,他們得出一個結論:優秀的球隊在開局短暫地落後,往往能被激發潛力,以更大比分優勢獲勝。球隊越優秀,“戲劇性”就越強。

所以他們再次調整了實時比分預測,認為巴西將有 66% 的機會贏得比賽。最終的戰績是 3-1,很準。

這類加入“實時計算”的模型,比單純的“AI 找規律”,更準了一些。但足球比賽是否真的能夠“預測”?

AI 依託於大資料,搭建機器學習模型給出一個看似最有可能的結果,給了一個讓人們“買單”的理由——用資料說話。

“即使採用最先進的統計技術,預測仍然非常不確定,因為足球是一場難以預測的比賽。”

高盛撰寫其2018 年世界盃預測報告時,就是這樣說的。也就是說,分析師絞盡腦汁算出的預測和賠率,最後一看,還不如“章魚保羅”靠譜。

阿根廷輸球了,別急,有人說他們能奪冠!

一半科學,一半玄學丨圖片來自 Giphy

“保羅”預測勝負的方法,是選擇印有代表不同球隊國旗的玻璃缸,取出預先放入玻璃缸內的貝殼。在 2010 年的南非世界盃,保羅 8 次猜測全中,包括決賽西班牙擊敗荷蘭奪得冠軍。相比之下,知名“烏鴉嘴”球王貝利,屢戰屢敗。

阿根廷輸球了,別急,有人說他們能奪冠!

章魚保羅丨圖片來自東方IC

科學還是玄學?哪有什麼道理可言。

卡塔爾當地的一名訓鷹師,用獵鷹對卡達與厄瓜多的世界盃揭幕戰進行了預測。他將卡達和厄瓜多兩國國旗分別綁在兩架無人機上,再給國旗綁上食物。然後放飛獵鷹,看它會挑選哪國國旗。結果只見獵鷹展翅飛翔,但與卡達國旗擦身而過,最終選擇了厄瓜多國旗。

偶然性大的體育賽事中,向來沒有什麼“一定準確”的預測方法。當比賽結果與權威,甚至大多數人判斷相左,我們也只能憤慨一句:“這不科學!”

而這,也是體育競技的樂趣之一了。

參考文獻

[1] https://www。zeileis。org/news/fifa2022/

[2] https://www。bcaresearch。com/reports?r=4201bf52ad3bfda09aed64d54c9a02f4&submissionGuid=85cb89ce-e607-422c-ab47-1fbd01c69f0f

[3] https://fivethirtyeight。com/features/how-our-2022-world-cup-predictions-work/

[4] https://liberum。s3。amazonaws。com/STRS_1013754。pdf?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAICKLXNJJPOVS4TPQ%2F20221122%2Fus-east-1%2Fs3%2Faws4_request&X-Amz-Date=20221122T000000Z&X-Amz-Expires=86400&X-Amz-Signature=2b7c6dc7e88e4f154c44bf28c793857052dd114621ca332f5e72979eaf11db87&X-Amz-SignedHeaders=host

[5] https://new。qq。com/rain/a/20221120A01FK400。html

作者:柚子

編輯:沈知涵