AI 戰勝人類三冠王！索尼曲線救國儲備自動駕駛技術？

Deep Blue 以 3。5：2。5 贏了國際象棋冠軍卡斯帕羅夫、AlphaGo 以 3：1 擊敗世界圍棋冠軍柯潔、Libratus 在和頂尖德州撲克選手的比賽中勝出、AlphaStar 以總比分 2：0 擊敗《星際爭霸 2》頂級選手……

過去的幾十年裡， AI 不斷重新整理人們的認知並在各種遊戲中接連打敗人類頂尖選手。而索尼也在上週四整了一出大新聞：

2 月 9 日，索尼宣佈開發出了一款名為 GT Sophy 的 AI，在索尼為 PS 平臺推出的賽車遊戲 Gran Turismo Sport（GT Sport）中，作為 AI 車手的 GT Sophy 表現神勇，在比賽中勝過了歷史上第一個 GT 錦標賽三冠王 TAKUMA MIYAZONO、2020 國際汽聯大獎賽冠軍 RYOTA KOKUBUN、2019/2020 年 GT 錦標賽冠軍 TOMOAKI YAMANAKA 和 2019 年 GT 錦標賽亞軍 SHOTARO RYU。

該成果也登上了 Nature 雜誌的封面。

如果你對這款遊戲有過了解，那麼你一定知道 GT Sport 和極品飛車、極限競速地平線 4 這種娛樂向的遊戲完全不同。在 GT Sport 中，索尼儘可能地重現現實世界的賽車環境，包括賽車的載荷、傳動比、動力輸出、輪胎附著力甚至空氣阻力等。

頂尖的賽車手會在訓練中實現「條件反射」，對油門的開度、輪胎的滑移、進彎或出彎的時間點、路感反饋等資訊作出瞬間的反應和微調，最終將賽車逼向極限。

但不可否認的是，這些資訊的底層邏輯都是物理定律，人類無論如何也無法在控制能力上和機器平起平坐，更何況 GT Sophy 擁有精確的賽道路線地圖和每個輪胎負載、其他車輛狀態等精確資訊。

為了讓 AI 和人類頂尖車手在對戰儘量公平，研究人員將 GT Sophy 的反應時間調低至 100 毫秒、200 毫秒和 250 毫秒，與之相對，人類車手訓練後的反應時間大約為 150 毫秒。除此之外，GT Sophy 的輸入被限制在 10 Hz，而人類的理論的最大輸入值是 60 Hz。

GT Sophy 實戰表現如何？

驚豔的控車技術

在賽車比賽中，「外—內—外」的走線是時間最短的方式。雖然一直貼著內彎在距離上看最短，但這樣會讓車輛進出彎的速度落差極大，不利於出彎後的再加速。

受到側向加速度的影響，車輛在半徑較大的弧線上的行駛速度會比半徑小的弧線上快得多。所以，以「外—內—外」的方式過彎可以看成車輛行駛過一個更大半徑的圓弧，如此車輛的速度損失最小。

在 GT Sophy 的比賽實況裡我們可以清楚地看到，AI 賽車手在入彎前極限地緊貼外彎邊緣，進入彎心後立即再次加速，劃過一道近乎完美的圓弧。

整個過程非常流暢，速度損失也降到最低。而在連續彎道中，GT Sophy 甚至會大幅度地吃路肩來保證行車路線最短。

凌厲的彎道超車

賽車在高速行駛時會在車前部形成一個正壓區，而氣流在車尾分離形成負壓區，前後的壓力差是空氣阻力的主要來源。

可以看到，GT Sophy 在直道上緊緊咬住前車，此時它處於前車形成的真空區內，阻力減小。在進入彎道時，GT Sophy 向左抽頭企圖超車，但此時前車封線，右邊沒有了超車空間。GT Sophy 沒有猶豫，略微減速後選擇向左進攻並完成超車。

在整個過程中，GT Sophy 不僅要考慮到自己的行車路線最最佳化，還需要根據對手的行為迅速給出對應策略。這種雙車對抗的情景具有高度的不確定性，但可以看到 GT Sophy 的表現絲毫不拖泥帶水。

良好的體育精神

關注賽車運動的人一定記得去年 9 月 12 日，在 F1 義大利蒙扎大獎賽上漢密爾頓和維斯塔潘發生碰撞，雙雙退賽。

究其原因，其實是輪胎溫度更好的維斯塔潘企圖在彎道時超越漢密爾頓，而就在維斯塔潘即將完成超車時漢密爾頓卻向彎角打了一把方向，直接堵死了維斯塔潘的行車路線。這也讓兩人不可避免地撞在了一起。

為了避免這種過於偏激的駕駛行為存在，索尼的工作人員特意為 GT Sophy 訓練了賽道禮儀的規則。可以在演示影片中看到，GT Sophy 駕駛的白色保時捷 911 在超越對手時並沒有像漢密爾頓一樣堵死對手的行車線，而是給對方留出了足夠的行車空間。這種謙讓的操作讓 GT Sophy 在比賽中具有了和人類一樣的「溫度」。

技驚四座，原理是啥？

GT Sophy 在和人類頂尖車手的決鬥中表現穩定且凌厲，在看比賽影片時我被它各種遊走在極限的操作驚訝到合不攏嘴。那麼問題來了，是什麼締造了這個強悍的 AI 賽車手？

深度學習 & 強化學習各有侷限

在解釋 GT Sophy 使用的深度強化學習技術之前，有必要先解釋一下我們常說的「深度學習」和「強化學習」的概念。

簡單來說，人工智慧包含了機器學習，而深度學習和強化學習都屬於機器學習的範疇。

深度學習可以簡單分為監督學習和無監督學習，本質都是教會演算法在大量資料中尋找規律並最終可以自己辨認事物，在這個過程中，作為中間環節的函式則需要儘可能準確的擬合出輸入資料和輸出結果的關係，這正是具有強大擬合能力的神經網路的強項。

舉一個簡單的例子，如果想教會 AI 辨認貓和狗，第一種方法是在大量貓狗照片中透過標註特徵教會其識別兩者的區別，神經網路不斷學習並最終擬合出多個「萬能近似函式」，最終實現無限逼近輸出目標。這屬於深度學習中的「監督學習」。

相對的，「無監督學習」則是讓 AI 自己尋找大量資料中的共性，AI 會把自己認為相似的東西分為一組，雖然它不知道誰是貓、誰是狗，但是也能區分出兩者。

深度學習的特質讓其非常適合用來處理目標識別的任務。最近幾年，神經網路模型越來越成熟，其在識別任務中的準確率也越來越接近人類。但是這只是自動駕駛中「感知」中的部分，單純深度學習對於「決策」層面的作用就很有限了。

而在解釋強化學習之前，首先明確兩個強化學習中的基本概念：Environment 和 Agent。智慧體（Agent）處在一個環境（Environment）中，每個狀態為智慧體對當前環境的感知；智慧體只能透過動作來影響環境，當智慧體執行一個動作後，會使得環境按某種機率轉移到另一個狀態；同時，環境會根據潛在的獎賞函式反饋給智慧體一個獎賞。

在與環境的互動中，AI 需要不斷地改變自己的行為策略，做出對環境變化最好的應對策略以期望獎勵最大化。

仔細想想我們自己學習知識的過程，是不是似曾相識？沒錯，強化學習的正規化和人類的學習過程非常類似，所以它也被視為最終實現通用 AI 的希望之光。

相信你也發現了：在車輛自動駕駛的語境下，環境的變化實在是過於複雜，對手動作的變化、自己的操作、賽道的變化都會讓結果改變。傳統的強化學習只能在經驗中尋找跟眼前狀態一樣的案例並模仿作出決策，基本沒有泛化和預測能力。

深度強化學習橫空出世

GT Sophy 將深度學習在函式擬合方面的優勢和強化學習在決策方面的優勢結合，把深度學習應用在期望獎勵趨勢預測中，最終實現未知環境下更好的行為表現。

我們來具體看看 GT Sophy 是怎麼做的：

上圖中包含了強化學習的幾個基本設定：

Agent 和 Enviroment 分別代表智慧體和互動的環境；

Action：Agent 做出的所有動作，包括油門開度、轉向、剎車等；

State：Agent 所有能夠感知到的狀態，包括車輛的速度、位置、賽道情況等；

Reward：設定好的獎勵或者懲罰。

根據此，我們再來延伸出強化學習中的一個進階概念：「Policy」。

Policy 是指智慧體（Agent）在狀態（State ）下需要做出的行為（Action）決策。它可以看成 Agent 從 State 到 Action 的對映，是一個函式。

在 GT Sport 這款遊戲裡，遊戲場景是 Enviroment，GT Sophy 是 Agent，賽車的各個狀態是 State，對賽車的操作是 Action，怎麼操作賽車是 Policy。

為了知曉如何做出最佳的動作決策，需要演算法預判當前感知到的狀態和做出的行為對未來有何影響，在獎勵函式的參考下，Agent 會最終給出決策。

傳統的強化學習在表示狀態和動作時採用表格形式，這就導致這種方法無法適用於大範圍的動作和狀態變化。而且如果一個狀態從未出現過，此時演算法就會完全不知道怎麼處理。

說白了，傳統強化學習是根據發生過的行為得出的結論來指導下一次學習。但回想一下，人類是怎麼處理事情的？人類會將眼前發生的事情和記憶裡類似的情況進行比對，如果相似則採取相似的做法，不會死板地照搬照抄。

GT Sophy 的創新點正是在此，不論有沒有感知過一模一樣的狀態都能透過深度學習來擬合，相近的狀態可以得到相似的動作結果，所有的輸入都能有結果產生。

GT Sophy 在獎勵函式和懲罰函式的指導下，對上文中所說的行為結果產生後進行評估，如果得到了正向的獎勵，它會以此為經驗，不斷向完美操作行為逼近；如果得到了負面的懲罰，GT Sophy 會調整自己的引數，不斷試錯直到獲得獎勵。這就讓 GT Sophy 可以自己在環境中迅速成長並積累經驗。

這些讓 GT Sophy 在幾小時內就學會了跑完整條賽道，超過了 95% 的人類駕駛員。而透過 45，000 小時的訓練，GT Sophy 在選定的三條賽道上超越了 177，000 名玩家。

但只設定有圈速進步的獎勵機制會讓 GT Sophy 學會偷懶。如果對手足夠快，GT Sophy 會選擇跟隨他而不是風險更大的超越他，GT Sophy 會評估更有效獲得獎勵的方式。

研究人員改變了獎勵函式和懲罰函式的設定，將 GT Sophy 和對手的距離與獎勵設定為成正比。與之相對，如果對手從後方接近，懲罰的力度也和接近 GT Sophy 的距離成正比。

但這又產生了另外一個問題。由於設定改變，GT Sophy 的駕駛行為會變得過於激進。同時，賽車遊戲不同於棋類遊戲的零和博弈，可以出現兩方均有收益或兩方均損失的狀態。

比如，如果 GT Sophy 跟車過近，而對手選擇的剎車點比它要早，這就不可避免發生嚴重碰撞，研究人員最後選擇將任何碰撞都設定為懲罰。

上圖是 GT Sophy 獎勵函式/懲罰函式的各個部分及其權重：

Rcp：GT Sophy 的行車軌跡進步程度；

Rsoc 或 Rloc：駛出賽道懲罰；

Rw：接觸賽場牆壁懲罰；

Rts：輪胎滑移懲罰；

Rps：超車獎勵；

Rc：和對手碰撞懲罰；

Rr：追尾懲罰；

Ruc：非進攻性駕駛碰撞懲罰（防止 GT Sophy 害怕撞擊而過於保守）。

這些獎勵懲罰函式的細化和研究人員對引數的不斷細微調整，最終讓 GT Sophy 在保證最快圈速的同時學會了賽車禮儀。

如上文所述，雖然 GT Sophy 可以自行蒐集資料完成迭代，但場景的不足可能會讓其產生「偏科」的現象。比如訓練的場景中，對手如果一直選擇貼右入彎，GT Sophy 只能學會向左超車。

研究人員為此開發了一個「混合場景訓練」的過程。在與人類玩家比賽的過程中，研究人員會找出 GT Sophy 表現不好的場景，針對這些場景單獨設定訓練。

最後，在作為比賽地圖的三個場地裡，GT Sophy 都取得了壓倒性優勢。

索尼自動駕駛技術儲備？

在 2022 年的北美 CES 大會上，索尼董事長、總裁兼執行長吉田健一郎宣佈索尼集團將成立新的部門——索尼移動出行公司，該部門預計在今年春季成立。吉田健一郎稱「我們正在探索索尼電動車的商業化。」

這也意味著，索尼正式確定造車了。那麼 GT Sophy 成果上的技術儲備能為索尼未來的自動駕駛提供多少幫助？

先要潑一盆冷水：在遊戲中，地圖資訊、路面材質和其他車輛當前的狀態資訊等都是完美被演算法知曉的狀態，天氣狀況也並不極端，這就相當於自動駕駛感知到的資訊非常完美。而在現實中，各家車企為提高感測器精度、多感測器融合等問題想破了腦袋。

而且賽道作為行駛場景非常單一，沒有紅綠燈、複雜的道路線以及穿行的行人，也不會像實際行駛過程中出現那麼多的 Corner Case。

這些讓 GT Sophy 在很短的時間內就能在賽車模擬器中打敗人類，也讓演算法的訓練過程工作量減輕很多，但這並不表明 GT Sophy 的誕生毫無用處。

特斯拉的規控、自動標註和模擬的負責人 Ashok 在去年的 AI DAY 上展示了特斯拉在面臨「三車相遇」和「停車場自動泊車入位」兩個複雜場景下的決策表現，使用和 GT Sophy 同樣的深度強化學習技術的車輛近乎完美地在這兩個場景中實現了自動決策。

在「停車場自動泊車入位」的場景下，使用了基於蒙特卡洛樹框架的深度強化學習演算法的車輛相較於使用傳統 A* 演算法的車輛在路徑規劃過程中的表現更為完美，搜尋效率提升了 100 倍以上。

特斯拉使用深度強化學習技術處理自動駕駛決策的方案表現不錯並初步落地，這證明該技術的確具有非常廣闊的前景，目前各家自動駕駛公司也都把此作為研發的方向。

說回索尼造車這件事，早在 2014 年索尼就將車載 CMOS 影象感測器商業化，2021 年 9 月，索尼半導體解決方案集團宣佈自己研發的面向高精度鐳射雷達的感測器 IMX 459 可以實現 300 m 外 15 cm 的識別精度，在對角線距離 6。25 mm 的晶片上搭載了約 10 萬個 10 平方微米的畫素，滿足高精度和高速的測量需求。