華人學者再創佳績！包攬CoRL2021最佳論文獎項

作者 | 莓酊

編輯 | 青暮

2021年11月12日凌晨，遲遲未公佈的CoRL 2021論文獎名單終於揭曉。

備受關注的論文大獎全部被華人學者包攬。來自麻省理工大學的Tao Chen， Jie Xu， Pulkit Agrawal（導師）拿下最佳論文獎；來自哥倫比亞大學的Huy Ha，宋舒然（導師）拿下最佳系統論文獎。

本次獲提名獎的共有七篇論文，四篇最佳論文獎提名，三篇最佳系統論文提名。七篇佳作皆有華人學者參與。佔比42。3%。

CoRL於11月8日——11日在倫敦舉行。同時在網路上也開設了虛擬會場以饗諸位：PheedLoop主題演講、指導性建議和論文演講；gather。town 用於海報會議和交流。即使不能到現場的同學，也不用擔心錯過關注論文的演講了。

官網連結：https：//www。robot-learning。org/program/awards_2021

Youtube直播連結：https：//www。youtube。com/watch？v=5KjpZS4_RBs

榮獲CoRL 2021最佳論文獎的是：

麻省理工學院《A System for General In-Hand Object Re-Orientation》

論文連結：https：//openreview。net/forum？id=7uSBJDoP7tY

作者：Tao Chen， Jie Xu， Pulkit Agrawal

論文介紹：

由於高維驅動空間以及手指與物體之間接觸狀態的頻繁變化，手持物體重新定向一直是機器人技術中難攻克的問題。Tao Chen等人提出一個簡單的框架，框架的核心是無模型強化學習：可被稱為“師生關係”的訓練法、重力課程設定和物體穩定初始化。它可以解決複雜的問題，用機械手學習重新定向，讓2000多個不同物體的系統面朝上和朝下。該系統不需要物體或機械手模型、接觸動力學和任何特殊的感官觀察預處理。

過去的一些方法，如使用強大軌跡最佳化法分析模型，雖然解決了重新定向問題，但結果主要是在模擬簡單的幾何形狀，無法拓展到現實中推廣到新物件，結果差強人意。

Tao Chen他們的研究首先在模擬中對“老師”無模型強化學習（model-free Reinforcement Learning）進行有關物體和機器人資訊的訓練，為了確保機器人可在現實中運作，模擬中缺失的資訊如指間的位置，強化學習智慧體接受的知識被轉化為模擬外可用的資料，像攝像機捕獲的深度影象等。為了提高效能，機器人先在零重力空間裡學習，再在正常的重力環境中適應調控器。看似違反直覺，但單個控制器可以重新定向大量它以前從未見過的物體。

作者介紹：

Chen Tao，麻省理工學院EECS & CSAIL 博士，師從Pulkit Agrawal教授。本科畢業於上海交通大學機械工程及自動化專業，期間在普渡大學機械工程學院交換。讀研之前，Chen Tao曾是上海LX Robotics的研究工程師，從事目標檢測、影象分割、機器人深度強化學習、SLAM等方面的研究。研究生畢業於卡內基梅隆大學機器人學院，師從Abhinav Gupta 教授。主要研究機器人學習、操作和導航的交叉領域。

個人主頁：https：//taochenshh。github。io/

Jie Xu，麻省理工學院CSAIL博士，師從計算設計和製造組（CDFG）的Wojciech Matusik教授。本科畢業於清華大學計算機科學與技術系。

研究主要方向機器人、模擬、機器學習的交叉領域。感興趣的主題：機器人控制、強化學習、基於可微分物理的模擬、機器人控制和設計協同最佳化、模擬現實。

個人主頁：https：//people。csail。mit。edu/jiex/

Pulkit Agrawal，麻省理工學院EECS助理教授。所在實驗室是計算機科學和人工智慧實驗室（CSAIL）的一部分，隸屬於資訊和決策系統實驗室（LIDS），並與美國國家科學基金會人工智慧和基本互動研究所（IAIFI）合作。

首要研究興趣是構建能夠自動且持續地瞭解其環境的機器。希望這種學習的最終結果將類似於人類所謂的常識的發展。Pulkit Agrawal將這方向的工作稱為“計算感覺運動學習”，它包括計算機視覺、機器人技術、強化學習和其他基於學習的控制方法。

個人主頁：https：//people。csail。mit。edu/pulkitag/

榮獲CoRL 2021最佳系統論文獎的是：

哥倫比亞大學的《FlingBot: The Unreasonable Effectiveness of Dynamic Manipulation for Cloth Unfolding》

論文連結：https：//openreview。net/pdf？id=0QJeE5hkyFZ

作者：Huy Ha， Shuran Song

論文介紹：

高速動態動作（如，亂扔或用力拋擲）透過提高自身效率和有效擴充套件物理接觸範圍，在我們與可變形物體的日常互動中發揮著至關重要的作用。但之前的大多數工作都是使用單臂準靜態動作處理布料操作，這需要大量的互動來挑戰初始布料配置，並嚴格限制機器人可及範圍的最大布料尺寸。Huy Ha等人使用自監督學習框架FlingBot演示了布料展開動態投擲動作的有效性。

這個方法從從視覺觀察開始雙臂設定，學習如何展開一塊織物，從任意的初始配置使用拾取，拉伸，並投擲。最終系統在新布料上3個動作就能達到80%以上的覆蓋範圍，可以展開比系統覆蓋範圍更大的布料，雖然只在矩形布料上訓練過，但可以推廣到T恤上等。

研究者們還在真實世界的雙臂機器人平臺上對FlingBot進行了微調。FlingBot的布料覆蓋面積比準靜態基線增加了4倍以上。FlingBot的簡單性和它優於準靜態基線的效能證明了動態動作對可變形物體操作是十分有效的。

作者介紹：

Huy Ha，哥倫比亞大學計算機科學系博士。師從宋舒然教授，是哥倫比亞人大學工智慧與機器人（CAIR）實驗室的成員。

個人主頁：https：//www。cs。columbia。edu/~huy/

宋舒然，目前是哥倫比亞大學計算機科學系的助理教授，本科就讀於香港科技大學計算機工程專業，碩士和博士均畢業於普林斯頓大學計算機科學系。研究重點是計算機視覺和機器人技術的交叉領域，研究興趣是開發能使智慧系統在與物理世界的互動中學習、並自主獲得執行復雜任務和協助人們的感知和操縱技能的演算法。

個人主頁：https：//www。cs。columbia。edu/~shurans/

獲得CoRL 2021最佳論文提名的有：

達姆施塔特工業大學和華為英國研發中心合作的《Robot Reinforcement Learning on the Constraint Manifold》

論文連結：https：//openreview。net/pdf？id=zwo1-MdMl1P

作者：Puze Liu， Davide Tateo， Haitham Bou-Ammar and Jan Peters

論文介紹：

許多實際問題，像安全、機械約束和磨損等，在機器人技術中運用強化學習十分具有挑戰性。這些問題通常在機器人學習文獻中沒有被充分考慮到。在現實中應用強化學習的關鍵點在於安全探索，在整個學習過程中滿足物理和安全約束至關重要。要在這樣的安全環境中探索，利用諸如機器人模型和約束條件等已知資訊，能更好地提供強有力的安全保障。Puze Liu等人提出了一種在模擬中能有效學習機器人任務的方法，能滿足學習過程中需要的約束條件。

研究提出了作用於約束流形的切線空間新方法（ATACOM），智慧體探索約束流形的切線空間，如圖中所示。它可以將約束強化學習問題轉化為典型的無約束強化學習問題。這個方法可以讓我們利用任何無模型 RL演算法，同時能讓約束保持在容差以下。

ATACOM 的優點可以概括如下：（i）它可以處理等式和不等式約束。每個時間步的所有約束都保持在容差以下。（ii）不需要初始可行的策略，智慧體可以從零開始學習。（iii）不需要手動安全備份策略將系統移回安全區域。（iv）它可以應用於任何使用確定性和隨機策略的無模型強化學習演算法。（v）探索可以集中在低維流形上，而不是探索原始動作空間中的等式約束。（vi）它具有更好的學習效能，因為不等式約束僅限於較小的可行狀態-動作空間。

卡內基梅隆大學的《Learning Off-Policy with Online Planning》

論文連結：https：//openreview。net/pdf？id=1GNV9SW95eJ

作者：Harshit Sikchi，Wenxuan Zhou，David Held

論文介紹：

低資料和風險敏感領域中的強化學習需要靈活高效能的部署策略，這些策略可以在部署過程中輕鬆整合約束。一類是半引數H步前瞻策略，它使用軌跡最佳化對具有終值函式的固定範圍的動態模型進行軌跡最佳化選擇動作。在這項工作中，Harshit Sikchi等人研究了一種新的 H步前瞻例項化，其中包含一個學習模型和一個由無模型離策略演算法學習的終端值函式，名為 Learning Off-Policy with Online Planning （LOOP）。理論分析建議模型誤差和值函式誤差之間進行權衡，從經驗而言這種權衡有利於深度強化學習。這篇論文還確定了該框架中的“Actor Divergence”問題，提出Actor 正則化控制（ARC），這是一種改進的軌跡最佳化程式。研究人員在一組用於離線和線上強化學習機器人任務上評估LOOP。LOOP 在部署期間展示了將安全約束與導航環境結合起來的靈活性。由此證明 LOOP 是一個理想的機器人應用框架，基於它在各種重要的強化設定中的強大效能。

斯坦福大學、谷歌機器人和加州大學伯克利分校合作的《XIRL: Cross-embodiment Inverse Reinforcement Learning》

論文連結：https：//openreview。net/pdf？id=RO4DM85Z4P7

作者：Kevin Zakka， Andy Zeng， Pete Florence， Jonathan Tompson， Jeannette Bohg， Debidatta Dwibedi

論文介紹：

本文研究了視覺跨實體模仿設定，其中智慧體從其他智慧體（例如人類）的影片中學習策略，演示相同的任務，但他們在實施中存有明顯差異——形狀、動作、末端效應器動力學等。本文證明了從對差異具有魯棒性的跨實體演示影片中自動發現和學習基於視覺的獎勵函式。透過提出跨實體逆強化學習（XIRL）的自監督學習，利用時間週期一致性約束來學習深度視覺嵌入，這些嵌入可以從多個專家代理的離線演示影片中捕獲任務進展，每個智慧體執行相同的任務因具體化而不同。此前，從自監督嵌入產生獎勵通常需要與參考軌跡對齊，在實施差異下可是很難獲得的。如果嵌入瞭解任務進度，在學習的嵌入空間中簡單地取當前狀態和目標狀態之間的負距離作為強化學習訓練策略的獎勵是有作用的。研究證明學習獎勵函式不僅適用訓練期間看到的實施例，更可以推廣到全新的實施例。此外，當將真實世界的人類演示轉移到模擬機器人時，研究發現XIRL比當前的最佳方法更有效果。

獲得CoRL 2021最佳系統論文提名的有：

華盛頓大學和偉英達公司合作的《SORNet: Spatial Object-Centric Representations for Sequential Manipulation》

論文連結：https：//openreview。net/pdf？id=mOLu2rODIJF

作者：Wentao Yuan， Chris Paxton， Karthik Desingh

論文介紹：

順序操作任務要求機器人感知環境狀態，並計劃一系列行動以達到預期的目標狀態，其中從原始感測器輸入推斷物件實體之間空間關係的能力至關重要。之前的工作依賴於明確的狀態估測，對新任務和物件端到端地學習對抗。在這項工作中，Wentao Yuan等人提出了SORNet（空間物件中心表示網路），它從以興趣物件的規範檢視為條件的RGB 影象中提取以物件為中心的表示。結果表明，在空間關係分類、技能前提分類和相對方向迴歸三種空間推理任務中，透過SORNet學習的物件嵌入方法可以將零樣本擴充套件到未見的物件實體，並顯著優於基線。此外，我們進行了真實世界的機器人實驗，證明了學習物件嵌入在順序操作任務規劃中的使用。

華盛頓大學和谷歌機器人合作的《Fast and Efficient Locomotion via Learned Gait Transitions》

論文連結：https：//openreview。net/pdf？id=vm8Hr9YJHZ1

作者：Yuxiang Yang， Tingnan Zhang， Erwin Coumans， Jie Tan， and Byron Boots

論文介紹：

本文主要研究四足機器人節能控制器的研製問題。動物可以用不同的速度主動切換步態，以降低能量消耗。在本文中，Yuxiang Yang等人設計了一個層次學習框架，在這個框架中，獨特的運動步態和自然的步態轉換以能量最小化獎勵自動出現。研究人員使用進化策略（ES）訓練高階步態策略，指定每隻腳的步態模式，而低水平凸MPC控制器最佳化電機命令，使機器人可以用期望步態模式的速度行走。在一個四足機器人上測試了這個學習框架，演示了隨著機器人速度的增加，從步行到小跑再到飛小跑的自動步態轉換。結果表明，學習層次控制器消耗的能量遠少於基線控制器在大範圍的運動速度。

在CoRL官網，組委會這樣描述舉辦CoRL的緣由：

CoRL是一個新的以機器人學和機器學習為主題的年度國際會議。第一次會議已於2017年11月13日至15日在加利福尼亞州山景城舉行，旨在匯聚約250名從事機器人學和機器學習領域的最優秀的研究者參會。機器人技術，自主感知和控制領域正在經歷一場機器學習革命，現在正是時候提供一個將機器學習的基本進展與機器人應用和理論的實證研究相結合的場所。我們的目標是使CoRL成為機器人（機器）學習研究的首選大會。

大會的組織者包括來自UC Berkrley、Google、Microsoft、CMU、MIT、ETH、Deepmind等知名院校和知名企業的研究者和從業者，同時CoRL大會的舉辦還得到了機器人國際機構“三巨頭”之一的國際機器人研究基金會（IFRR）和機器學習領域最好的期刊之一JMLR（Journal of Machine Learning Research）的支援。

機器人學習大會（CoRL）自2017年推出以來，已迅速成為機器人技術與機器學習交叉領域的全球頂級學術盛會之一：“針對機器人學習研究的大會，涵蓋了機器人技術、機器學習和控制等廣泛主題，包括理論和應用各方面。”

由於微信公眾號試行亂序推送，您可能不再能準時收到AI科技評論的推送。為了第一時間收到AI科技評論的報道，請將“AI科技評論”設為星標賬號，以及常點文末右下角的“在看”。