Transformers預測未來:關注下一幀和時間序列預測

Transformers預測未來:關注下一幀和時間序列預測

Transformers預測未來:關注下一幀和時間序列預測

關注人工智慧學術前沿 回覆 :ts35

5秒免費獲取論文pdf文件,及專案原始碼

摘要

直到最近,遞迴神經網路還是捕獲時序相關性的最佳方法之一。然而,隨著Transformer的引入,已經證明了

只有注意機制而沒有任何RNN的體系結構可以改進各種序列處理任務(例如NLP)的結果

。此後的多項研究表明,類似的方法可以應用於影象、點雲、影片、音訊或時間序列預測。此外,諸如Perceiver或 Informer等解決方案已經被引入,以擴充套件Transformer的適用性。

我們的主要目標是測試和評估在時間序列資料上應用類transformer模型的有效性,透過微調超引數、對資料進行預處理、應用降維或卷積編碼等方法來處理異常敏感性、上下文感知和空間複雜性

。我們也在研究下一幀預測的問題,並探索如何修改現有的解決方案,以實現更高的效能和學習泛化知識。

1。介紹

最近的研究表明,類似的方法可以在NLP以外的任務中顯著提高表現。

與最先進的卷積網路相比,視覺變壓器(ViT)[3]在計算機視覺方面取得了出色的結果,同時需要更少的計算資源來訓練。諸如VideoGPT、[4]等解決方案展示瞭如何有效地將transformer應用於影片生成任務。

在時間序列預測領域,關於如何修改transformer以彌補其對異常的敏感性,同時利用效能優勢,有多個建議[5]。

在所有這些背景下,

我們將研究transformer是否能以及如何用於預測未來事件

從傳統的時間序列資料(如天氣或股票價格預測)的方法,到更抽象的任務,如影片中的下一幀預測,模型應該學習不同的移動模式和額外的依賴。

挑戰與解決

如[10]所述,transformer由於其在預測任務中的效能優勢而獲得了令人印象深刻的結果。然而,它們

的自注意匹配對本地上下文不敏感的鍵的查詢,這可能使模型容易出現異常,並帶來底層的最佳化問題

。無論觀察到的點是異常點、更改點還是模式的一部分,都取決於它周圍的上下文。查詢和鍵之間的相似性是根據它們的逐點值計算的,而沒有完全考慮到本地上下文。在以前的研究中,有人提出卷積自我注意來緩解這個問題。

另一個可能出現的問題與

經典Transformer的空間複雜性有關,它隨輸入長度L呈二次增長,導致記憶體瓶頸

文獻【11】介紹了稀疏Transformer,將模型的複雜度進行了降低。

2。模型概述

GPT和Image-GPT,[13]——一類在離散資料建模方面取得了巨大成功的自迴歸變壓器——的引入,激發了越來越多專門用於不同任務的類似變壓器的解決方案的建立。作為研究的一部分,我們研究了VideoGPT,[4],這是一個概念上簡單的架構,用於基於生成建模的影片縮放可能性。

VideoGPT使用向量量化變分自動編碼器(VQ-VAE)[14]來學習給定影片的下采樣潛在表示。它使用了三維卷積和軸向自我注意[15]——

自我注意的推廣,在編碼和解碼設定中自然地與張量的多個維度對齊。它允許在解碼期間平行計算絕大多數上下文

(圖2)。

Transformers預測未來:關注下一幀和時間序列預測

然後使用一個簡單的類似GPT的架構(圖3)來使用位置編碼自迴歸建模離散潛伏期。

Transformers預測未來:關注下一幀和時間序列預測

圖3:VideoGPT。訓練流程分為兩個連續的階段。第一階段(左)類似於原來的VQ-VAE培訓程式。第二階段(右),VQ-VAE將影片資料編碼為潛序列,作為先驗模型的訓練資料。

關注人工智慧學術前沿 回覆 :ts35

5秒免費獲取論文pdf文件,及專案原始碼

3。實驗概述

基線模型

在我們的研究中,我們比較了兩種架構——使用LSTM單元的標準RNN和一個Transformer的簡單實現(見圖1),以預測標準普爾500指數的價格將如何變化。他們接受的是相同數量的資料:2000年1月3日至2018年8月31日該指數的日收盤價。

Transformers預測未來:關注下一幀和時間序列預測

如圖1所示,LSTM迴圈神經網路幾乎無法學習跟隨趨勢,而Transformer架構能夠捕捉更詳細的依賴關係,並將其用於未來的預測。例如:在短期內,指數價格通常在大公司在好年份釋出季度報告後上漲。

實驗結果

在生成的移動MNIST資料庫上,我們成功地訓練了序列長度為4、8、16和32幀的VQ-VAE。最終的譯碼器重建比原始論文中提到的預訓練模型更準確(圖4)。

Transformers預測未來:關注下一幀和時間序列預測

透過條件反射歷史資料預測未來多幀的改進的VideoGPT例項已經成功地完成了移動MNIST影片的預測任務(圖5)。已經對4幀序列(條件2幀預測下2幀),8幀序列(條件4預測4)和16幀序列(條件8預測8)進行了測試。

Transformers預測未來:關注下一幀和時間序列預測

圖5:移動MNIST影片中的下一幀預測調節前N幀,生成長度為N + M幀的影片,其中M幀是新生成的。

VideoGPT結果和時間序列實驗證明某些修改Transfromer可以導致預測精度高,可以替代傳統的方法如RNNs和cnn領域的未來的預測

結論

我們已經介紹了多種預測未來的方法,以及如何採用類似transformer的架構來實現這種用途。我們已經研究了將transformer應用於時間序列資料時出現的問題的可能解決方案,以及它們可以執行的不同抽象級別。

RNN和其他標準解與新引入的模型進行了比較。我們還對VideoGPT模型進行了修改,使其可以有條件地用於下一幀預測,並提出了在未來的分類任務和一般推理中升級它的方法。它甚至可以整合為強化學習環境的一部分,以增強RL代理的行為。我們希望我們在2021年4月保加利亞夏季研究學校期間所做的工作將有助於未來建築的時間序列預測、影片生成、決策等方面的設計。