TCCT:緊耦合卷積Transformer時間序列預測

TCCT：緊耦合卷積Transformer時間序列預測

關注人工智慧學術前沿回覆：ts32

5秒免費獲取論文pdf文件，及專案原始碼

摘要

時間序列預測在現實世界中有著廣泛的應用。最近的研究表明，

Transformer在處理這類問題，特別是長序列時間序列輸入(LSTI)和長序列時間序列預測(LSTF)問題方面具有優越性。為了提高效率，改善Transformer的區域性性，這些研究都不同程度地將Transformer與CNN相結合。但是它們的組合是松耦合的，並沒有充分利用CNN。

為了解決這個問題，我們

提出了緊耦合卷積變壓器（TCCT）的概念和三種TCCT架構，它們將轉換後的CNN架構應用到Transformer中：（1）

CSPAttention:

透過CSPNet與自注意機制的融合，自注意機制的計算成本降低了30%，記憶體佔用降低了50%，同時達到了等效或超過預測精度。（2）

擴充套件因果卷積

：該方法是對Informer提出的提取操作進行修改，將正則卷積層替換為擴充套件的因果卷積層，以獲得指數接受域增長。（3）

傳遞機制:

將傳遞機制應用於自注意塊的堆疊，使類transformer模型獲得更細粒度的資訊，額外的計算成本可以忽略不計。我們在真實資料集上的實驗表明，我們的TCCT體系結構可以大大提高現有最先進的Transformer模型在時間序列預測方面的效能，且計算和儲存成本低得多，包括canonical Transformer、LogTrans和Informer。

1。介紹

毫無疑問，鬆散耦合方法在一定程度上提高了Transformer模型的效能。但是，只有採用緊密耦合的方法，即在Transformer模型中應用特定的轉換後的CNN架構，才能將Transformer和CNN緊密結合，充分發揮它們的優勢。因此，

在本文中，我們尋求的問題是：是否可以在Transformer模型中應用特定的CNN架構來增強其學習能力，改善其局域性，同時提高其效率？

為此，我們的工作是將Transformer和CNN緊密結合。在我們的工作中，三種經過改造的經典CNN架構已經成功應用於時間序列預測的Transformer模型中。本文的貢獻可以概括為：

我們提出了緊耦合卷積變壓器（TCCT）的思想和三種TCCT體系結構。經過改造，這些體系結構不僅改善了Transformer的局域性（松耦合方法也可以做到），還增強了Transformer的學習能力，降低了計算成本和記憶體佔用。它們也足以應付其他類似transformer的時間序列預測模型。

我們提出CSPAttention，一種映象CSPNet屬於CNN的自我注意機制。它降低了近30%的記憶佔用和50%的時間複雜度的自我注意機制，達到同等或更高的預測精度。

我們提出了一種改進的自注意提取操作，用擴充套件的因果卷積代替正則卷積來連線自注意塊。它幫助Transformer模型獲得指數級的接受域增長，計算成本略低。因此，Transformer的學習能力得到了加強。

我們提出透過傳遞機制來連線不同尺度的自注意塊特徵圖，從而獲得更細粒度的資訊。與CNN和影象處理中常用的特徵金字塔相似，它擴充套件了特徵圖，使得Transformer模型具有更好的預測效能。

2。模型概述

我們首先依次介紹了

三種緊耦合卷積變壓器(TCCT)架構:CSPAttention、擴充套件因果卷積和傳遞機制。

然後給出了

TCCT體系結構與類transformer時間序列預測模型相結合的方法。

1.CSPAttention

我們所提議的CSPAttention的一個模組的架構如圖1所示。

圖1：一個CSPAttention塊。輸入（藍色）被分成兩部分。第一個（綠色）傳播透過層A，一個11卷積層，而另一個（紅色）傳播透過塊B，一個自我注意塊。最後將兩個部分的輸出連線在一起，作為整個CSPAttention塊的最終輸出

我們的CSPAttention還降低了自我注意機制的記憶體流量和時間複雜度。假設規範自我注意塊的輸入和輸出維度都是d，並且只有一個輸入標記。

如圖2(a)所示，一個self-attention塊包含四個線性投影層，它們的輸入和輸出維度都是d

（Query， Key， Value， projection）。因此，記憶體佔用是4d^2。

而

假設CSPAttention將輸入維度分成兩半，則CSPAttention的第一部分只有一個線性投影層，而第二部分有四個線性投影層。

相應的體系結構如

圖2(b)

所示。

CSPAttention還可以處理其他類似Transformer的架構，並將它們升級為緊耦合的卷積Transformer架構。我們以LogTrans［10］為例，

組合架構——LogSparse CSPAttention塊如圖3所示

。

2。擴張因果卷積（Dilated Causal Convolution）

對多個自注意塊進行疊加有利於提取更深層次的特徵圖，但也會帶來更多的時間和空間複雜性。為了進一步減少記憶體的使用，

Informer

開始使用自注意蒸餾操作。

Informer

在每個自注意塊之間使用卷積層和最大池層來修剪輸入長度。核大小為3，步長為1的卷積層跟隨前一個自注意塊，使特徵對區域性上下文資訊更加敏感。然後使用步長為2的核為3的Max-pooling層對區域性主導特徵進行特權，並給後一個自注意塊一個較少但更集中的特徵對映。

圖4顯示了一個由三個自注意塊組成的網路。

為了簡單起見，我們只顯示最後一個輸入元素的接受域。

圖5：一個自我注意網路的視覺化，它將三個自我注意塊堆疊在一起，這些塊與擴大的因果卷積層和最大池層相連線。整個體系結構類似於圖4。然而，擴充套件的因果卷積層的應用拓寬了接受域，避免了未來的資訊遺漏。

對比圖4和圖5，可以清楚地看到，擴張的因果卷積只在時間前沿使用填充，防止了未來資訊的洩露。

即使只有兩個卷積層，圖5中網路的輸出接受域也明顯大於圖4。因此，隨著更多的自我注意塊堆疊起來，差距會更大，因此，兩個網路的表現差距會更大。除此之外，擴充套件因果卷積的應用只帶來了少量的計算成本和記憶體佔用（填充成本），可以忽略不計。

3.轉移機制（Passthrough Mechanism）

我們提出了一個由三個自注意塊組成的網路，並採用了上面提到的所有TCCT架構，

如圖6

所示：

圖6：一個網路堆疊三個CSPAttention（藍色）塊。採用了擴張的因果卷積（上圖綠色）和傳遞機制。最終輸出的維度與輸入的維度相同。

4.帶有TCCT架構的Transformer

Transformer、LogTrans、Informer等。圖7顯示了與Informer合作的一個簡單示例，圖8顯示了一個詳細的編碼器示例。注意，圖7中的Informer只有一個編碼器，這意味著它沒有使用完整的蒸餾操作，而是用傳遞機制代替它。

圖7：Informer與提議的TCCT架構相結合的概述。左：在藍色梯形內部是編碼器堆疊三個ProbSparse CSPAttention塊（藍色），取代之前的ProbSparse self-attention塊。擴充套件的因果卷積層（綠色），而不是標準的卷積層，以及綠色梯形內的最大池化層用於連線每個兩個自我注意塊。三個自注意塊輸出的所有三個特徵對映被融合，然後過渡到合適尺寸的最終輸出。右圖：藍色梯形中Informer的解碼器基本保持不變。只有masked的ProbSparse self-attention塊被masked的ProbSparse CSPAttention塊替換。

圖8：堆疊三個自注意塊的單個Informer編碼器與所有三個TCCT體系結構協作。（1）每個CSPAttention塊（淺黃色）與Informer的典型架構ProbSparse self-attention（紅色）相結合。（2）每兩個CSPAttention塊之間使用一個擴張的因果卷積層和一個max-pooling層（綠色）進行連線。前一個自我注意塊的輸出特徵圖在透過這兩層傳播後縮減了一半長度，反映了最初Informer的情況，但擴大了接受域。（3）將三個自注意塊輸出的三個特徵對映透過傳遞機制（Gray）進行融合，獲得更細粒度的資訊。最後新增一個過渡層（綠色），將合適維度的特徵圖匯出到解碼器中。

關注人工智慧學術前沿回覆：ts32

5秒免費獲取論文pdf文件，及專案原始碼

3。實驗概述

基線模型

我們選擇Informer作為基本基線，並分別測試我們建議的TCCT體系結構應對它的效果。與ARIMA［41］、Prophet［42］、LSTMa［43］等眾多優秀的時間序列預測作品相比，Informer透過實驗展示了其先進的效能。因此，深入研究我們的TCCT體系結構能在多大程度上改善Informer是很有意義的。

因此，我們選擇了五種方法：

Informer

，只有一個編碼器的基本Informer；

Informer+

，Informer具有充分的蒸餾操作；

TCCT_1

， Informer與CSPAttention結合；

TCCT_2,

Informer聯合CSPAttention與擴張因果卷積；

TCCT_3

，Informer與所有TCCT架構相結合。

在沒有特殊說明的情況下，Informer， TCCT_1， TCCT_2， TCCT_3包含一個編碼器堆疊3個自注意塊，而Informer+包含一個具有充分蒸餾操作的3個編碼器堆疊。此外，每種方法都包含一個2層解碼器。此外，為了進一步研究我們提出的TCCT體系結構在增強其他Transformer或類Transformer模型在時間序列預測方面的適用性，我們選擇了另外兩種方法，canonical Transformer和LogTrans，並研究我們的TCCT體系結構在應對它們時是否能提高它們的效能。

資料集

我們在一個公共的真實世界的ETT 1 （electric Transformer Temperature）資料集上進行了實驗，該資料集由近2年的ETT資料組成。

ETT資料集由四個子集組成：

{ETTh1、ETTh2}為中國兩個獨立縣的1小時資料集；

{ETTm1， ETTm2}為來自{ETTh1， ETTh2}相同來源的15 min-level資料集。

每個資料點由目標值、油溫等6個電力負荷特徵組成。

我們選擇ETTh1和ETTm1來評估模型。

實驗結果

在此背景下，對五種方法在單變數和多變數條件下的時間序列預測能力進行了評估，從而說明三種TCCT體系結構分別能在多大程度上提高Informer的預測精度。ETTh1和ETTm1資料集都用於檢查。

從表1和表2可以看出：

（1） TCCT_3、三種TCCT架構的Informer，在單變數設定的大多數情況下，以及在多變數設定的所有情況下，都優於Informer+、Informer全蒸餾操作，表明我們提出的三種架構確實提高了Informer在LSTF問題中的預測能力。

（2）與Informer相比，TCCT_1， Informer with CSPAttention，在單變數和多變數設定下，在少數情況下表現相當，但在大多數情況下表現優越，說明CSPAttention可以幫助Informer獲得更輕量級的架構，而不損失預測精度。

（3） TCCT_2，同時具有CSPAttention和擴充套件因果卷積的Informer，在幾乎所有情況下都優於Informer和TCCT_1，說明擴充套件因果卷積層的應用進一步提高了TCCT_1的預測能力。當涉及到多變數條件時，TCCT_2甚至在近一半的情況下優於Informer+，特別是當預測長度為192和384時。

（4） TCCT_3優於其他四種方法，證明了將傳遞機制應用於Informer的好處。結果表明，透過機制比完全蒸餾操作更有效、更可靠。

（5）在單變數設定下，Informer+優於TCCT_1和TCCT_2，證明了新增編碼器的方法是有效的。在目前的實驗環境下，它甚至有25%的機會超過TCCT_3。然而，在多變數條件下，Informer+完全被TCCT_3打敗，隨著預測長度的增加，開始輸給TCCT_2。

這一現象表明，隨著預測序列的複雜性增加，我們提出的TCCT體系結構在提高Informer的預測能力方面比完全蒸餾操作更強。因此，與完全蒸餾操作相比，我們的TCCT體系結構可以幫助Informer處理更復雜的LSTF問題。

結論

在本文中，我們

提出了緊密耦合卷積變壓器(TCCT)的概念和三種TCCT架構，以提高先進的變壓器模型對時間序列預測的預測能力

。

特別地，我們

設計了CSPAttention來降低自注意機制的計算成本和記憶體佔用

，

同時又不影響預測的準確性

。