文章資訊
《
Deep Spatial–Temporal 3D Convolutional Neural Networks for Traffic Data Forecasting
》,發表於
IEEE TITS2019
,作者是
北京交通大學
的
郭晟楠,林友芳、萬懷宇老師等人。
論文下載地址:https://ieeexplore。ieee。org/stamp/stamp。jsp?tp=&arnumber=8684259
摘要
交通預測對於提高智慧交通系統的安全性,穩定性和效率至關重要,但這也是一個非常具有挑戰性的問題,因為交通資料是典型的時空資料,它同時顯示時空的相關性和異質性。現有的大多數工作只能捕獲交通資料的部分屬性,甚至假設相關性對交通預測的影響是全域性不變的,從而導致建模不足和預測效能不理想。在本篇論文中,作者提出了一種新穎的端到端深度學習模型ST-3DNet,用於交通柵格資料預測。 ST-3DNet引入了3D卷積以自動捕獲時空維度上交通資料的相關性。同時論文提出了一種新穎的重新校準模組,以明確量化空間中對相關性的貢獻的差異。另外考慮到交通資料的時間屬性包括短期模式和長期模式,ST-3DNet使用由3D卷積和Rc塊組成的兩個元件分別對這兩種模式進行建模,最後加權組合在一起進行最終預測。
背景資訊
如何在不依賴人工特徵的情況下有效地學習時空資訊是一個關鍵問題。經過Tran和Ji等人的研究發現,3D卷積相比於2D卷積可以
更有效地捕捉時空特徵。如圖1所示為2D卷積和3D卷積的對比。
圖1 2D卷積和3D卷積的對比
圖2 多幀情況下的卷積
在圖1(a)中,在卷積層上
執行
的
2D
卷積只能從上一層的區域性鄰域中提取空間維度上的特徵,得到一個特徵對映。當對一條時間序列進行卷積時,多個連續的幀被視為多個通道,如圖2(b)所示。當對2D卷積進行運算時,多個幀被壓縮成了一個特徵對映,導致時間資訊丟失。而3D卷積操作
如圖1(b)和圖2(c)所示,
就是多個連續幀堆疊生成的立方體上的三維濾波器,它的一個特徵對映連線到前一層中的多個連續幀。如圖2(c)所示,在由多個連續幀組成的立方體上進行3D卷積可以生成一個同樣是立方體的特徵對映。
貢獻
在交通流量預測領域引入3D卷積,透過三維卷積和殘差單元,可以有效在時空維度上提取特徵資訊;
提出了新穎的重新校準模組,可以準確描述空間中對時空相關性的貢獻差異;
考慮了時間的短期和長期兩個屬性模式,並分別設計模組對其建模,最後以加權的方式進行輸出。
問題定義
考慮一組固定位置
,對於每個位置(i,j),觀測值
以固定時間間隔記錄,該值代表在時間片t時,位置(i,j)處第c種觀測資料,因此對於時間片t,所有觀測資料可以表示為
。問題定義可以表示為,給定時空柵格資料
,目標是預測在時間片(n+Δt)時的
。
模型介紹
針對目前所存在的一些問題,作者提出了一種基於端到端深度學習的模型,稱為ST-3DNet。如圖4所示為其整體架構,它主要分為兩部分,分別用來處理時間的短期和長期兩種模式,即closeness和weekly。對於不同區域而言,長期模式和短期模式對其的影響是不同的,例如工作區域可能顯示出明顯的週期性模式,而普通區域則沒有。
圖4 ST-3DNet整體架構
對於短期模式的部分而言,輸入的資料是基於最近所發生的,因此其輸入是最近時間段中時空柵格資料的子序列,該部分可以表示為
。在該部分中,首先堆疊3D卷積層和2D殘差單元以捕獲時空特徵,然後使用Rc塊來識別和量化每個區域的特徵貢獻。對於長期模式的部分而言,旨在描述流量資料中的週期性和趨勢模式,其輸入是最近幾周的時空柵格資料的子序列,該部分可以表示為
。在該部分中,使用3D卷積捕獲時間模式,並使用Rc塊來選擇資訊特徵並抑制每個區域的無用特徵。之後,在這兩部分元件之上,透過一個融合模組將兩部分的輸出進行合併。
以短期模式為例,元件可以分為三部分,3D卷積,殘差單元以及重新校準塊。
其中3D卷積可以表示為:
其中*代表3D卷積操作,
代表第l層的輸入。
在3D卷積運算之後,時間資訊已經得到了充分的聚合。 因此之後,作者使用2D卷積以進一步探索空間資訊。 一個卷積層只能捕獲區域性空間相關性,因此需要多個連續的卷積層來捕獲遠處的空間依賴關係。如圖5所示,為殘差單元的結構,它包括兩次啟用和兩次2D卷積。
圖5 殘差單元結構
該部分可以表示為:
其中
是第l個殘差單元的可學習引數集合,
是第l個殘差單元的輸入。
圖6 重新校準塊
由於鄰近區域對預測的貢獻在整個空間上在空間上是變化的,因此作者在卷積之後加入了一個重新校準模組,該塊探索並自動量化了每個通道特徵的貢獻程度,以提高模型的能力。該部分可以表示為:
在該公式中,使用可學習的引數Wc來量化通道特徵在空間中的作用程度。
總結
如作者所說,這是第一次在交通預測領域使用3D卷積,同時作者提出了一個新穎的重新校準塊,來準確描述空間中對時空相關性的貢獻差異,有點類似於加了個
channel-wise的注意力機制。