一步步教你理解LSTM

重磅乾貨，第一時間送達

１　什麼是LSTM

LSTM全名是Long Short-Term Memory，長短時記憶網路，可以用來處理時序資料，在自然語言處理和語音識別等領域應用廣泛。和原始的迴圈神經網路RNN相比，LSTM解決了RNN的梯度消失問題，可以處理長序列資料，成為當前最流行的RNN變體。

2　LSTM應用舉例

假設我們的模型的輸入是依次輸入一句話的每個單詞，我們需要對單詞做分類，比如有兩句話：（1）arrive Beijing on November 2nd，這裡的Beijing是目的地；（2）leave Beijing on November 2nd，這裡的Beijing是出發地。如果用普通的神經網路，輸入是‘Beijing’，那麼輸出一定就是確定的，但事實上我們希望在‘Beijing’前面是‘arrive’時，‘Beijing’被識別為目的地，在‘Beijing’前面時‘leave’時，‘Beijing’被識別為出發地。這裡LSTM就會派上用場，因為LSTM可以記住歷史資訊，在讀到‘Beijing’時，LSTM還知道在前面是‘arrive’還是‘leave’，根據歷史資訊來做出不同的判斷，即使輸入是相同的，輸出也會不同。

3 LSTM結構剖析

普通的神經元是一個輸入，一個輸出，如圖所示：

對於神經元h1來講，輸入就是x1，輸出就是y1，LSTM做的就是把普通的神經元，替換成LSTM的單元。

從圖中可以看到LSTM有四個輸入，分別是input（模型輸入），forget gate（遺忘門），input gate（輸入門），以及output gate（輸出門）。因此相比普通的神經網路，LSTM的引數量是它們的4倍。這3個門訊號都是處於0～1之間的實數，1代表完全開啟，0代表關閉。遺忘門：決定了前一時刻中memory中的是否會被記住，當遺忘門開啟時，前一刻的記憶會被保留，當遺忘門關閉時，前一刻的記憶就會被清空。輸入門：決定當前的輸入有多少被保留下來，因為在序列輸入中，並不是每個時刻的輸入的資訊都是同等重要的，當輸入完全沒有用時，輸入門關閉，也就是此時刻的輸入資訊被丟棄了。輸出門：決定當前memroy的資訊有多少會被立即輸出，輸出門開啟時，會被全部輸出，當輸出門關閉時，當前memory中的資訊不會被輸出。

4 LSTM公式推導

有了上面的知識，再來推導LSTM的公式就很簡單了，圖中代表遺忘門，代表輸入門，代表輸出門。C是memroy cell，儲存記憶資訊。代表上一時刻的記憶資訊，代表當前時刻的記憶資訊，h是LSTM單元的輸出，是前一刻的輸出。