长短时记忆网络的原理是什么？ – 编程技术之美-IT之美

发表于2023年11月30日2023年6月16日作者 IT之美

长短时记忆网络(LSTM)是一种特殊的循环神经网络,它的原理是通过引入遗忘门、输入门和输出门来控制细胞状态,选择性地遗忘或保留信息。

具体来说,LSTM包含以下主要要素:

遗忘门 f:控制上一时刻的细胞状态有多少被遗忘。取值0到1,0表示全部遗忘,1表示全部保留。
输入门 i:控制当前输入有多少被存入细胞状态。取值0到1,0表示不存入,1表示全部存入。
细胞状态 C:记录长期信息的细胞记忆。通过遗忘门和输入门来更新。
输出门 o:控制从细胞状态输出有多少记忆。取值0到1,0表示不输出,1表示全部输出。
隐藏状态 h:LSTM的输出,基于输出门o和细胞状态C计算得来。

具体公式如下:

f = σ(Wf * [h(t-1), x(t)])    # 遗忘门
i = σ(Wi * [h(t-1), x(t)])    # 输入门 
C̃ = tanh(Wc * [h(t-1), x(t)]) # 候选细胞状态
C = f * C(t-1) + i * C̃        # 细胞状态  
o = σ(Wo * [h(t-1), x(t)])    # 输出门
h = o * tanh(C)                # 隐藏状态

通过这几个门及细胞状态的更新,LSTM可以有效地控制长期和短期记忆,解决普通RNN中的梯度消失问题。

具体来说:

遗忘门可以选择性遗忘长期记忆,防止其影响短期记忆。
输入门可以控制当前输入的存储量,避免非重要信息进入长期记忆。
输出门可以控制输出长期记忆的量,只输出当前相关部分。
细胞状态记录长期记忆,通过遗忘门和输入门选择性更新。
隐藏状态作为LSTM的输出,基于输出门输出部分长期记忆。

所以,LSTM通过这几个门的控制,巧妙地解决了长期依赖问题,成为目前最为流行的序列建模方法之一。理解LSTM的工作原理,有助于我们更好地运用和改进它来解决实际问题。