LSTM的原理与结构:理解记忆单元和门控机制

编程灵魂画师 2019-04-23 ⋅ 56 阅读

长短期记忆网络(Long Short-Term Memory,LSTM)是一种递归神经网络,由Hochreiter和Schmidhuber于1997年提出。相比于传统的循环神经网络,LSTM引入了记忆单元和门控机制,能够更好地处理长时依赖关系问题。

LSTM的结构

LSTM由一个连续的记忆单元组成,记忆单元是LSTM的核心。记忆单元允许信息以连续的方式流经网络,可以选择性地记住或忘记过去的状态,以及更新当前的状态。

记忆单元主要由三个核心部分组成:输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。这三个门控制着记忆单元的读写和输出。

输入门决定了何时将输入信息加入到记忆单元中。它通过计算输入(当前输入和上一时刻的隐藏状态)的激活值,然后通过sigmoid激活函数将其转化为0到1之间的数值。当输入门的激活值接近1时,表示需要将该输入信息加入到记忆单元中,反之则需要忽略。

遗忘门决定了何时将过去的状态遗忘。与输入门类似,遗忘门也通过计算输入的激活值,并将其转化为0到1之间的数值。当遗忘门的激活值接近1时,表示需要完全保留过去的状态,反之则需要完全遗忘。

输出门决定了何时将记忆单元的输出发送给下一层网络或作为最终输出。同样地,输出门通过计算输入的激活值,并将其转化为0到1之间的数值。当输出门的激活值接近1时,表示需要将记忆单元的输出发送出去,反之则需要忽略。

LSTM的原理

LSTM的原理在于它如何根据输入和过去的状态来更新记忆单元的内容。记忆单元有两个重要的输入:当前的输入和上一时刻的隐藏状态。通过输入门和遗忘门的控制,记忆单元可以选择性地忘记过去的状态,然后将当前的输入信息加入到记忆单元中。

具体地,更新记忆单元的过程可以描述如下:

  1. 计算输入门的激活值,确定是否将输入信息加入到记忆单元中。
  2. 计算遗忘门的激活值,确定是否遗忘过去的状态。
  3. 根据输入门和遗忘门的激活值,更新记忆单元的内容。
  4. 计算输出门的激活值,确定是否将记忆单元的输出发送给下一层网络或作为最终输出。

由于这种记忆单元的结构,LSTM能够更好地处理长时依赖关系问题。在传统的循环神经网络中,由于梯度消失或爆炸的问题,网络只能捕捉较短的时序依赖关系。而LSTM通过门控机制和记忆单元的设计,可以有效地捕捉并利用长时依赖关系的信息。

总结

LSTM是一种递归神经网络,通过引入记忆单元和门控机制,能够更好地处理长时依赖关系问题。记忆单元由输入门、遗忘门和输出门组成,它们控制着记忆单元的读写和输出。LSTM根据输入和过去的状态来更新记忆单元的内容,从而能够捕捉并利用长时依赖关系的信息。这使得LSTM成为处理时间序列数据等具有长时依赖问题的任务的重要工具。


全部评论: 0

    我有话说: