LSTMエルエスティーエム (Long Short-Term Memory)

▼ ざっくり言うと

長い系列でも昔の情報を覚えていられるように改良された、RNNの後継アーキテクチャです。

▼ もうちょっと詳しく

ふつうのRNNは、長い文章を読むうちに最初のほうを忘れてしまう(勾配消失)という弱点がありました。「一昨日のお昼に何食べた?」と聞かれて「えーと…」となる人間と同じ問題です。

LSTMはこれを解決するために、「セル状態」という長期記憶ラインと、「ゲート」という出入り口を用意しました。

  • 忘却ゲート: 古い記憶のうち、何を捨てるか決める
  • 入力ゲート: 新しい情報のうち、何を覚えるか決める
  • 出力ゲート: 記憶のうち、何を今出すか決める

この3つのゲートを学習で調整することで、「長く覚えるべきことは覚え、忘れていいことは忘れる」を実現しました。

▼ ちょっとだけ深い話

1997年に Hochreiter と Schmidhuber が発表。長らく日陰の存在でしたが、2010年代に音声認識・機械翻訳・文章生成で大活躍します。Transformer登場(2017年)以降は徐々に主役の座を譲りつつありますが、軽量・低レイテンシが必要な現場では今も現役。

「忘れるための仕組み」をわざわざ設計に組み込んだ、というのが、知能というものの不思議さを感じさせます。

あなたの読了: 0 / 390