LSTM (Long Short-Term Memory)
▼ ざっくり言うと
長い系列でも昔の情報を覚えていられるように改良された、RNNの後継アーキテクチャです。
▼ もうちょっと詳しく
ふつうのRNNは、長い文章を読むうちに最初のほうを忘れてしまう(勾配消失)という弱点がありました。「一昨日のお昼に何食べた?」と聞かれて「えーと…」となる人間と同じ問題です。
LSTMはこれを解決するために、「セル状態」という長期記憶ラインと、「ゲート」という出入り口を用意しました。
- 忘却ゲート: 古い記憶のうち、何を捨てるか決める
- 入力ゲート: 新しい情報のうち、何を覚えるか決める
- 出力ゲート: 記憶のうち、何を今出すか決める
この3つのゲートを学習で調整することで、「長く覚えるべきことは覚え、忘れていいことは忘れる」を実現しました。
▼ ちょっとだけ深い話
1997年に Hochreiter と Schmidhuber が発表。長らく日陰の存在でしたが、2010年代に音声認識・機械翻訳・文章生成で大活躍します。Transformer登場(2017年)以降は徐々に主役の座を譲りつつありますが、軽量・低レイテンシが必要な現場では今も現役。
「忘れるための仕組み」をわざわざ設計に組み込んだ、というのが、知能というものの不思議さを感じさせます。
あなたの読了: 0 / 390 語

