LayerNorm (Layer Normalization)
▼ ざっくり言うと
各サンプル単位で出力を正規化する、Transformer御用達の手法です。
▼ もうちょっと詳しく
BatchNormの兄弟だけど、バッチではなく1サンプル内で正規化する手法です。バッチサイズに依存しないので、Transformer・LLM では LayerNorm が標準になっています。
CNN ではBatchNorm、Transformer ではLayerNorm、というのが現代のお作法。場面によって使い分ける小さな違いですが、LLM 業界では LayerNorm が世界を支えていると言えます。
LLMの中で地味に何百回も呼ばれているのに、誰も話題にしない不憫な存在です。
あなたの読了: 0 / 388 語

