GeLUジェルー (Gaussian Error Linear Unit)

▼ ざっくり言うと

TransformerやLLMの中で標準的に使われている活性化関数です。

▼ もうちょっと詳しく

2016年に提案された活性化関数。ReLUよりちょっと滑らかで、Transformer系のモデルで好まれています。GPT、BERT、Llama などの定番LLMで使われています。

理屈は「ガウス分布に基づく確率的なゲート」ですが、実用上は「ReLUの滑らか版」くらいの理解で十分。派手な性能差はないけど、なんとなくGeLU、という業界のお気持ちで採用が広がりました。

「ReLUを滑らかにしただけ」で論文が成立する、というのもAI業界の独特なルールです。

あなたの読了: 0 / 390