GeLU (Gaussian Error Linear Unit)
▼ ざっくり言うと
TransformerやLLMの中で標準的に使われている活性化関数です。
▼ もうちょっと詳しく
2016年に提案された活性化関数。ReLUよりちょっと滑らかで、Transformer系のモデルで好まれています。GPT、BERT、Llama などの定番LLMで使われています。
理屈は「ガウス分布に基づく確率的なゲート」ですが、実用上は「ReLUの滑らか版」くらいの理解で十分。派手な性能差はないけど、なんとなくGeLU、という業界のお気持ちで採用が広がりました。
「ReLUを滑らかにしただけ」で論文が成立する、というのもAI業界の独特なルールです。
あなたの読了: 0 / 390 語

