SFT (Supervised Fine-tuning)
▼ ざっくり言うと
「お手本のQ&A」を見せながらLLMを躾ける、ファインチューニングの基本形です。
▼ もうちょっと詳しく
Supervised Fine-tuning(教師ありファインチューニング)の略。LLMをインストラクトモデル化するときの最初の工程で、「こういう質問にはこういう答え方をしてね」というQ&Aセットを大量に見せて学習させます。
ベースモデルをチャットモデルに育てる流れは、ふつう「SFT → RLHF」の二段階。SFTで基本姿勢を覚えさせて、RLHFで微調整、という分業です。新人研修と現場OJTみたいな関係。
お手本を大量に見せて真似させる、というのは結局シンプルで強い手法です。
あなたの読了: 0 / 388 語

