SFTエスエフティー (Supervised Fine-tuning)

▼ ざっくり言うと

「お手本のQ&A」を見せながらLLMを躾ける、ファインチューニングの基本形です。

▼ もうちょっと詳しく

Supervised Fine-tuning(教師ありファインチューニング)の略。LLMをインストラクトモデル化するときの最初の工程で、「こういう質問にはこういう答え方をしてね」というQ&Aセットを大量に見せて学習させます。

ベースモデルをチャットモデルに育てる流れは、ふつう「SFT → RLHF」の二段階。SFTで基本姿勢を覚えさせて、RLHFで微調整、という分業です。新人研修と現場OJTみたいな関係。

お手本を大量に見せて真似させる、というのは結局シンプルで強い手法です。

あなたの読了: 0 / 388