DeepSeekモデルの概要と強化学習の3方法
DeepSeekモデルは、DeepSeekMoEからDeepSeek-V2、DeepSeek-V3とバージョンを経て進化し、現在は推論において優れたパフォーマンスを実現するDeepSeek-R1バージョンに到達しています。DeepSeekのアーキテクチャはすべてMoE(Mixture-of-Experts)アーキテクチャに基づいています。では、DeepSeek-R1はどのようにトレーニングされたのでしょうか? 1. Deepseekの概要 DeepSeek-V3の場合、教師ありファインチューニング(SFT)には、論理的および非論理的データを含む監視データが必要です。これにより、モデルは基本的な質問に答える能力を持ち、多量のデータが必要です。 一方、DeepSeek-R1-Zeroは、教師ありファインチューニング(SFT)をスキップし、モデルに直接強化学習(RL)を適用します。これにより、モデルは継続的な学習を通じて自ら進化し、論理的推論を学習することができます。 DeepSeek-R1-Zero の報酬モデルはルールベースであり、他のアルゴリズムで一般的に使用されるような回答にポイントを与えるモデルは使用しません。報酬は正解に対するものと、サンプルの正しい形式に対するものの2種類に分かれています。 GRPO をトレーニングした結果、DeepSeek-R1-Zero には長い CoT を認証、反映、生成する能力があることがわかりました。このモデルは、正しい答えを出すための注釈付き教師データを必要とせず、RL のみで推論スキルを自動的に開発できます。さらに、RL ステップの反復回数が増えると、モデルは自動的に回答を再検討し、反映し、他の可能な解決策を探索し始め、推論能力が向上します。 […]









