DeepSeekモデルは、DeepSeekMoEからDeepSeek-V2、DeepSeek-V3とバージョンを経て進化し、現在は推論において優れたパフォーマンスを実現するDeepSeek-R1バージョンに到達しています。DeepSeekのアーキテクチャはすべてMoE(Mixture-of-Experts)アーキテクチャに基づいています。では、DeepSeek-R1はどのようにトレーニングされたのでしょうか?
1. Deepseekの概要
DeepSeek-V3の場合、教師ありファインチューニング(SFT)には、論理的および非論理的データを含む監視データが必要です。これにより、モデルは基本的な質問に答える能力を持ち、多量のデータが必要です。
一方、DeepSeek-R1-Zeroは、教師ありファインチューニング(SFT)をスキップし、モデルに直接強化学習(RL)を適用します。これにより、モデルは継続的な学習を通じて自ら進化し、論理的推論を学習することができます。
DeepSeek-R1-Zero の報酬モデルはルールベースであり、他のアルゴリズムで一般的に使用されるような回答にポイントを与えるモデルは使用しません。報酬は正解に対するものと、サンプルの正しい形式に対するものの2種類に分かれています。
GRPO をトレーニングした結果、DeepSeek-R1-Zero には長い CoT を認証、反映、生成する能力があることがわかりました。このモデルは、正しい答えを出すための注釈付き教師データを必要とせず、RL のみで推論スキルを自動的に開発できます。さらに、RL ステップの反復回数が増えると、モデルは自動的に回答を再検討し、反映し、他の可能な解決策を探索し始め、推論能力が向上します。
しかし、DeepSeek-R1-Zero には、読み書きの精度の低さや言語の混在などの制限があったため、これを改善するために DeepSeek-R1 が導入されました。DeepSeekモデルの最新バージョンであるDeepSeek-R1 の RL によるトレーニングプロセスは2つのパスで構成されます。最初のパスはモデルの推論を支援し、2番目のパスは人間の好みに合わせて調整します。さらに、2つの SFT トレーニングセッションがあり、最初のセッションでは基本モデルの推論機能を、もう1つのセッションでは非推論機能をトレーニングします。
2. 強化学習アルゴリズムにおけるDeepSeekモデルの革新
DeepSeek では、強化学習の手法として、Group Relative Policy Optimization (GRPO) アルゴリズムを提案しています。GRPO は、さまざまなアクションを比較し、さまざまな観測セットに対して小さな制御された更新を行うことで、モデルの学習を向上させます。これにより、ポリシー最適化の利点を推定するために、グループスコアに基づく別の批評モデルが不要になります。
- GRPO はグループ内のアクションを比較し、ポリシー更新の変動性を減らして、学習をより安定させます。
- 制御された更新: KL 制約により、ポリシーの大きな不安定な変更が防止されます。
- GRPO は、あらゆる可能なアクションを評価する必要性を回避し、計算効率を向上させます。
GRPO は PPO に似ていますが、PPO のような批評モデルはなく、絶対的なパフォーマンスではなくグループ内の相対的なパフォーマンスに焦点を当てた各入力のグループサンプリングを使用します。
3. コールドスタート
- DeepSeek-R1トレーニングパイプラインの最初のステージは、DeepSeek-R1-Zeroが直面する課題に対処する役割を果たします。この段階では、SFT モデルをトレーニングすることで、最初の RL トレーニングプロセスの準備として、読みやすさと出力パフォーマンスが向上します。
- コールドスタートトレーニング用のデータセットを作成するために、著者らはさまざまな方法をアプローチしました。
- few-shot の使用: ベースモデルに長い CoT のプロンプトが与えられ、例として数学などの複雑な問題に対する複数ステップの解決策を提供します。
- 基本モデルはプロンプトを直接使用して、ソリューションの反映と検証を含む詳細な応答を生成します。
- DeepSeek-R1-Zero 出力の再利用: DeepSeek-R1-Zero からの読み取り可能な出力が選択され、改良されました。
- 出力形式の設計: 読みやすさを向上させるために、著者はモデルの構造化された出力形式を設計しました。
- DeepSeek-R1-Zero と比較したこの方法の利点:
- 書式を指定する際の読みやすさが向上します。
- 複雑な推論タスクにおいてモデルがより一般化するのに役立ちます。
- 構造化されたデータと人間の経験によりモデルのパフォーマンスが強化されます。
4. 推論指向強化学習(RL)トレーニング
コールドスタートプロセスの後: モデルは、特にコーディング、数学、科学、論理的推論のタスクにおいて、コールドスタートデータに基づいて RL のトレーニングを継続します。このプロセス中に、モデルが言語の混乱を引き起こすことが観察されたため、言語の混乱の問題を解決する特定の報酬モデルが確立されました。
トレーニングプロセス
- 正確さに対する報酬: 報酬システムは、モデルが明確に定義された問題に対して正しい答えを出すことを保証するように設計されています。
- 言語の混合を最小限に抑える: RL のトレーニング中によくある問題は、プロンプトに複数の言語が含まれる場合に CoT の出力に言語の不一致が生じることです。著者が提案する解決策は、CoT のターゲット言語の単語の割合として計算される言語一貫性ボーナスを導入することです。
- 収束したモデル: トレーニングプロセスは、収束したモデルがタスクに対して安定した信頼性の高いパフォーマンスを示すまで継続されます。
RL プロセス後の結果: モデルは MATH-500 または AIME 2024 データセットで優れたパフォーマンスを発揮しました。それに加えて、モデルは強力な推論能力を示し、一貫した結果をもたらしました。
5. 拒否サンプリング(Rejection sampling)とSFT
このプロセスの目的は、適切な推論出力を選択して改良することで、モデルの推論能力を向上させることです。文章作成、ロールプレイング、翻訳などの非論理的な一般能力を拡張し、応答の一貫性を改善して混沌とした出力を除外し、モデルが読み取り可能で論理的に一貫性のある応答を生成するようにします。
理論的なデータ処理:
- 拒否サンプリング: RL トレーニング後、モデル出力に不適切なコンテンツが含まれる場合があります。したがって、拒否サンプリングを使用してトレーニングされたモデルから有効なデータを選択します。このデータは SFT モデルに使用されます。
- データセットの拡張: この段階では、他のドメインのデータも含めてデータセットを拡張します。モデルの出力がわかりにくかったり、理解しにくかったりすることがあるため、不適切な言語出力、長すぎる段落、コードを含む CoT を除外してデータをクリーンアップします。各推論タスクでは、複数の回答がサンプリングされ、正解のみが保持されました。最終的に、推論に関連する約 60 万個のトレーニングサンプルが収集されました。
非合理的なデータ:
- データには、執筆、QA、翻訳などのタスクが含まれます。これらのタスクでは、DeepSeek-V3 パイプラインを使用し、DeepSeek-V3 で収集された SFT データセットの一部を再利用します。一部の非推論タスクでは、DeepSeek-V3 を呼び出して潜在的な CoT を生成し、質問に答えるときに、より優れた推論プロセスを提供します。最終的に、トレーニング用に 20 万個の非理論的サンプルが生成されました。
非合理的なデータ:
データには、執筆、QA、翻訳などのタスクが含まれます。これらのタスクでは、DeepSeek-V3 パイプラインを使用し、DeepSeek-V3 で収集された SFT データセットの一部を再利用します。一部の非推論タスクでは、DeepSeek-V3 を呼び出して潜在的な CoT を生成し、質問に答える際に、より優れた推論プロセスを提供します。最終的に、トレーニング用に 20 万個の非理論的サンプルを生成しました。
6. コンテキストの強化学習
このフェーズでは、DeepSeek-R1 を微調整し、人間が好むすべての汎用タスクと推論タスクを処理できるようにし、モデルが有用で無害かつ効率的なフィードバックを提供できるようにすることに重点を置いています。
主な目標は、DeepSeek-R1 を改良して、数学、論理、プログラミングなどの高度な思考を必要とするタスクを実行する柔軟性とパワーを高めることです。また、クリエイティブな文章を書いたり、ユーザーの興味に合った質問に答えたりするなどのタスクもうまく処理します。 トレーニングプロセスは次のように実行されます。
- 推論データ: 推論タスクにルールベースの報酬モデルを使用します。これらの報酬は、タスクを解決する際の正確性と一貫性に重点を置いています。
- 一般データ: 使用される報酬モデルは、有用性、読みやすさ、無害性に関するフィードバックを評価する人間のような好みに基づいています。
このプロセスの後、タスクのパフォーマンスはベンチマークスケールで改善され、ユーザーの期待に沿ってユーザーフレンドリーになります。
7. 蒸留 (Distillation)
DeepSeek-R1 のような大規模なモデルは計算コストが高く、推論に多くのリソースを必要とします。大規模なモデルの知識をより小さなモデルに凝縮することで、モデルはより高速かつ軽量になり、限られたハードウェアデバイスにも展開できるようになります。
DeepSeek-R1 では、DeepSeek-R1 の推論機能を、70 億から 320 億の Qwen モデルや 70 億から 130 億の LLama などのより小規模なモデルに凝縮しました。小規模なモデルをトレーニングするために使用されるデータには、約 80 万の異なる推論および非推論の例が含まれています。
DeepSeek-R1 の知識は、教師あり学習と報酬誘導蒸留を使用して、より小さなモデルに転送されます。これらのモデルは、トレーニング後、推論能力においてベースモデルを上回り、OpenAI の o1-mini モデルよりも優れたパフォーマンスを発揮しました。
8. 結論
DeepSeek は、ベンチマークとモデル推論機能において高いパフォーマンスを達成することに成功しました。これにより、OpenAI と競争する機会が生まれ、品質を損なうことなく小規模なモデルに拡張できる AI ソリューションを提供します。ただし、DeepSeek は主に英語と中国語に重点を置いているため、言語の制限がまだあります。