DeepSeek-R1 に関する論文を Gemini Paper Summarizer で要約しました。

DeepSeek-AI, Guo, D., Yang, D., Zhang, H., Song, J., Zhang, R., … Zhang, Z. (2025). DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning.

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

DeepSeek の要約シリーズです。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 Introduction

1.1 Contributions

1.2 Summary of Evaluation Results

2 Approach

2.1 概要

2.2 DeepSeek-R1-Zero：ベースモデルでの強化学習

2.2.1 強化学習アルゴリズム

2.2.2 報酬モデリング

2.2.3 学習テンプレート

2.2.4 DeepSeek-R1-Zeroの性能、自己進化プロセス、および「アハ体験」

2.3 DeepSeek-R1：コールドスタートを用いた強化学習

2.3.1 コールドスタート

2.3.2 推論指向強化学習

2.3.3 リジェクションサンプリングと教師ありファインチューニング

2.3.4 すべてのシナリオに対する強化学習

2.4 蒸留：推論能力を備えた小規模モデルの強化

3 Experiment

3.1 DeepSeek-R1 の評価

3.2 蒸留モデルの評価

4 Discussion

4.1. 蒸留 vs. 強化学習

4.2. 失敗した試み

5 Conclusion, Limitations, and Future Work

A Contributions and Acknowledgments

Abstract

我々は、第一世代の推論モデルであるDeepSeek-R1-ZeroとDeepSeek-R1を紹介する。DeepSeek-R1-Zeroは、予備段階として、教師ありファインチューニング（SFT）なしで大規模強化学習（RL）によって訓練されたモデルであり、注目すべき推論能力を示す。RLを通じて、DeepSeek-R1-Zeroは、数多くの強力で興味深い推論行動を自然に生み出す。しかし、読みにくさや言語の混在といった課題にも直面する。これらの問題に対処し、推論性能をさらに向上させるために、我々は、RLの前に多段階訓練とコールドスタートデータを取り入れたDeepSeek-R1を導入する。DeepSeek-R1は、推論タスクにおいてOpenAI-01-1217に匹敵する性能を達成する。研究コミュニティを支援するために、我々は、DeepSeek-R1-Zero、DeepSeek-R1、およびQwenとLlamaに基づいてDeepSeek-R1から蒸留された6つの密なモデル（1.5B、7B、8B、14B、32B、70B）をオープンソースで公開する。

概要

DeepSeek-R1は、強化学習と蒸留を用いて推論能力を向上させた大規模言語モデルであり、特に数学やコーディングタスクでOpenAIのモデルに匹敵する性能を示す。

問題意識

本論文は、大規模言語モデル（LLM）の推論能力を向上させるための新しいアプローチを提案している。具体的には、教師ありファインチューニング（SFT）に頼らず、純粋な強化学習（RL）を用いてLLMが自己進化的に推論能力を獲得する可能性を探求している。また、コールドスタートデータや多段階トレーニングパイプラインを導入することで、より人間にとって読みやすく、強力な推論能力を持つモデルを開発することを目指している。さらに、大規模モデルで発見された推論パターンを小規模モデルに蒸留することで、より効率的な推論能力を持つモデルを開発することにも焦点を当てている。

手法

本論文では、大規模言語モデル（LLM）の推論能力を強化するための新しい手法として、強化学習（RL）をベースとしたアプローチを提案している。具体的には、以下の3つのモデルを開発している。

DeepSeek-R1-Zero: 教師あり微調整（SFT）なしで、ベースモデルに直接RLを適用する。これにより、モデルが複雑な問題解決のための連鎖的思考（CoT）を自律的に学習し、自己検証、内省、長文のCoT生成などの能力を獲得する。
DeepSeek-R1: 少量のコールドスタートデータと多段階の学習パイプラインを導入することで、DeepSeek-R1-Zeroの課題（読みにくさ、言語の混在など）に対処し、推論能力をさらに向上させる。このパイプラインは、2段階のRLと、モデルの推論能力と非推論能力の種となる2段階のSFTを組み込んでいる。
蒸留モデル: DeepSeek-R1で発見された推論パターンを、より小さなモデルに蒸留する。これにより、小規模モデルでも優れた推論性能を発揮できるようになる。具体的には、QwenとLlamaシリーズをベースとした6つの密なモデル（1.5B、7B、8B、14B、32B、70B）を蒸留し、特に14Bモデルは既存のオープンソースモデルを大幅に上回る性能を達成した。

これらのモデル開発を通じて、本論文は以下の点を主張している。

LLMの推論能力は、SFTに頼らずにRLだけで強化できる。
コールドスタートデータと多段階学習は、RLの安定性と性能を向上させる。
大規模モデルで発見された推論パターンは、小規模モデルに蒸留できる。

また、本論文では、これらのモデルの性能を評価するために、様々な推論タスク、知識タスク、コーディングタスクのベンチマークを使用している。DeepSeek-R1は、これらのベンチマークでOpenAIのo1-1217モデルに匹敵する性能を達成しており、特に数学やコーディングのタスクで優れた結果を示している。

新規性

本論文の新規性は以下の通りである。

教師あり微調整（SFT）なしの強化学習（RL）による推論能力の向上:
- 従来のLLMの推論能力向上にはSFTが不可欠と考えられていたが、本研究では、SFTなしでRLのみを用いて推論能力を向上させることに成功した。
- これにより、モデルが複雑な問題を解決するための思考連鎖（CoT）を自律的に学習できることを示した。
- 特に、DeepSeek-R1-Zeroは、自己検証や反省などの能力を示し、RLのみでLLMの推論能力を向上させるという新たな可能性を開拓した。
コールドスタートデータとマルチステージ学習による推論能力の更なる向上:
- DeepSeek-R1では、少量の高品質なコールドスタートデータとマルチステージ学習パイプラインを導入し、DeepSeek-R1-Zeroの課題であった読みにくさや言語の混在を改善した。
- これにより、人間にとって読みやすく、より強力な推論能力を持つモデルの開発に成功した。
- 具体的には、RLの前にコールドスタートデータでモデルを微調整し、その後に推論指向のRLを行い、さらに拒否サンプリングと教師あり微調整を組み合わせることで、OpenAI-01-1217と同等の性能を達成した。
大規模モデルの推論能力を小規模モデルに蒸留:
- DeepSeek-R1で発見された推論パターンを、より小規模なモデルに蒸留することで、小規模モデルでも優れた推論能力を発揮できることを示した。
- 蒸留されたモデルは、既存のオープンソースモデルを大幅に上回る性能を示し、小規模モデルでも大規模モデルと同等の推論能力を実現できる可能性を示唆した。
- 特に、蒸留された14Bモデルは、最先端のオープンソースモデルであるQwQ-32B-Previewを大幅に上回り、32Bおよび70Bモデルは、推論ベンチマークで新記録を樹立した。
RLによる推論能力の自律的進化の観測:
- RLのみで学習させたDeepSeek-R1-Zeroの学習過程を詳細に分析し、モデルが自律的に推論能力を向上させる様子を観測した。
- 特に、「アハ体験」と呼ばれる、モデルが思考時間を増やして問題を再評価する現象を捉え、RLがモデルの自律的な問題解決能力を促進する可能性を示した。

これらの新規性により、本論文は、LLMの推論能力向上における新たなアプローチを提示し、今後の研究や産業界での応用に向けて重要な貢献をなしている。

章構成

1 Introduction
- 1.1 Contributions
- 1.2 Summary of Evaluation Results
2 Approach
- 2.1 Overview
- 2.2 DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
  - 2.2.1 Reinforcement Learning Algorithm
  - 2.2.2 Reward Modeling
  - 2.2.3 Training Template
  - 2.2.4 Performance, Self-evolution Process and Aha Moment of DeepSeek-R1-Zero
- 2.3 DeepSeek-R1: Reinforcement Learning with Cold Start
  - 2.3.1 Cold Start
  - 2.3.2 Reasoning-oriented Reinforcement Learning
  - 2.3.3 Rejection Sampling and Supervised Fine-Tuning
  - 2.3.4 Reinforcement Learning for all Scenarios
- 2.4 Distillation: Empower Small Models with Reasoning Capability
3 Experiment
- 3.1 DeepSeek-R1 Evaluation
- 3.2 Distilled Model Evaluation
4 Discussion
- 4.1 Distillation v.s. Reinforcement Learning
- 4.2 Unsuccessful Attempts
5 Conclusion, Limitations, and Future Work
A Contributions and Acknowledgments

1 Introduction

近年、大規模言語モデル（LLM）は急速な進歩を遂げ、人工汎用知能（AGI）へのギャップを縮めている。特に、推論能力の向上は重要な課題であり、Chain-of-Thought（CoT）などの手法が導入されてきた。しかし、これらの手法はテスト時のスケーリングに課題が残る。本論文では、教師ありデータに頼らず、純粋な強化学習（RL）を用いてLLMの推論能力を向上させる最初のステップを踏み出す。

1.1 Contributions

本論文の主な貢献は以下の通りである。

ベースモデルへの大規模強化学習の適用: 教師ありファインチューニング（SFT）を初期段階とせず、直接RLを適用する。これにより、モデルは複雑な問題を解決するためのCoTを自律的に探索し、DeepSeek-R1-Zeroを開発した。DeepSeek-R1-Zeroは、自己検証、内省、長文CoT生成などの能力を示し、LLMの推論能力を純粋なRLで向上させることが可能であることを実証した。
DeepSeek-R1開発パイプラインの導入: 2段階のRLと2段階のSFTを組み合わせたパイプラインを提案する。このパイプラインは、モデルの推論能力と人間との整合性を向上させることを目的とする。
蒸留による小型モデルの能力向上: 大型モデルで発見された推論パターンを小型モデルに蒸留することで、小型モデルの性能を向上させる。DeepSeek-R1とそのAPIをオープンソース化し、研究コミュニティがより優れた小型モデルを蒸留できるようにする。
高性能な小型モデルの提供: DeepSeek-R1で生成された推論データを用いてファインチューニングされた複数の密なモデルをオープンソース化する。これらのモデルはベンチマークで優れた性能を示し、特にDeepSeek-R1-Distill-Qwen-7BはAIME 2024で55.5%を達成し、QwQ-32B-Previewを上回る。

1.2 Summary of Evaluation Results

DeepSeek-R1の評価結果の概要は以下の通りである。

推論タスク: AIME 2024で79.8%のPass@1スコアを達成し、OpenAI-o1-1217をわずかに上回る。MATH-500では97.3%を達成し、OpenAI-o1-1217と同等の性能を示す。Codeforcesでは2,029 Eloレーティングを達成し、競技者の96.3%を上回る。
知識タスク: MMLU、MMLU-Pro、GPQA Diamondで優れた結果を達成し、DeepSeek-V3を大幅に上回る。SimpleQAではDeepSeek-V3を上回り、事実に基づいた質問への対応能力を示す。
その他: 創造的な文章作成、一般的な質問応答、編集、要約など、幅広いタスクで優れている。AlpacaEval 2.0で87.6%、ArenaHardで92.3%の勝率を達成し、非試験指向のクエリをインテリジェントに処理する能力を示す。また、長文コンテキスト理解タスクでも優れた性能を示す。

2 Approach

2.1 概要

本研究では、教師ありデータに頼らず、大規模強化学習（RL）によって推論能力を向上させることを示す。さらに、少量のコールドスタートデータを導入することで、性能をさらに向上させることが可能である。以下では、(1) SFTデータなしでベースモデルに直接RLを適用したDeepSeek-R1-Zero、(2) 数千のCoT（Chain-of-Thought）例でファインチューニングされたチェックポイントからRLを適用したDeepSeek-R1、(3) DeepSeek-R1から小規模な密モデルへの推論能力の蒸留について述べる。

2.2 DeepSeek-R1-Zero：ベースモデルでの強化学習

先行研究では、推論タスクに強化学習が有効であることが示されているが、これらの研究は時間のかかる教師ありデータに大きく依存していた。本節では、教師ありデータなしでLLMが推論能力を開発する可能性を探る。

2.2.1 強化学習 アルゴリズム

RLの学習コストを削減するため、グループ相対ポリシー最適化（GRPO）を採用する。GRPOは、通常ポリシーモデルと同じサイズの批評家モデルを必要とせず、代わりにグループスコアからベースラインを推定する。具体的には、各質問qに対して、GRPOは古いポリシー $\pi_{\theta_{old}}$ から出力のグループ $\{o_1, o_2, ..., o_g\}$ をサンプリングし、以下の目的関数を最大化することでポリシーモデル $\pi_{\theta}$ を最適化する。

$\mathcal{L}_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)} \left[ \frac{1}{G} \sum_{i=1}^G \left( \min(A_i, \text{clip}(\frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon)A_i) - \beta D_{KL}(\pi_\theta || \pi_{ref}) \right) \right]$

ここで、 $D_{KL}(\pi_\theta || \pi_{ref}) = \frac{\pi_\theta(o_i|q)}{\pi_{ref}(o_i|q)} \log \frac{\pi_\theta(o_i|q)}{\pi_{\theta_{old}}(o_i|q)} - 1$ であり、 $\epsilon$ と $\beta$ はハイパーパラメータ、 $A_i$ は各出力に対応する報酬 $\{r_1, r_2, ..., r_g\}$ から計算されるアドバンテージである。

A_i = \frac{r_i - \text{mean}(\{r_1, r_2, ..., r_g\})}{\text{std}(\{r_1, r_2, ..., r_g\})}

2.2.2 報酬モデリング

報酬は、RLの最適化方向を決定する学習信号の源である。DeepSeek-R1-Zeroを学習させるために、主に2種類の報酬からなるルールベースの報酬システムを採用する。

精度報酬: 応答が正しいかどうかを評価する。例えば、決定論的な結果を持つ数学の問題の場合、モデルは指定された形式で最終的な答えを提供する必要がある。
形式報酬: モデルに思考プロセスを<think>と</think>タグの間に入れることを強制する。

大規模な強化学習プロセスでは、ニューラル報酬モデルが報酬ハッキングの影響を受ける可能性があり、報酬モデルの再学習には追加の学習リソースが必要となるため、ニューラル報酬モデルは使用しない。

2.2.3 学習テンプレート

DeepSeek-R1-Zeroを学習させるために、ベースモデルが指定された指示に従うように、単純なテンプレートを設計する。このテンプレートでは、DeepSeek-R1-Zeroが最初に推論プロセスを生成し、次に最終的な答えを生成する必要がある。コンテンツ固有のバイアスを避けるために、この構造形式に制約を限定する。

2.2.4 DeepSeek-R1-Zeroの性能、自己進化プロセス、および「アハ体験」

DeepSeek-R1-ZeroのAIME 2024ベンチマークでの性能は、RL学習が進むにつれて着実に向上する。特に、平均pass@1スコアは、初期の15.6%から71.0%に向上し、OpenAI-01-0912に匹敵する性能レベルに達する。この大幅な改善は、RLアルゴリズムがモデルの性能を最適化する上で効果的であることを示している。

DeepSeek-R1-Zeroの自己進化プロセスは、RLがモデルの推論能力を自律的に向上させる方法を示す。ベースモデルから直接RLを開始することで、教師ありファインチューニング段階の影響を受けずにモデルの進歩を監視できる。

DeepSeek-R1-Zeroの学習中に観察された特に興味深い現象は、「アハ体験」の発生である。この瞬間、DeepSeek-R1-Zeroは、初期のアプローチを再評価することで、問題により多くの思考時間を割り当てることを学習する。

2.3 DeepSeek-R1：コールドスタートを用いた強化学習

DeepSeek-R1-Zeroの有望な結果に触発され、2つの疑問が生じる。(1) 高品質なデータをコールドスタートとして少量組み込むことで、推論性能をさらに向上させたり、収束を加速させたりできるか？(2) 明確で首尾一貫したCoTを生成するだけでなく、強力な汎用能力を示すユーザーフレンドリーなモデルをどのように学習できるか？これらの疑問に対処するために、DeepSeek-R1を学習するためのパイプラインを設計する。パイプラインは、以下の4つの段階で構成される。

2.3.1 コールドスタート

DeepSeek-R1-Zeroとは異なり、ベースモデルからのRL学習の初期不安定なコールドスタート段階を防ぐために、DeepSeek-R1では、少量の長いCoTデータを構築および収集し、初期RLアクターとしてモデルをファインチューニングする。このデータを収集するために、いくつかの方法を検討する。

長いCoTを例とした少数のプロンプトを使用する。
モデルにリフレクションと検証を含む詳細な回答を生成するように直接プロンプトする。
DeepSeek-R1-Zeroの出力を読みやすい形式で収集する。
人間による注釈者による後処理を通じて結果を洗練する。

本研究では、数千のコールドスタートデータを収集し、RLの開始点としてDeepSeek-V3-Baseをファインチューニングする。

2.3.2 推論指向強化学習

コールドスタートデータでDeepSeek-V3-Baseをファインチューニングした後、DeepSeek-R1-Zeroで採用したのと同じ大規模強化学習プロセスを適用する。この段階では、明確な解決策を持つコーディング、数学、科学、論理推論などの推論集約型タスクでのモデルの推論能力の向上に焦点を当てる。学習プロセス中に、CoTが特にRLプロンプトに複数の言語が含まれる場合に、言語混合を示すことが観察される。言語混合の問題を軽減するために、CoT内のターゲット言語の単語の割合として計算される、RLトレーニング中の言語一貫性報酬を導入する。

2.3.3 リジェクションサンプリングと教師ありファインチューニング

推論指向のRLが収束したら、結果のチェックポイントを利用して、その後のラウンドのSFT（教師ありファインチューニング）データを収集する。主に推論に焦点を当てた初期のコールドスタートデータとは異なり、この段階では、ライティング、ロールプレイング、その他の汎用タスクでモデルの機能を強化するために、他のドメインからのデータが組み込まれる。具体的には、以下のようにデータを生成し、モデルをファインチューニングする。

推論データ: 上記のRLトレーニングからのチェックポイントからリジェクションサンプリングを実行して、推論プロンプトをキュレーションし、推論軌道を生成する。
非推論データ: ライティング、事実に基づいたQA、自己認識、翻訳などの非推論データについては、DeepSeek-V3パイプラインを採用し、DeepSeek-V3のSFTデータセットの一部を再利用する。

2.3.4 すべてのシナリオに対する強化学習

モデルを人間の好みにさらに合わせるために、モデルの有用性と無害性を向上させながら、推論能力を同時に洗練することを目的とした、二次的な強化学習段階を実装する。具体的には、報酬信号と多様なプロンプト分布の組み合わせを使用してモデルを学習させる。

2.4 蒸留：推論能力を備えた小規模モデルの強化

DeepSeek-R1のような推論能力を備えたより効率的な小規模モデルを装備するために、DeepSeek-R1でキュレーションされた80万のサンプルを使用して、QwenとLlamaなどのオープンソースモデルを直接ファインチューニングする。この単純な蒸留法が、小規模モデルの推論能力を大幅に向上させることが示される。蒸留モデルには、SFTのみを適用し、RL段階は含めない。

3 Experiment

3.1 DeepSeek-R1 の評価

DeepSeek-R1 の性能を評価するために、様々なベンチマークを用いて他のモデルと比較した。教育向けの知識ベンチマーク（MMLU, MMLU-Pro, GPQA Diamond）では、DeepSeek-V3 を上回る性能を示した。特に、STEM 分野の質問で大幅な改善が見られた。また、長文の文脈を必要とする質問応答タスクである FRAMES でも優れた性能を示し、AI を活用した検索やデータ分析タスクにおける推論モデルの可能性を示唆した。事実に基づいた質問応答タスクである SimpleQA では、DeepSeek-V3 を上回る性能を示し、事実に基づいた質問を処理する能力を示した。同様の傾向は、OpenAI-o1 がこのベンチマークで GPT-4o を上回っていることからも確認できる。ただし、DeepSeek-R1 は中国語の SimpleQA ベンチマークでは、安全性 RL のために特定の質問への回答を拒否する傾向があるため、DeepSeek-V3 よりも性能が劣った。安全性 RL がなければ、DeepSeek-R1 は 70% を超える精度を達成できた可能性がある。

DeepSeek-R1 は、形式指示に従う能力を評価する IF-Eval でも優れた結果を示した。これらの改善は、教師あり微調整（SFT）と RL トレーニングの最終段階で、指示に従うデータを組み込んだことに関連している。また、AlpacaEval 2.0 と ArenaHard で顕著な性能を示し、ライティングタスクやオープンな質問応答における DeepSeek-R1 の強みを示した。DeepSeek-V3 を大幅に上回る性能は、大規模な RL の汎化能力を示すものであり、推論能力を向上させるだけでなく、多様な分野での性能も向上させている。さらに、DeepSeek-R1 によって生成された要約の長さは簡潔であり、ArenaHard では平均 689 トークン、AlpacaEval 2.0 では 2,218 文字であった。これは、DeepSeek-R1 が GPT ベースの評価中に長さの偏りを導入することを回避し、複数のタスクにわたる堅牢性をさらに強化していることを示している。

数学タスクでは、DeepSeek-R1 は OpenAI-o1-1217 と同等の性能を示し、他のモデルを大幅に上回った。同様の傾向は、LiveCodeBench や Codeforces などのコーディングアルゴリズムタスクでも見られ、推論に焦点を当てたモデルがこれらのベンチマークで優位に立っている。エンジニアリング指向のコーディングタスクでは、OpenAI-o1-1217 が Aider で DeepSeek-R1 を上回ったものの、SWE Verified では同等の性能を達成した。DeepSeek-R1 のエンジニアリング性能は、関連する RL トレーニングデータの量が限られているため、次のバージョンで改善されると予想される。

3.2 蒸留モデルの評価

表5に示すように、DeepSeek-R1 の出力を蒸留するだけで、効率的な DeepSeek-R1-7B（DeepSeek-R1-Distill-Qwen-7B の略）が、GPT-4o-0513 のような推論モデルではないモデルを全体的に上回ることができる。DeepSeek-R1-14B はすべての評価指標で QwQ-32B-Preview を上回り、DeepSeek-R1-32B と DeepSeek-R1-70B はほとんどのベンチマークで o1-mini を大幅に上回った。これらの結果は、蒸留の強力な可能性を示している。さらに、これらの蒸留モデルに RL を適用すると、さらに大きな改善が得られることがわかった。このため、さらなる調査が必要であると考え、ここでは単純な SFT 蒸留モデルの結果のみを示す。

4 Discussion

4.1. 蒸留 vs. 強化学習

3.2節で示したように、DeepSeek-R1を蒸留することで、小さなモデルでも優れた性能を達成できることが示された。しかし、蒸留なしで、本論文で議論した大規模強化学習（RL）によって同等の性能を達成できるかという疑問が残る。

この疑問に答えるため、Qwen-32B-Baseをベースモデルとし、数学、コード、STEMデータを用いて1万ステップ以上RLトレーニングを実施し、DeepSeek-R1-Zero-Qwen-32Bを生成した。実験結果（表6）は、この32Bベースモデルが大規模RLトレーニング後、QwQ-32B-Previewと同等の性能を達成するものの、DeepSeek-R1から蒸留されたDeepSeek-R1-Distill-Qwen-32Bは、全てのベンチマークにおいて有意に優れていることを示す。

この結果から、以下の2つの結論が得られる。第一に、より強力なモデルを小さなモデルに蒸留することで優れた結果が得られる一方、本論文で述べた大規模RLに依存する小さなモデルは、膨大な計算能力を必要とするにもかかわらず、蒸留と同等の性能を達成できない可能性がある。第二に、蒸留戦略は経済的かつ効果的であるが、知能の限界を超えるためには、より強力なベースモデルと、より大規模な強化学習が必要となる可能性がある。

4.2. 失敗した試み

DeepSeek-R1の開発初期段階において、いくつかの失敗や挫折も経験した。これらの失敗経験を共有することで、洞察を提供することを目的とするが、これらのアプローチが効果的な推論モデルの開発に不向きであることを意味するものではない。

プロセス報酬モデル (PRM)：PRMは、推論タスクを解決するためのより良いアプローチにモデルを導くための合理的な方法である（Lightman et al., 2023; Uesato et al., 2022; Wang et al., 2023）。しかし、実際には、PRMには、その最終的な成功を妨げる可能性のある3つの主な制限がある。第一に、一般的な推論における微細なステップを明示的に定義することは困難である。第二に、現在の中間ステップが正しいかどうかを判断することは困難なタスクである。モデルを用いた自動アノテーションでは満足のいく結果が得られない可能性があり、手動アノテーションは拡張性に欠ける。第三に、モデルベースのPRMが導入されると、必然的に報酬ハッキング（Gao et al., 2022）につながり、報酬モデルの再トレーニングには追加のトレーニングリソースが必要となり、トレーニングパイプライン全体が複雑になる。結論として、PRMはモデルによって生成された上位N個の応答を再ランク付けしたり、ガイド付き検索を支援したりするのに優れた能力を発揮するが（Snell et al., 2024）、大規模強化学習プロセス中に導入される追加の計算オーバーヘッドと比較すると、その利点は限定的である。

モンテカルロ木探索 (MCTS)：AlphaGo (Silver et al., 2017b) と AlphaZero (Silver et al., 2017a) に触発され、テスト時の計算拡張性を高めるためにモンテカルロ木探索（MCTS）を試みた。このアプローチでは、モデルが体系的に解空間を探索できるように、回答をより小さな部分に分割する。これを容易にするために、検索に必要な特定の推論ステップに対応する複数のタグをモデルに生成させる。トレーニングでは、まず収集したプロンプトを使用して、事前トレーニングされた価値モデルによってガイドされたMCTSを介して回答を見つける。その後、得られた質問と回答のペアを使用して、アクターモデルと価値モデルの両方をトレーニングし、プロセスを反復的に改善する。

しかし、このアプローチは、トレーニングをスケールアップする際にいくつかの課題に直面する。第一に、チェスのように検索空間が比較的明確に定義されている場合とは異なり、トークン生成は指数関数的に大きな検索空間を提示する。これに対処するために、各ノードの最大拡張制限を設定したが、これにより、モデルが局所最適解に陥る可能性がある。第二に、価値モデルは検索プロセスの各ステップをガイドするため、生成の品質に直接影響する。微細な価値モデルをトレーニングすることは本質的に困難であり、モデルを反復的に改善することが困難になる。AlphaGoの中核となる成功は、価値モデルをトレーニングしてパフォーマンスを徐々に向上させることに依存していたが、トークン生成の複雑さのために、この原則をセットアップで再現することは困難であることが証明された。

結論として、MCTSは事前トレーニングされた価値モデルと組み合わせることで推論中のパフォーマンスを向上させることができるが、自己検索を通じてモデルのパフォーマンスを反復的に向上させることは依然として大きな課題である。

5 Conclusion, Limitations, and Future Work

本研究では、強化学習を通じてモデルの推論能力を向上させる取り組みについて述べた。DeepSeek-R1-Zeroは、コールドスタートデータに依存しない純粋な強化学習アプローチを代表し、様々なタスクで優れた性能を達成した。DeepSeek-R1は、コールドスタートデータと反復的な強化学習ファインチューニングを活用することで、より強力な性能を発揮し、最終的にOpenAI-01-1217と同等の性能を様々なタスクで達成した。

さらに、推論能力を小さな密なモデルに蒸留する可能性を検討した。DeepSeek-R1を教師モデルとして使用し、800Kの学習サンプルを生成し、いくつかの小さな密なモデルをファインチューニングした。その結果、有望な結果が得られ、DeepSeek-R1-Distill-Qwen-1.5Bは、AIMEで28.9%、MATHで83.9%と、数学ベンチマークにおいてGPT-4oやClaude-3.5-Sonnetを上回る性能を示した。他の密なモデルも同様に優れた結果を達成し、同じ基盤チェックポイントに基づいた他の命令チューニングモデルを大幅に上回った。

今後の研究では、DeepSeek-R1の以下の側面について研究を深める予定である。

汎用能力: 現在、DeepSeek-R1の能力は、関数呼び出し、マルチターン、複雑なロールプレイング、JSON出力などのタスクにおいてDeepSeek-V3に及ばない。今後は、これらの分野におけるタスクを強化するために、長いCoTをどのように活用できるかを検討する。
言語混合: DeepSeek-R1は現在、中国語と英語に最適化されており、他の言語でクエリを処理する際に言語混合の問題が生じる可能性がある。例えば、クエリが英語や中国語以外の言語であっても、推論や応答に英語を使用する可能性がある。この制限を将来のアップデートで対処することを目指す。
プロンプトエンジニアリング: DeepSeek-R1を評価する際、プロンプトに敏感であることが観察された。少数の例を用いたプロンプトは一貫して性能を低下させる。したがって、最適な結果を得るためには、ユーザーが問題を直接記述し、ゼロショット設定を使用して出力形式を指定することを推奨する。
ソフトウェアエンジニアリングタスク: 長い評価時間によりRLプロセスの効率が低下するため、大規模なRLはソフトウェアエンジニアリングタスクに広く適用されていない。その結果、DeepSeek-R1はソフトウェアエンジニアリングベンチマークにおいてDeepSeek-V3を大幅に改善できていない。今後のバージョンでは、ソフトウェアエンジニアリングデータに対するリジェクションサンプリングを実装するか、RLプロセス中に非同期評価を組み込むことで、この問題に対処する予定である。

A Contributions and Acknowledgments

DeepSeek-R1の開発に貢献した人々が、役割ごとにアルファベット順で記載されている。コア貢献者、貢献者、および退職したメンバーが明記されている。

七誌の開発日記

AIで論文を読む: DeepSeek-R1