DeepSeek-V2 に関する論文を Gemini Paper Summarizer で要約しました。

DeepSeek-AI, Liu, A., Feng, B., Wang, B., Wang, B., Liu, B., … Xie, Z. (2024). DeepSeek-V2: A strong, economical, and efficient Mixture-of-Experts language model.

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

DeepSeek の要約シリーズです。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 Introduction

2 Architecture

2.1. Multi-Head Latent Attention: 推論効率の向上

2.1.1. 準備: 標準的なMulti-Head Attention

2.1.2. 低ランクKey-Value結合圧縮

2.1.3. 分離された回転位置埋め込み

2.1.4. Key-Valueキャッシュの比較

2.2. DeepSeekMoE: 経済的なコストで強力なモデルを訓練

2.2.1. 基本アーキテクチャ

2.2.2. デバイス制限ルーティング

2.2.3. 負荷分散のための補助損失

2.2.4. トークンドロップ戦略

3 Pre-Training

3.1 実験設定

3.1.1 データ構築

3.1.2 ハイパーパラメータ

3.1.3 インフラストラクチャ

3.1.4 長いコンテキストの拡張

3.2 評価

3.2.1 評価ベンチマーク

3.2.2 評価結果

3.2.3 トレーニングと推論の効率

4 Alignment

4.1 教師ありファインチューニング (Supervised Fine-Tuning, SFT)

4.2 強化学習 (Reinforcement Learning, RL)

4.3 評価結果

4.4 考察

5 Conclusion, Limitation, and Future Work

A Contributions and Acknowledgments

B DeepSeek-V2-Lite: A 16B Model Equipped with MLA and DeepSeekMoE

B.1. モデルの説明

B.2. パフォーマンス評価

C Full Formulas of MLA

D Ablation of Attention Mechanisms

D.1 MHA、GQA、MQAのアブレーション

D.2 MLAとMHAの比較

E Discussion About Pre-Training Data Debiasing

F Additional Evaluations on Math and Code

G Evaluation Formats

Abstract

DeepSeek-V2は、経済的な学習と効率的な推論を特徴とする強力なMixture-of-Experts（MoE）言語モデルである。総計236Bのパラメータを持ち、各トークンに対して21Bがアクティブになり、128Kトークンのコンテキスト長をサポートする。DeepSeek-V2は、Multi-head Latent Attention（MLA）やDeepSeekMoEといった革新的なアーキテクチャを採用している。MLAは、Key-Value（KV）キャッシュを潜在ベクトルに大幅に圧縮することで効率的な推論を保証し、DeepSeekMoEは、スパース計算を通じて経済的なコストで強力なモデルを学習することを可能にする。DeepSeek 67Bと比較して、DeepSeek-V2は大幅に強力なパフォーマンスを達成し、同時に学習コストを42.5%削減、KVキャッシュを93.3%削減し、最大生成スループットを5.76倍に向上させる。DeepSeek-V2は、8.1Tトークンからなる高品質でマルチソースなコーパスで事前学習を行い、その潜在能力を完全に引き出すために、教師ありファインチューニング（SFT）と強化学習（RL）をさらに実施している。評価結果は、21Bのアクティブパラメータのみを使用した場合でも、DeepSeek-V2とそのチャットバージョンが、オープンソースモデルの中でトップクラスのパフォーマンスを達成していることを示している。モデルのチェックポイントは、https://github.com/deepseek-ai/DeepSeek-V2 で入手可能である。

概要

DeepSeek-V2は、2360億のパラメータを持ち、210億のパラメータを各トークンでアクティブ化するMoE言語モデルであり、MLAとDeepSeekMoEという革新的なアーキテクチャにより、経済的な学習コストと効率的な推論を実現し、既存のオープンソースモデルを凌駕する性能を示す。

問題意識

この論文は、大規模言語モデル（LLM）の学習における計算コストの増大と、推論時のスループット低下という課題を解決しようとしている。具体的には、以下の2つの主要な問題に取り組んでいる。

推論効率のボトルネックとなるKVキャッシュの削減: 従来のTransformerモデルでは、推論時に大量のキー・バリュー（KV）キャッシュが必要となり、これが推論速度のボトルネックとなっていた。この問題を解決するために、論文ではMulti-head Latent Attention（MLA）という新しい注意機構を提案し、KVキャッシュを大幅に削減している。
MoEモデルの学習コストの削減: 論文では、DeepSeekMoEという新しいMoE（Mixture-of-Experts）アーキテクチャを採用することで、従来のMoEアーキテクチャよりも効率的にモデルを学習できるようにしている。これにより、少ない計算コストで強力なモデルを学習することが可能になる。

これらの技術を組み合わせることで、論文では、強力な性能を持ちながら、学習コストが経済的で、推論効率の高い新しいLLMであるDeepSeek-V2を提案している。

手法

この論文では、DeepSeek-V2という大規模言語モデルにおいて、効率的な学習と推論を実現するための2つの主要な手法を提案する。

Multi-head Latent Attention (MLA): これは、推論時のボトルネックとなるKey-Value (KV)キャッシュを圧縮する新しい注意機構である。低ランク近似を用いてKVキャッシュを潜在ベクトルに圧縮することで、推論効率を大幅に向上させる。従来のMulti-Head Attention (MHA)と比較して、より少ないメモリで同等以上の性能を実現する。
DeepSeekMoE: これは、Feed-Forward Network (FFN) において、より細かい粒度で専門家を分割し、一部の専門家を共有することで、経済的なコストで強力なモデルを学習できるようにするMoE (Mixture-of-Experts) アーキテクチャである。これにより、従来のMoEアーキテクチャよりも高い専門性を引き出し、効率的な学習を可能にする。

これらの2つの手法を組み合わせることで、DeepSeek-V2は、強力な性能、経済的な学習コスト、効率的な推論を実現する。

新規性

この論文では、DeepSeek-V2という新しい大規模言語モデルが提案されており、その主な新規性は以下の3点に集約される。

Multi-head Latent Attention (MLA) の導入: 従来のMulti-Head Attention (MHA)機構の代わりに、低ランクのキー・バリュー結合圧縮を用いたMLAを導入することで、推論時のKVキャッシュを大幅に削減し、効率的な推論を実現している。これにより、MHAと同等以上の性能を維持しつつ、メモリ使用量を削減し、推論速度を向上させている。
DeepSeekMoEアーキテクチャの採用: Feed-Forward Networks (FFN)において、より細かい粒度での専門家分割と、共有専門家の導入を特徴とするDeepSeekMoEアーキテクチャを採用することで、従来のMoEアーキテクチャよりも経済的なコストで強力なモデルを訓練することを可能にしている。これにより、計算コストを抑えつつ、専門家間の知識の重複を軽減し、モデルの能力を向上させている。
経済的な訓練と効率的な推論: 上記のMLAとDeepSeekMoEの組み合わせにより、DeepSeek-V2は、従来のDeepSeek 67Bと比較して、訓練コストを42.5%削減、KVキャッシュを93.3%削減、最大生成スループットを5.76倍に向上させている。これらの改善により、より少ない計算資源で同等以上の性能を実現し、実用的な利用を促進している。

これらの新規性により、DeepSeek-V2は、オープンソースのMoE言語モデルの中でもトップクラスの性能を達成し、経済的な訓練と効率的な推論を両立したモデルとして、注目される。

章構成

1 Introduction
2 Architecture
- 2.1 Multi-Head Latent Attention: Boosting Inference Efficiency
  - 2.1.1 Preliminaries: Standard Multi-Head Attention
  - 2.1.2 Low-Rank Key-Value Joint Compression
  - 2.1.3 Decoupled Rotary Position Embedding
  - 2.1.4 Comparison of Key-Value Cache
- 2.2 DeepSeekMoE: Training Strong Models at Economical Costs
  - 2.2.1 Basic Architecture
  - 2.2.2 Device-Limited Routing
  - 2.2.3 Auxiliary Loss for Load Balance
  - 2.2.4 Token-Dropping Strategy
3 Pre-Training
- 3.1 Experimental Setups
  - 3.1.1 Data Construction
  - 3.1.2 Hyper-Parameters
  - 3.1.3 Infrastructures
  - 3.1.4 Long Context Extension
- 3.2 Evaluations
  - 3.2.1 Evaluation Benchmarks
  - 3.2.2 Evaluation Results
  - 3.2.3 Training and Inference Efficiency
4 Alignment
- 4.1 Supervised Fine-Tuning
- 4.2 Reinforcement Learning
- 4.3 Evaluation Results
- 4.4 Discussion
5 Conclusion, Limitation, and Future Work
A Contributions and Acknowledgments
B DeepSeek-V2-Lite: A 16B Model Equipped with MLA and DeepSeekMoE
- B.1 Model Description
- B.2 Performance Evaluation
C Full Formulas of MLA
D Ablation of Attention Mechanisms
- D.1 Ablation of MHA, GQA, and MQA
- D.2 Comparison Between MLA and MHA
E Discussion About Pre-Training Data Debiasing
F Additional Evaluations on Math and Code
G Evaluation Formats

1 Introduction

近年、大規模言語モデル（LLM）は急速に発展し、人工汎用知能（AGI）の夜明けを予感させる。一般的に、LLMの知能はパラメータ数が増加するにつれて向上し、様々なタスクで創発的な能力を示す。しかし、その改善は、トレーニングのための計算資源の増大と推論スループットの潜在的な低下を犠牲にする。これらの制約は、LLMの普及を妨げる重大な課題である。この問題に対処するため、我々は、経済的なトレーニングと効率的な推論を特徴とする、革新的なTransformerアーキテクチャを用いた強力なオープンソースの混合エキスパート（MoE）言語モデルであるDeepSeek-V2を導入する。総パラメータ数は236Bで、各トークンに対して21Bがアクティブになり、128Kトークンのコンテキスト長をサポートする。

Transformerフレームワーク内の注意モジュールとフィードフォワードネットワーク（FFN）を、提案するMulti-head Latent Attention（MLA）とDeepSeekMoEで最適化する。 1. 注意機構の文脈では、Multi-Head Attention（MHA）のKey-Value（KV）キャッシュは、LLMの推論効率を妨げる大きな障害となる。様々なアプローチがこの問題に対処するために探求されてきたが、多くの場合、KVキャッシュを削減しようとすると性能が損なわれる。両方の長所を達成するために、我々は低ランクのキーと値の結合圧縮を備えた注意機構であるMLAを導入する。経験的に、MLAはMHAと比較して優れた性能を達成し、同時に推論中のKVキャッシュを大幅に削減し、推論効率を向上させる。 2. フィードフォワードネットワーク（FFN）については、より高度な専門化とより正確な知識獲得のために、微細なエキスパートセグメンテーションと、ルーティングされたエキスパート間の知識冗長性を軽減するための共有エキスパート分離を採用するDeepSeekMoEアーキテクチャに従う。DeepSeekMoEアーキテクチャは、従来のMoEアーキテクチャと比較して大きな利点を示し、経済的なコストで強力なモデルをトレーニングすることを可能にする。トレーニング中にエキスパート並列処理を採用する際には、通信オーバーヘッドを制御し、負荷分散を確保するための補助メカニズムも考案する。

これらの2つの技術を組み合わせることで、DeepSeek-V2は、強力なパフォーマンス、経済的なトレーニングコスト、効率的な推論スループットを同時に実現する。

8.1Tトークンで構成される高品質でマルチソースの事前トレーニングコーパスを構築する。DeepSeek 67B（以前のリリース）で使用されたコーパスと比較して、このコーパスは、特に中国語データとより高品質なデータが拡張されている。最初に、完全な事前トレーニングコーパスでDeepSeek-V2を事前トレーニングする。次に、数学、コード、ライティング、推論、安全性など、さまざまなドメインを網羅した150万件の会話セッションを収集し、DeepSeek-V2 Chat（SFT）の教師あり微調整（SFT）を実行する。最後に、DeepSeekMathに従い、Group Relative Policy Optimization（GRPO）を採用して、モデルを人間の好みにさらに合わせ、DeepSeek-V2 Chat（RL）を生成する。

DeepSeek-V2を英語と中国語の幅広いベンチマークで評価し、代表的なオープンソースモデルと比較する。評価結果は、アクティブ化されたパラメータが21Bしかない場合でも、DeepSeek-V2はオープンソースモデルの中でトップレベルのパフォーマンスを達成し、最強のオープンソースMoE言語モデルになることを示している。MMLUでは、DeepSeek-V2はわずかなアクティブ化パラメータ数でトップランクのパフォーマンスを達成する。さらに、DeepSeek 67Bと比較して、DeepSeek-V2はトレーニングコストを42.5％削減し、KVキャッシュを93.3％削減し、最大生成スループットを5.76倍に向上させる。DeepSeek-V2 Chat（SFT）とDeepSeek-V2 Chat（RL）も評価する。

2 Architecture

DeepSeek-V2は、Transformerアーキテクチャをベースにしているが、アテンションモジュールとFeed-Forward Network (FFN) に革新的な構造を採用している。

2.1. Multi-Head Latent Attention: 推論効率の向上

従来のTransformerモデルで用いられるMulti-Head Attention (MHA) は、生成時にKey-Value (KV) キャッシュがボトルネックとなり、推論効率を制限する。KVキャッシュを削減するために、Multi-Query Attention (MQA) やGrouped-Query Attention (GQA) が提案されているが、性能面でMHAに劣る。

DeepSeek-V2では、Multi-head Latent Attention (MLA) という革新的なアテンション機構を導入する。MLAは、低ランクのKey-Valueの結合圧縮を用いることで、MHAよりも優れた性能を維持しつつ、KVキャッシュを大幅に削減し、推論効率を向上させる。

2.1.1. 準備: 標準的なMulti-Head Attention

標準的なMHAのメカニズムを説明する。埋め込み次元を $d$ 、アテンションヘッド数を $n_h$ 、ヘッドごとの次元を $d_h$ とし、アテンション層における $t$ 番目のトークンの入力を $h_t \in \mathbb{R}^d$ とする。MHAは、まず3つの行列 $W^Q, W^K, W^V \in \mathbb{R}^{d_h n_h \times d}$ を用いて、 $q_t, k_t, v_t \in \mathbb{R}^{d_h n_h}$ を生成する。

$q_t = W^Q h_t$ $k_t = W^K h_t$ $v_t = W^V h_t$

2.1.2. 低ランクKey-Value結合圧縮

MLAの中核は、KVキャッシュを削減するための低ランク結合圧縮である。キーと値を圧縮した潜在ベクトルを $c_{KV} \in \mathbb{R}^{d_c}$ 、圧縮次元を $d_c$ 、ダウン射影行列を $W^{DKV} \in \mathbb{R}^{d_c \times d}$ 、アップ射影行列を $W^{UK}, W^{UV} \in \mathbb{R}^{d_h n_h \times d_c}$ とすると、圧縮されたキーと値は以下のように計算される。

$c_{KV} = W^{DKV} h_t$ $k = W^{UK} c_{KV}$ $v = W^{UV} c_{KV}$

推論時には、 $c_{KV}$ のみをキャッシュすればよく、KVキャッシュのサイズが大幅に削減される。さらに、 $W^{UK}$ と $W^{UV}$ はそれぞれ出力射影行列 $W^O$ に吸収できるため、推論時にキーと値を計算する必要もない。

2.1.3. 分離された回転位置埋め込み

DeepSeek-V2では、回転位置埋め込み (RoPE) を使用するが、低ランクKV圧縮と組み合わせる場合、RoPEはキーとクエリの両方に対して位置依存性を持つため、推論時にキーを再計算する必要が生じる。この問題を解決するために、MLAでは分離されたRoPE戦略を採用する。追加のマルチヘッドクエリ $q^R \in \mathbb{R}^{d_e}$ と共有キー $k^R \in \mathbb{R}^{d_e}$ を用いて、RoPEを適用する。ここで、 $d_e$ は分離されたクエリとキーのヘッドごとの次元である。

2.1.4. Key-Valueキャッシュの比較

異なるアテンション機構におけるトークンごとのKVキャッシュの比較を表1に示す。MLAは、GQA（グループ数2.25）と同程度の小さなKVキャッシュしか必要としないが、MHAよりも優れた性能を発揮する。

2.2. DeepSeekMoE: 経済的なコストで強力なモデルを訓練

FFNには、DeepSeekMoEアーキテクチャを採用する。DeepSeekMoEは、より細かい粒度での専門家セグメンテーションと、ルーティングされた専門家間の知識の冗長性を軽減するための共有専門家の分離という2つの重要なアイデアを持つ。これにより、従来のMoEアーキテクチャよりも経済的なコストで強力なモデルを訓練できる。

2.2.1. 基本アーキテクチャ

$t$ 番目のトークンのFFN入力を $u_t$ とすると、FFNの出力 $h_t$ は以下のように計算される。

$h_t = u_t + \sum_{i=1}^{N_s} g_{i,t} FFN^{(s)}_i(u_t) + \sum_{i=1}^{N_r} g_{i,t} FFN^{(r)}_i(u_t)$

ここで、 $N_s$ と $N_r$ はそれぞれ共有専門家とルーティングされた専門家の数、 $FFN^{(s)}_i(\cdot)$ と $FFN^{(r)}_i(\cdot)$ はそれぞれ $i$ 番目の共有専門家とルーティングされた専門家、 $K_r$ はアクティブなルーティングされた専門家の数、 $g_{i,t}$ は $i$ 番目の専門家のゲート値、 $s_{i,t}$ はトークンと専門家の親和性、 $e_i$ はこの層における $i$ 番目のルーティングされた専門家の重心、 $Topk(\cdot, K)$ は親和性スコアの上位 $K$ 個の集合を表す。

2.2.2. デバイス制限ルーティング

MoE関連の通信コストを制限するために、デバイス制限ルーティングメカニズムを設計する。専門家並列処理を採用する場合、ルーティングされた専門家は複数のデバイスに分散される。各トークンについて、MoE関連の通信頻度は、ターゲット専門家がカバーするデバイスの数に比例する。DeepSeekMoEでは、アクティブな専門家の数が多くなる可能性があるため、専門家並列処理を適用するとMoE関連の通信コストが高くなる。そこで、各トークンのターゲット専門家が最大で $M$ 個のデバイスに分散されるように制限する。

2.2.3. 負荷分散のための補助損失

負荷分散を考慮し、自動的に学習されたルーティング戦略を実現する。不均衡な負荷はルーティングの崩壊のリスクを高め、一部の専門家が十分に訓練されない可能性がある。また、専門家並列処理を採用する場合、不均衡な負荷は計算効率を低下させる。DeepSeek-V2の学習では、専門家レベルの負荷分散損失( $L_{ExpBal}$ )、デバイスレベルの負荷分散損失( $L_{DevBal}$ )、通信負荷分散損失( $L_{CommBal}$ )の3種類の補助損失を設計する。

2.2.4. トークンドロップ戦略

負荷分散損失は負荷のバランスを促進するが、厳密な負荷バランスを保証することはできない。不均衡な負荷による計算の無駄をさらに軽減するために、学習中にデバイスレベルのトークンドロップ戦略を導入する。まず、各デバイスの平均計算予算を計算し、計算予算に達するまで、各デバイスで親和性スコアの低いトークンをドロップする。さらに、学習シーケンスの約10％に属するトークンはドロップされないようにする。

3 Pre-Training

3.1 実験設定

3.1.1 データ構築

DeepSeek-67Bと同様のデータ処理段階を踏襲しつつ、データ量を拡大し、質を向上させた。インターネットデータの潜在能力を調査し、クリーニングプロセスを最適化することで、誤って削除された大量のデータを復元。さらに、中国語データを多く取り込み、中国語インターネットで利用可能なコーパスをより活用。データ量に加え、データ品質にも注力し、様々なソースからの高品質データで事前学習コーパスを充実させると同時に、品質ベースのフィルタリングアルゴリズムを改善。改善されたアルゴリズムにより、有益でないデータが大量に削除され、価値のあるデータがほぼ保持されるように。また、特定の地域文化から生じるデータバイアスを軽減するため、事前学習コーパスから議論の余地のあるコンテンツをフィルタリング。

3.1.2 ハイパーパラメータ

Transformerレイヤー数を60、隠れ次元を5120に設定。すべての学習可能なパラメータは、標準偏差0.006でランダムに初期化。MLAでは、アテンションヘッド数nhを128、ヘッドごとの次元dhを128に設定。KV圧縮次元dcを512、クエリ圧縮次元d'qを1536に設定。分離されたクエリとキーに対して、ヘッドごとの次元deを64に設定。Daiらの研究に従い、最初のレイヤーを除くすべてのFFNをMoEレイヤーに置換。各MoEレイヤーは、2つの共有エキスパートと160のルーテッドエキスパートで構成され、各エキスパートの中間隠れ次元は1536。ルーテッドエキスパートのうち、各トークンに対して6つのエキスパートがアクティブ化。さらに、低ランク圧縮と細粒度のエキスパートセグメンテーションは、レイヤーの出力スケールに影響を与えるため、実際には、圧縮された潜在ベクトルの後にRMS Normレイヤーを追加し、安定したトレーニングを確保するために、幅のボトルネック（圧縮された潜在ベクトルとルーテッドエキスパートの中間隠れ状態）で追加のスケーリングファクターを乗算。この構成の下で、DeepSeek-V2は合計236Bのパラメータで構成され、そのうち21Bが各トークンに対してアクティブ化。

3.1.3 インフラストラクチャ

DeepSeek-V2は、エンジニアが内部で開発した効率的で軽量なトレーニングフレームワークであるHAI-LLMフレームワークに基づいてトレーニング。16方向のゼロバブルパイプライン並列処理、8方向のエキスパート並列処理、およびZeRO-1データ並列処理を採用。DeepSeek-V2はアクティブ化されたパラメータが比較的少なく、一部のオペレーターはアクティベーションメモリを節約するために再計算されるため、テンソル並列処理の必要なしにトレーニング可能であり、通信オーバーヘッドが減少。さらに、トレーニング効率を向上させるために、共有エキスパートの計算をエキスパート並列のall-to-all通信とオーバーラップ。また、通信、ルーティングアルゴリズム、および融合された線形計算のために、より高速なCUDAカーネルをカスタマイズ。

3.1.4 長いコンテキストの拡張

DeepSeek-V2の初期事前学習後、YaRNを用いてデフォルトのコンテキストウィンドウ長を4Kから128Kに拡張。YaRNは、ROPEを担う分離された共有キーkに特に適用。YaRNでは、スケールsを40、aを1、βを32、ターゲット最大コンテキスト長を160Kに設定。これらの設定の下で、モデルが128Kのコンテキスト長に対して適切に応答することが期待。独自のアテンションメカニズムのため、アテンションエントロピーを調整するために、長さスケーリングファクターを調整。ファクター√tは√t = 0.0707 ln s + 1として計算し、パープレキシティを最小化。

さらに、32Kのシーケンス長と576シーケンスのバッチサイズで、モデルを1000ステップトレーニング。トレーニングは32Kのシーケンス長でのみ実施されるが、モデルは128Kのコンテキスト長で評価した場合でも堅牢なパフォーマンスを発揮。「Needle In A Haystack」（NIAH）テストの結果が示すように、DeepSeek-V2は最大128Kまでのすべてのコンテキストウィンドウ長で良好なパフォーマンスを発揮。

3.2 評価

3.2.1 評価ベンチマーク

DeepSeek-V2は、バイリンガルコーパスで事前学習されているため、英語と中国語の一連のベンチマークで評価。評価は、内部評価フレームワークに基づいており、以下のカテゴリに分類。

多肢選択式: MMLU, C-Eval, CMMLU
言語理解と推論: HellaSwag, PIQA, ARC, BBH
クローズドブック質問応答: TriviaQA, NaturalQuestions
読解: RACE, DROP, C3, CMRC
参照曖昧性解消: WinoGrande, CLUEWSC
言語モデリング: Pile
中国語理解と文化: CHID, CCPM
数学: GSM8K, MATH, CMath
コード: HumanEval, MBPP, CRUXEval
標準化試験: AGIEval

HellaSwag, PIQA, WinoGrande, RACE-Middle, RACE-High, MMLU, ARC-Easy, ARC-Challenge, CHID, C-Eval, CMMLU, C3、CCPMなどのデータセットにはパープレキシティベースの評価を採用し、TriviaQA, NaturalQuestions, DROP, MATH, GSM8K, HumanEval, MBPP, CRUXEval, BBH, AGIEval, CLUEWSC, CMRC, CMathには生成ベースの評価を採用。また、Pile-testには言語モデリングベースの評価を実施し、異なるトークナイザーを持つモデル間で公平な比較を保証するためのメトリックとしてBits-Per-Byte（BPB）を使用。

3.2.2 評価結果

DeepSeek-V2を、DeepSeek 67B、Qwen1.5 72B、LLaMA3 70B、Mixtral 8x22Bなどの代表的なオープンソースモデルと比較。すべてのモデルは、内部評価フレームワークで評価し、同じ評価設定を共有。21Bのアクティブ化されたパラメータのみで、DeepSeek-V2は、ほぼすべてのベンチマークでDeepSeek 67Bを大幅に上回り、オープンソースモデルの中でトップクラスのパフォーマンスを達成。

Qwen1.5 72Bと比較すると、DeepSeek-V2は、英語、コード、および数学ベンチマークの大部分で圧倒的な優位性を示す。中国語ベンチマークに関しては、Qwen1.5 72Bが多肢選択タスクでより優れたパフォーマンスを示す。Mixtral 8x22Bと比較すると、DeepSeek-V2は、TriviaQA, NaturalQuestions, HellaSwagを除いて、同等またはより優れた英語パフォーマンスを達成。特に、DeepSeek-V2はMMLUでMixtral 8x22Bを上回る。コードと数学ベンチマークでは、DeepSeek-V2はMixtral 8x22Bと同等のパフォーマンスを示す。Mixtral 8x22Bは中国語データで特にトレーニングされていないため、DeepSeek-V2と比較して中国語能力が大幅に遅れている。LLaMA3 70Bと比較すると、DeepSeek-V2は英語トークン数が4分の1未満でトレーニングされているため、基本的な英語能力でわずかな差があるものの、コードと数学能力では同等の結果を示し、バイリンガル言語モデルとしてLLaMA3を上回る。

3.2.3 トレーニングと推論の効率

DeepSeek-V2は、各トークンに対してアクティブ化されるパラメータが少なく、DeepSeek 67Bよりも少ないFLOPを必要とするため、トレーニングコストは理論的にはDeepSeek 67Bよりも経済的。MoEモデルのトレーニングは追加の通信オーバーヘッドが発生するが、オペレーターと通信の最適化により、DeepSeek-V2のトレーニングは比較的高いModel FLOPs Utilization（MFU）を達成。H800クラスターでの実際のトレーニングでは、1兆トークンごとに、DeepSeek 67Bは300.6K GPU時間を必要とするのに対し、DeepSeek-V2は172.8K GPU時間のみを必要とし、DeepSeek-V2はDeepSeek 67Bと比較して42.5％のトレーニングコストを節約。

DeepSeek-V2を効率的にサービス展開するために、まずパラメータをFP8の精度に変換。さらに、DeepSeek-V2のKVキャッシュの各要素を平均6ビットに圧縮するために、KVキャッシュ量子化を実行。MLAとこれらの最適化により、実際に展開されたDeepSeek-V2はDeepSeek 67Bよりも大幅に少ないKVキャッシュを必要とし、より大きなバッチサイズを処理可能。DeepSeek-V2の生成スループットを、実際に展開されたDeepSeek 67Bサービスからのプロンプトと生成長分布に基づいて評価。8つのH800 GPUを搭載した単一ノードで、DeepSeek-V2は1秒あたり50Kトークンを超える生成スループットを達成。これはDeepSeek 67Bの最大生成スループットの5.76倍。さらに、DeepSeek-V2のプロンプト入力スループットは、1秒あたり100Kトークンを超える。

4 Alignment

4.1 教師ありファインチューニング (Supervised Fine-Tuning, SFT)

DeepSeek-AI の以前の研究に基づき、150万件のインスタンスからなるインストラクションチューニングデータセットをキュレーションした。これには、120万件の有用性に関するインスタンスと、30万件の安全性に関するインスタンスが含まれる。初期バージョンと比較して、データの品質を向上させ、幻覚的な応答を軽減し、文章作成能力を強化した。DeepSeek-V2 を2エポックでファインチューニングし、学習率は 5 × 10⁻⁶ に設定した。DeepSeek-V2 Chat (SFT) の評価では、いくつかの代表的な多肢選択式タスク (MMLU や ARC) を除き、主に生成ベースのベンチマークを使用した。また、プロンプトレベルの緩い精度を指標として、DeepSeek-V2 Chat (SFT) のインストラクション追従評価 (IFEval) を実施した。さらに、2023年9月1日から2024年4月1日までの LiveCodeBench の質問を使用して、チャットモデルを評価した。標準的なベンチマークに加えて、MT-Bench、AlpacaEval 2.0、AlignBench を含むオープンエンドな会話ベンチマークでモデルを評価した。比較のため、Qwen1.5 72B Chat、LLaMA-3-70B Instruct、Mistral-8x22B Instruct も評価フレームワークと設定で評価した。DeepSeek 67B Chat については、以前のリリースで報告された評価結果を直接参照した。

4.2 強化学習 (Reinforcement Learning, RL)

DeepSeek-V2 の潜在能力をさらに引き出し、人間の好みに合わせるために、強化学習 (RL) を実施して、モデルの好みを調整した。RL のトレーニングコストを削減するため、グループ相対ポリシー最適化 (GRPO) を採用した。これは、通常ポリシーモデルと同じサイズのクリティックモデルを放棄し、代わりにグループスコアからベースラインを推定する。具体的には、各質問 q に対して、GRPO は古いポリシー πθold から出力のグループ {o₁, o₂,..., oG} をサンプリングし、次の目的関数を最大化することでポリシーモデル πθ を最適化する。

$ J_{GRPO}(\theta) = \mathbb{E}_{q \sim P(Q), \{o_i\}_{i=1}^G \sim \pi_{\theta_{old}}(O|q)} \frac{1}{G} \sum_{i=1}^G \left( \min \left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, clip \left( \frac{\pi_{\theta}(o_i|q)}{\pi_{\theta_{old}}(o_i|q)}, 1-\epsilon, 1+\epsilon \right) \right) A_i - \beta D_{KL}(\pi_{\theta} || \pi_{ref}) \right) $

ここで、εとβはハイパーパラメータであり、Aiはグループ内の出力に対応する報酬{r₁, r₂,..., rG}を使用して計算されるアドバンテージである。

$ A_i = \frac{r_i - mean(\{r_1, r_2, ..., r_G\})}{std(\{r_1, r_2, ..., r_G\})} $

予備実験では、コードや数学プロンプトなどの推論データに関する RL トレーニングは、一般的なデータに関するトレーニングとは異なる独自の特徴を示すことがわかった。例えば、モデルの数学的およびコーディング能力は、トレーニングステップのより長い期間にわたって改善し続けることができる。したがって、まず推論アラインメントを実行し、次に人間の好みのアラインメントを実行する2段階の RL トレーニング戦略を採用した。最初の推論アラインメント段階では、コードと数学の推論タスクの報酬モデル RMreasoning をトレーニングし、RMreasoning のフィードバックを使用してポリシーモデルを最適化した。

$ r_i = RM_{reasoning}(o_i) $

2番目の人間の好みのアラインメント段階では、役立つ報酬モデル RMhelpful、安全報酬モデル RMsafety、およびルールベースの報酬モデル RMrule から報酬を取得するマルチ報酬フレームワークを採用した。応答 oᵢ の最終的な報酬は次のとおり。

$ r_i = c_1 \cdot RM_{helpful}(o_i) + c_2 \cdot RM_{safety}(o_i) + c_3 \cdot RM_{rule}(o_i) $

ここで、c₁, c₂, c₃ は対応する係数である。RL トレーニングで重要な役割を果たす信頼性の高い報酬モデルを取得するために、選好データを慎重に収集し、品質フィルタリングと割合調整を綿密に実施した。報酬モデルトレーニングでは、DeepSeek-V2 Chat (SFT) で報酬モデルを初期化し、ポイントワイズ損失またはペアワイズ損失のいずれかでトレーニングした。実験では、RL トレーニングがモデルの潜在能力を最大限に引き出し、可能な応答から正しく満足のいく回答を選択できるようにすることがわかった。

4.3 評価結果

標準的なベンチマークでの評価では、DeepSeek-V2 Chat (SFT) は、ベースバージョンと比較して、GSM8K、MATH、および HumanEval の評価で大幅な改善を示した。この進歩は、数学とコードに関連するコンテンツのかなりの量を含む SFT データの包含に起因する可能性がある。さらに、DeepSeek-V2 Chat (RL) は、数学とコードのベンチマークでパフォーマンスをさらに向上させた。他のモデルとの比較では、まず DeepSeek-V2 Chat (SFT) と Qwen1.5 72B Chat を比較したところ、DeepSeek-V2 Chat (SFT) は、ほぼすべての英語、数学、およびコードのベンチマークで Qwen1.5 72B Chat を上回っていることがわかった。中国語のベンチマークでは、DeepSeek-V2 Chat (SFT) は、ベースバージョンで観察されたパフォーマンスと一致して、多肢選択式タスクで Qwen1.5 72B Chat よりもわずかに低いスコアを示した。最先端のオープンソース MoE モデルである Mixtral 8x22B Instruct と比較すると、DeepSeek-V2 Chat (SFT) は、NaturalQuestions と IFEval を除き、ほとんどのベンチマークで優れたパフォーマンスを示した。さらに、最先端のオープンソースモデルである LLaMA3 70B Chat と比較すると、DeepSeek-V2 Chat (SFT) は、コードと数学関連のベンチマークで同様のパフォーマンスを示した。LLaMA3 70B Chat は MMLU と IFEval で優れたパフォーマンスを示したが、DeepSeek-V2 Chat (SFT) は中国語タスクでより強力なパフォーマンスを示した。最終的に、DeepSeek-V2 Chat (RL) は、DeepSeek-V2 Chat (SFT) と比較して、数学的およびコーディングタスクの両方でさらに強化されたパフォーマンスを示した。これらの比較は、さまざまなドメインと言語における他の言語モデルと比較した DeepSeek-V2 Chat の強みを強調している。

オープンエンドな生成に関する評価では、英語のオープンエンドな会話生成に MT-Bench と AlpacaEval 2.0 をベンチマークとして使用した。表4に示す評価結果は、DeepSeek-V2 Chat (SFT) を上回る DeepSeek-V2 Chat (RL) の大幅なパフォーマンスの優位性を示している。この結果は、改善されたアラインメントを達成する上での RL トレーニングの有効性を示している。他のオープンソースモデルと比較すると、DeepSeek-V2 Chat (RL) は、両方のベンチマークで Mistral 8x22B Instruct と Qwen1.5 72B Chat を上回る優れたパフォーマンスを示した。LLaMA3 70B Instruct と比較すると、DeepSeek-V2 Chat (RL) は、MT-Bench で競争力のあるパフォーマンスを示し、AlpacaEval 2.0 ではそれを大幅に上回った。これらの結果は、特にインストラクションベースの会話タスクにおいて、高品質で文脈に関連性のある応答を生成する上での DeepSeek-V2 Chat (RL) の強力なパフォーマンスを強調している。

さらに、AlignBench に基づいて中国語のオープンエンドな生成能力を評価した。表5に示すように、DeepSeek-V2 Chat (RL) は、DeepSeek-V2 Chat (SFT) よりもわずかに優位性を示した。特に、DeepSeek-V2 Chat (SFT) は、すべてのオープンソース中国語モデルを大幅に上回った。2番目に優れたオープンソースモデルである Qwen1.5 72B Chat を大幅に上回っている。さらに、DeepSeek-V2 Chat (SFT) と DeepSeek-V2 Chat (RL) の両方が GPT-4-0613 と ERNIEBot 4.0 を上回り、中国語をサポートするトップティア LLM におけるモデルの位置を確固たるものにした。特に、DeepSeek-V2 Chat (RL) は、中国語の言語理解において卓越したパフォーマンスを示し、GPT-4-Turbo-1106-Preview を含むすべてのモデルを上回った。一方、DeepSeek-V2 Chat (RL) の推論能力は、Erniebot-4.0 や GPT-4s などの巨大モデルには依然として遅れをとっている。

4.4 考察

SFT データの量に関する議論では、過去の研究では、1万件未満の SFT データインスタンスで十分な結果が得られると主張されているが、実験では、1万件未満のインスタンスを使用すると、IFEval ベンチマークでパフォーマンスが大幅に低下することがわかった。これは、言語モデルが特定のスキルを開発するためには一定量のデータを必要とする可能性があることを示唆している。必要なデータ量はモデルサイズが増加するにつれて減少する可能性があるが、完全に排除することはできない。この観察は、LLM に必要な機能を装備するために十分なデータが必要であることを強調している。さらに、特に記述やオープンエンドな質問を含むタスクでは、SFT データの品質も重要である。

強化学習のアラインメント税 (alignment tax) については、人間による評価と AI による評価の両方で評価されたスコアの観点から、オープンエンドな生成ベンチマークでパフォーマンスが大幅に向上することがわかった。ただし、アラインメントプロセスは、BBH などの一部の標準ベンチマークのパフォーマンスに悪影響を与える可能性がある「アラインメント税」の現象にも気づいた。アラインメント税を軽減するために、RL 段階で、データ処理とトレーニング戦略の改善に多大な努力を払い、最終的に標準ベンチマークとオープンエンドベンチマークの両方で許容できるトレードオフを達成した。モデルを人間の好みに合わせる方法を、一般的なパフォーマンスを損なうことなく探求することは、将来の研究にとって価値のある方向性を示す。

選好アラインメント実験では、オンラインアプローチがオフラインアプローチを大幅に上回ることがわかった。したがって、DeepSeek-V2 のアラインメントのためのオンライン RL フレームワークの実装に多大な努力を投資した。オンラインまたはオフラインの選好アラインメントに関する結論は、コンテキストによって異なる可能性があり、今後の作業では、それらの間のより徹底的な比較と分析を予約した。

5 Conclusion, Limitation, and Future Work

本稿では、128Kのコンテキスト長をサポートする大規模MoE言語モデルであるDeepSeek-V2を紹介する。強力な性能に加え、MLAとDeepSeekMoEという革新的なアーキテクチャにより、経済的な学習と効率的な推論を実現している。DeepSeek 67Bと比較して、DeepSeek-V2は大幅に強力な性能を達成し、同時に学習コストを42.5%削減、KVキャッシュを93.3%削減、最大生成スループットを5.76倍に向上させる。評価結果は、21Bの活性化パラメータのみで、DeepSeek-V2がオープンソースモデルの中でトップティアの性能を達成し、最強のオープンソースMoEモデルであることを示している。

DeepSeek-V2とそのチャット版は、他のLLMで一般的に見られる既知の制限事項を共有している。これには、学習後の継続的な知識更新の欠如、未検証のアドバイスなどの事実に基づかない情報を生成する可能性、およびハルシネーションを起こす可能性があることが含まれる。さらに、データは主に中国語と英語のコンテンツで構成されているため、他の言語での能力が制限される可能性がある。中国語と英語以外のシナリオでは、注意して使用する必要がある。

DeepSeekは、長期的な視点を持ち、人工汎用知能の目標に漸進的に近づくことを目指し、オープンソースの大規模モデルに継続的に投資していく。

進行中の調査では、経済的な学習と推論コストを維持しながら、MoEモデルをさらにスケールアップできる方法を考案することに専念する。次のステップの目標は、今後のリリースでGPT-4と同等のパフォーマンスを達成することである。アライメントチームは、世界中のユーザーにとって役立つだけでなく、正直で安全なモデルの開発を目指し、モデルの強化に継続的に努めている。最終的な目標は、人間の監督の必要性を最小限に抑えながら、モデルの価値を人間の価値と一致させることである。倫理的配慮と責任ある開発を優先することにより、社会にポジティブで有益な影響を与えることに専念する。現在、DeepSeek-V2はテキストモダリティのみをサポートするように設計されている。将来を見据えた計画では、モデルが複数のモダリティをサポートできるようにし、より幅広いシナリオでの汎用性と有用性を高めることを目指している。

A Contributions and Acknowledgments

DeepSeek-V2の開発に貢献した研究・エンジニアリングチーム、データアノテーションチーム、ビジネス・コンプライアンスチームのメンバーが列挙されている。

特に、Huazuo GaoとWangding ZengがMLAアーキテクチャの研究において重要な革新を行ったことが言及されている。また、Jianlin Suが位置埋め込みに関する有益な議論を提供したことへの感謝が述べられている。DeepSeek-V2に貢献したが論文に名前が記載されていない人々にも感謝の意が表されている。DeepSeekは、革新性、新規性、好奇心がAGIへの道において不可欠であると信じていると述べられている。

B DeepSeek-V2-Lite: A 16B Model Equipped with MLA and DeepSeekMoE

B.1. モデルの説明

DeepSeek-V2-Liteは、27層と2048の隠れ次元を持つモデルである。MLA（Multi-head Latent Attention）を採用し、16個のアテンションヘッドを持ち、各ヘッドの次元は128である。KV圧縮次元は512であるが、DeepSeek-V2とは異なりクエリは圧縮しない。デカップリングされたクエリとキーに対しては、ヘッドごとの次元は64である。DeepSeekMoEも採用しており、最初の層を除くすべてのFFNがMoE層に置き換えられている。各MoE層は、2つの共有エキスパートと64のルーティングされたエキスパートで構成され、各エキスパートの中間隠れ次元は1408である。ルーティングされたエキスパートのうち、各トークンに対して6つのエキスパートがアクティブになる。この構成により、DeepSeek-V2-Liteは合計15.7Bのパラメータを持ち、各トークンに対して2.4Bがアクティブになる。

B.2. パフォーマンス評価

ベースモデル: DeepSeek-V2-Liteの性能を評価し、表6で以前の小規模ベースモデルと比較している。DeepSeek-V2-Liteは、特に推論、コーディング、数学において、圧倒的な性能の優位性を示している。

チャットモデル: DeepSeek-V2-Liteチャットの性能を評価し、表7で以前の小規模チャットモデルと比較している。DeepSeek-V2-Liteチャットも、以前の小規模チャットモデルを大幅に上回る性能を示している。

C Full Formulas of MLA

MLAの完全な計算プロセスを説明するために、以下の完全な式を提供する。

$c^q_t = W_D^Q h_t$ $[q^1_t; q^2_t; ... ; q^{n_h}_t] = q_t = W_U^Q c^q_t$ $[\tilde{q}^1_t; \tilde{q}^2_t; ... ; \tilde{q}^{n_h}_t] = \tilde{q}_t = RoPE(W_R^Q c^q_t)$ $q_{t,i} = [\tilde{q}^i_t; q^i_t]$ $c^{kv}_t = W_D^{KV} h_t$ $k_t = W_U^K c^{kv}_t$ $\tilde{k}_t = RoPE(W_R^K h_t)$ $k_{t,i} = [\tilde{k}^i_t; k^i_t]$ $[v^1_t; v^2_t; ... ; v^{n_h}_t] = v_t = W_U^V c^{kv}_t$ $o_{t,i} = \sum_{j=1}^t Softmax(\frac{q_{t,i} k_{j,i}}{\sqrt{d_h + d_e}}) v_{j,i}$ $u_t = W^O [o_{t,1}; o_{t,2}; ... ; o_{t,n_h}]$

ここで、青色のボックスで囲まれたベクトルは生成のためにキャッシュされる必要がある。推論中、ナイーブな式は注意のために $c^{kv}_t$ から $k_t$ と $v_t$ を復元する必要がある。幸いなことに、行列乗算の結合法則により、 $W_U^K$ を $W^O$ に、 $W_U^V$ を $W^O$ に吸収することができる。したがって、クエリごとにキーと値を計算する必要はない。この最適化により、推論中の $k_t$ と $v_t$ を再計算するための計算オーバーヘッドを回避できる。

D Ablation of Attention Mechanisms

D.1 MHA、GQA、MQAのアブレーション

表8では、MHA、GQA、MQAをそれぞれ搭載した7Bの密なモデルを、4つの難しいベンチマークで評価した結果を示している。これらの3つのモデルはすべて1.33Tトークンで学習され、注意機構以外は同じアーキテクチャを共有している。公平な比較のために、レイヤー数を調整することで、パラメータ数を約7Bに揃えている。表から、MHAがこれらのベンチマークにおいてGQAやMQAよりも優位であることがわかる。

D.2 MLAとMHAの比較

表9では、MLAとMHAを搭載したMoEモデルの評価結果を、4つの難しいベンチマークで示している。結論を確実なものにするため、2つのスケールでモデルを学習・評価している。2つの小型MoEモデルは約16Bの総パラメータで構成され、1.33Tトークンで学習されている。2つの大型MoEモデルは約250Bの総パラメータで構成され、420Bトークンで学習されている。また、2つの小型MoEモデルと2つの大型MoEモデルは、それぞれ注意機構以外は同じアーキテクチャを共有している。表から、MLAがMHAよりも優れた性能を示すことがわかる。さらに重要なことに、MLAはMHAよりも大幅に少ないKVキャッシュ（小型MoEモデルでは14％、大型MoEモデルでは4％）しか必要としない。

E Discussion About Pre-Training Data Debiasing

事前学習データの準備段階において、特定の地域文化に影響された価値観のような、議論の余地があるコンテンツを特定し、フィルタリングすることで、モデルが不必要な主観的偏りを示すことを避ける。その結果、DeepSeek-V2は、特定の地域文化と密接に関連するテストセットでは、わずかにパフォーマンスが低下する。例えば、MMLUで評価した場合、DeepSeek-V2はMixtral 8x22Bのような競合モデルと比較して、ほとんどのテストセットで同等以上のパフォーマンスを発揮するものの、主にアメリカの価値観に関連するHumanity-Moralサブセットでは、依然として遅れをとっている。

さらに、このサブセットについて手動分析を実施する。3人の教育水準の高い人間アノテーターが、MMLU Humanity-Moralサブセットから420の倫理的シナリオについて独立したアノテーションを実施する。その後、彼らのアノテーションと正解ラベルとの間の合意を計算する。表10に示すように、3人の人間アノテーターと正解ラベルは、互いに低い合意しか示さない。したがって、これらの価値観に敏感なテストセットにおけるDeepSeek-V2の異常なパフォーマンスは、事前学習コーパスの偏りをなくすための取り組みによるものと考える。

F Additional Evaluations on Math and Code

DeepSeek-V2 Chat (RL) は、中国の数学問題からなる SC-Math6 コーパスで評価され、オープンソースとクローズドソースの両方の中国語 LLM を凌駕した。HumanEval と LiveCodeBench の結果も共有されており、DeepSeek-V2 Chat (RL) は LiveCodeBench で優れた能力を示し、巨大モデルをも凌駕する Pass@1 スコアを達成した。この結果は、DeepSeek-V2 Chat (RL) がライブコーディングタスクに取り組む上で強力な能力を備えていることを示している。