初代 DeepSeek に関する論文を Gemini Paper Summarizer で要約しました。
【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。
DeepSeek の要約シリーズです。
- AIで論文を読む: DeepSeek LLM ← この記事
- AIで論文を読む: DeepSeek-V2
- AIで論文を読む: DeepSeek-Coder-V2
- AIで論文を読む: DeepSeek-V3
目次
Abstract
オープンソースの大規模言語モデル(LLM)の急速な発展は、本当に目覚ましいものがある。しかし、先行研究で記述されたスケーリング則は、様々な結論を示しており、LLMのスケーリングに暗雲を投げかけている。我々は、スケーリング則の研究を掘り下げ、広く使われている2つのオープンソース構成、7Bと67Bで大規模モデルのスケーリングを促進する独自の知見を提示する。スケーリング則に導かれ、長期的な視点を持ってオープンソースの言語モデルを進歩させるプロジェクトであるDeepSeek LLMを導入する。事前学習段階をサポートするために、現在2兆トークンで構成され、継続的に拡大しているデータセットを開発した。さらに、DeepSeek LLM Baseモデルに対して、教師ありファインチューニング(SFT)と直接選好最適化(DPO)を実施し、DeepSeek Chatモデルを作成した。評価結果から、DeepSeek LLM 67Bは、特にコード、数学、推論の分野において、幅広いベンチマークでLLaMA-2 70Bを凌駕していることがわかる。さらに、オープンエンドの評価では、DeepSeek LLM 67B ChatがGPT-3.5と比較して優れた性能を示すことが明らかになった。
概要
DeepSeek LLMは、2兆トークン規模の多言語データセットで学習されたオープンソースの大規模言語モデルであり、ハイパーパラメータ調整、スケーリング則、ファインチューニング手法に関する詳細な分析と評価を提供している。
問題意識
この論文は、大規模言語モデル(LLM)のスケーリングに関する既存研究の結論が一定しておらず、LLMのスケーリングを妨げる要因になっているという問題点を指摘する。特に、モデルとデータの最適なスケーリング配分戦略が不明確であり、ハイパーパラメータの設定に関する議論も不十分であることを問題視する。このため、オープンソースLLMのスケーリングに関する研究を深め、将来の発展のための基礎を築くことを目指す。具体的には、バッチサイズや学習率のスケーリング則を検証し、モデルとデータの最適なスケーリング戦略を明らかにし、異なるデータセットがスケーリング則に与える影響を分析する。
手法
本論文では、大規模言語モデル(LLM)のスケーリングに関する研究を行い、オープンソースモデルの効率的なスケーリングのための基礎を築くことを目的としている。具体的には、以下の点を提案する。
ハイパーパラメータのスケーリング則: バッチサイズと学習率の最適な値を、計算予算に応じて決定するための経験的なフレームワークを提供する。
モデルとデータのスケーリング則: モデルの規模を非埋め込みFLOPs/トークンで表現し、モデルとデータの最適なスケーリング戦略を導き出す。また、データ品質がモデルのスケーリングに与える影響についても考察する。
データセットの品質: データセットの品質がスケーリング則に影響を与えることを示し、高品質なデータを使用することの重要性を強調する。
DeepSeek LLM: 上記のスケーリング則に基づいて構築された、オープンソースのLLMであるDeepSeek LLMを紹介する。このモデルは、7Bと67Bの2つのサイズで提供され、特にコード、数学、推論の分野で優れた性能を発揮する。
ファインチューニングとDPO: DeepSeek LLMのベースモデルに対して、教師ありファインチューニング(SFT)と直接選好最適化(DPO)を実施し、会話モデルを生成する。
評価: DeepSeek LLMの性能を、様々なベンチマーク、オープンエンド評価、安全性評価を通して評価し、その有効性を検証する。
これらの提案を通じて、本論文はオープンソースLLMのスケーリングに関する理解を深め、今後の研究開発のための指針を提供する。
新規性
本論文の新規性は以下の通りである。
ハイパーパラメータのスケーリング則の確立: 経験的な知見に基づき、計算予算と最適なバッチサイズおよび学習率との関係をモデル化し、最適なハイパーパラメータを決定するための経験的なフレームワークを提示した。
モデルスケールの新たな表現: 従来のモデルパラメータ数
$N$
の代わりに、非埋め込みFLOPs/tokenである$M$
をモデルスケールとして採用し、より正確なモデル/データのスケーリング戦略と、大規模モデルにおける汎化損失の予測を可能にした。データ品質が最適なモデル/データ配分戦略に与える影響の発見: 様々なデータセットを用いてスケーリング則を調査した結果、データ品質が高いほど、計算予算の増加分をモデルのスケーリングに多く配分すべきであることを示した。
高品質なオープンソース大規模言語モデルの構築: 上記のスケーリング則に基づき、2兆トークン規模の多言語(主に中国語と英語)データセットを用いて、7Bと67Bの2つのモデルをスクラッチから構築し、公開した。
多様な評価によるモデル性能の検証: 構築したモデルの性能を、様々なベンチマーク、オープンエンド評価、安全性評価によって検証し、特にコード、数学、推論の分野で優れた性能を示すことを明らかにした。
段階的なファインチューニングとDPOの適用: SFTとDPOを組み合わせることで、モデルの会話能力を向上させ、特にオープンエンドな生成能力を強化した。
マルチチョイスデータの影響: マルチチョイス形式のデータを学習に加えることで、モデルのマルチチョイス問題解決能力が向上することを示したが、モデルの真の知能向上には寄与しない可能性を示唆した。
システムプロンプトの影響: 大規模モデルでは、システムプロンプトがモデルの性能を向上させる一方で、小規模モデルでは性能を低下させる可能性があるという興味深い現象を観察した。
これらの新規性により、本論文は、オープンソースの大規模言語モデルの今後のスケーリングと開発において重要な貢献を果たすと期待される。
章構成
- 1 Introduction
- 2 Pre-Training
- 2.1 Data
- 2.2 Architecture
- 2.3 Hyperparameters
- 2.4 Infrastructures
- 3 Scaling Laws
- 3.1 Scaling Laws for Hyperparameters
- 3.2 Estimating Optimal Model and Data Scaling
- 3.3 Scaling Laws with Different Data
- 4 Alignment
- 5 Evaluation
- 5.1 Public Benchmark Evaluation
- 5.1.1 Base Model
- 5.1.2 Chat Model
- 5.2 Open-Ended Evaluation
- 5.2.1 Chinese Open-Ended Evaluation
- 5.2.2 English Open-Ended Evaluation
- 5.3 Held-Out Evaluation
- 5.4 Safety Evaluation
- 5.5 Discussion
- 5.1 Public Benchmark Evaluation
- 6 Conclusion, Limitation, and Future Work
- A Appendix
- A.1 Acknowledgments
- A.2 Different Model Scale Representations
- A.3 Benchmark Metrics Curves
- A.4 Comparison with Code or Math Specific Models
- A.5 Benchmark Results w/ DPO Stage
- A.6 Evaluation Formats
1 Introduction
過去数年間で、デコーダーのみのTransformerに基づく大規模言語モデル(LLM)は、人工汎用知能(AGI)達成の基礎となりつつある。LLMは、大量のデータセットで自己教師あり学習を行うことで、テキストの要約やコード補完など、様々な能力を獲得している。さらに、教師ありファインチューニングや報酬モデリングにより、ユーザーの意図や指示に沿った応答が可能になり、その影響力を急速に拡大している。
この分野は、ChatGPT、Claude、Bardなどのクローズドな製品によって牽引されてきたが、オープンソースLLMに対する期待も高まり、LLaMAシリーズなどの研究が進められている。LLaMAシリーズは、7Bから70Bパラメータまでのモデルを構築し、オープンソースモデルのアーキテクチャと性能のベンチマークとなっている。
しかし、オープンソースコミュニティは、モデルサイズを固定した学習に注力し、LLMのスケーリング則に関する研究は軽視されてきた。スケーリング則の研究は、AGI開発の初期段階において重要である。初期の研究では、計算予算の増加に伴うモデルとデータのスケーリングに関して、結論が異なっており、ハイパーパラメータの設定に関する議論も不十分であった。
本論文では、言語モデルのスケーリング挙動を詳細に調査し、7Bと67Bの2つの大規模モデル構成に適用する。具体的には、バッチサイズと学習率のスケーリング則を調べ、モデルサイズとの関係を明らかにする。また、データとモデルのスケーリング則を包括的に研究し、最適なモデル/データスケーリング戦略を明らかにする。さらに、異なるデータセットから得られたスケーリング則には大きな違いがあることを発見し、データセットの選択がスケーリング挙動に影響を与えることを示す。
これらのスケーリング則に基づいて、オープンソースの大規模言語モデルを構築し、コミュニティに可能な限り多くの情報を提供する。2兆トークンの事前学習データを収集し、LLaMAのアーキテクチャをベースに、コサイン学習率スケジューラをマルチステップ学習率スケジューラに置き換えたモデルを構築する。また、多様なソースから100万件以上の教師ありファインチューニング(SFT)データを収集し、データアブレーション技術を活用する。さらに、モデルの会話能力を向上させるために、直接選好最適化(DPO)を使用する。
2 Pre-Training
2.1. Data
データセットの多様性と豊富さを強化することを主眼とし、以下の3段階のアプローチを採用する。
- 重複排除 (Deduplication): 積極的な重複排除戦略を採用し、Common Crawlコーパス全体での重複排除が、単一ダンプ内での重複排除よりも多くの重複インスタンスを削除することを発見した。91個のダンプ全体で重複排除を行うことで、単一ダンプ手法よりも4倍多くのドキュメントが削除される。
- フィルタリング (Filtering): ドキュメントの品質評価において、言語的および意味的な評価を組み込んだ詳細な分析を行い、個々の視点と全体的な視点からデータ品質を評価する。
- リミックス (Remixing): データセットの不均衡に対処するために、過小評価されているドメインの存在を増やすことに焦点を当ててアプローチを調整し、多様な視点と情報が適切に表現されるようにする。
トークナイザーには、Byte-level Byte-Pair Encoding (BBPE) アルゴリズムを実装し、トークンが異なる文字カテゴリ(改行、句読点、CJK記号など)でマージされるのを防ぐ。数字は個々の数字に分割。語彙サイズは100,000に設定し、15個の特殊トークンを追加して合計100,015とし、トレーニング用に102,400に設定。
2.2. Architecture
DeepSeek LLMのマイクロデザインは、LLaMAの設計に準拠し、Pre-Norm構造、RMSNorm関数、SwiGLU活性化関数、中間層の次元を3倍にしたFeed-Forward Network (FFN)を採用。位置エンコーディングにはRotary Embeddingを組み込む。推論コストを最適化するために、67Bモデルでは従来のMulti-Head Attention (MHA) の代わりにGrouped-Query Attention (GQA)を使用。
マクロデザインでは、DeepSeek LLM 7Bは30層ネットワーク、DeepSeek LLM 67Bは95層ネットワーク。パラメータの一貫性を維持しつつ、層の調整により、トレーニングと推論を最適化するためのモデルパイプラインの分割を容易にする。67Bモデルでは、FFN層の中間幅を広げるのではなく、ネットワークの深さでパラメータを拡張し、パフォーマンス向上を目指す。
2.3. Hyperparameters
DeepSeek LLMは、標準偏差0.006で初期化され、AdamWオプティマイザーを使用し、ハイパーパラメータはβ₁ = 0.9、β₂ = 0.95、weight_decay = 0.1。学習率スケジューラーには、コサインスケジューラーではなく、マルチステップ学習率スケジューラーを使用。学習率は2,000ウォームアップステップ後に最大値に達し、トレーニングトークンの80%処理後に最大値の31.6%に減少し、90%処理後に最大値の10%に減少。勾配クリッピングは1.0に設定。
2.4. Infrastructures
大規模言語モデルのトレーニングと評価には、HAI-LLMという効率的で軽量なトレーニングフレームワークを使用。データ並列処理、テンソル並列処理、シーケンス並列処理、1F1Bパイプライン並列処理を統合。ハードウェア利用率を向上させるためにflash attention技術を活用。ZeRO-1を利用して、データ並列ランク間でオプティマイザーの状態を分割。計算と通信のオーバーラップを試み、ZeRO-1でのreduce-scatter演算、シーケンス並列でのGEMM計算とall-gather/reduce-scatter演算など、追加の待ち時間を最小限に抑える。LayerNorm、GEMM、Adamアップデートなど、一部のレイヤー/演算子を融合してトレーニングを高速化。モデルのトレーニング安定性を向上させるために、bf16精度でトレーニングし、fp32精度で勾配を累積。GPUメモリ消費を削減するために、インプレースクロスエントロピーを実行。モデルの重みとオプティマイザーの状態は、5分ごとに非同期的に保存。
3 Scaling Laws
本論文では、大規模言語モデル(LLM)のスケーリング則に関する研究について述べる。スケーリング則とは、計算資源、モデルサイズ、データサイズの増加に伴うモデル性能の向上を予測する法則である。初期の研究では、モデルとデータのスケーリングに関する結論が異なっており、ハイパーパラメータの設定が十分に議論されていなかった。本研究では、これらの不確実性に対処し、効率的なスケーリングを継続的に行うための基礎を築くことを目指す。
3.1. ハイパーパラメータのスケーリング則
異なる計算予算下でモデルが最適な性能を発揮できるよう、ハイパーパラメータのスケーリング則を検討した。実験の結果、バッチサイズと学習率がモデル性能に最も大きな影響を与えることがわかった。そこで、計算予算$C$
に対する最適なバッチサイズ$B_{opt}$
と学習率$\eta_{opt}$
の関係をモデル化した。
\eta_{opt} = 0.3118 \cdot C^{-0.1250}
B_{opt} = 0.2920 \cdot C^{0.3271}
この関係式を用いることで、異なる計算予算下で最適なハイパーパラメータを決定することができる。また、最適なハイパーパラメータは比較的広い範囲に収まるため、最適なパラメータを比較的容易に選択できることが示された。
3.2. 最適なモデルとデータのスケーリングの推定
次に、モデルサイズとデータサイズのスケーリング則を検討した。モデルサイズをより正確に表現するために、非埋め込みFLOPs/トークン$M$
を導入し、計算予算$C$
を$C = MD$
で近似した。ここで、$D$
はデータサイズ(トークン数)である。
実験の結果、最適なモデルサイズ$M_{opt}$
とデータサイズ$D_{opt}$
は、以下の式で表されることがわかった。
M_{opt} = M_{base} \cdot C^a, \quad M_{base} = 0.1715, \quad a = 0.5243
D_{opt} = D_{base} \cdot C^b, \quad D_{base} = 5.8316, \quad b = 0.4757
これらの式を用いることで、与えられた計算予算に対して最適なモデルとデータの配分を推定することができる。また、この結果は、小規模実験から大規模モデルの性能を正確に予測できることを示唆している。
3.3. 異なるデータを用いたスケーリング則
データセットの品質がスケーリング則に与える影響を調べた。初期の社内データ、現在の社内データ、OpenWebText2の3つのデータセットを用いてスケーリング則を分析した結果、データ品質が高いほど、モデルスケーリング指数$a$
が大きくなり、データスケーリング指数$b$
が小さくなることがわかった。これは、高品質なデータを用いることで、計算予算をモデルのスケーリングに多く配分すべきであることを示唆している。また、データ品質の違いが、過去の研究におけるスケーリング則のばらつきの原因である可能性を示唆している。
4 Alignment
本論文では、英語と中国語で約150万件のインストラクションデータインスタンスを収集し、幅広い有用性と無害性のトピックを網羅している。有用なデータには、一般的な言語タスクが31.2%、数学問題が46.6%、コーディング演習が22.2%含まれる。安全データは30万件のインスタンスで構成され、さまざまな機密トピックを網羅する。
アライメントパイプラインは2つの段階で構成される。
教師ありファインチューニング (SFT):7Bモデルは4エポック、67Bモデルは2エポックでファインチューニングを行った。これは67Bモデルで過学習の問題が深刻であったためである。学習率は7Bモデルで1e-5、67Bモデルで5e-6である。ベンチマークの精度を監視することに加え、ファインチューニングプロセス中のチャットモデルの反復率も評価した。数学SFTデータ量が増加すると反復率が上昇する傾向があることが観察された。これは、数学SFTデータに類似の推論パターンが含まれる場合があるためである。この問題に対処するために、2段階のファインチューニングとDPOを試したが、どちらもベンチマークスコアをほぼ維持し、反復を大幅に削減できた。
DPO:モデルの能力をさらに強化するため、直接選好最適化アルゴリズム(DPO)を使用した。これは、LLMのアライメントにシンプルだが効果的な方法であることが証明されている。DPOトレーニング用の選好データは、有用性と無害性の観点から構築した。有用性データには、創造的な文章、質問応答、指示に従うことなどを含む多言語プロンプトを収集した。次に、DeepSeek Chatモデルを使用して応答候補を生成した。同様の操作を無害性選好データ構築にも適用した。
DPOは学習率5e-6、バッチサイズ512で1エポック学習し、学習率ウォームアップとコサイン学習率スケジューラを使用した。DPOはモデルのオープンエンド生成スキルを強化できることがわかったが、標準ベンチマーク間のパフォーマンスにはほとんど差がなかった。
5 Evaluation
5.1 公開ベンチマーク評価
5.1.1 ベースモデル
DeepSeekモデルは、2Tのバイリンガルコーパスで事前学習されているにもかかわらず、英語の言語理解ベンチマークにおいて、同じく2Tトークンを消費しつつ英語に焦点を当てたLLaMA2モデルと同等の性能を示している。さらに、DeepSeek 67Bは、MATH、GSM8K、HumanEval、MBPP、BBH、および中国語ベンチマークにおいて、LLaMA2 70Bと比較して大幅に優れた性能を達成している。モデルのスケーリングに伴い、GSM8KやBBHなどのタスク性能が向上することが確認された。これは、大規模モデルの強力な少数ショット学習能力に起因すると考えられる。しかし、数学データの割合が増加するにつれて、小規模モデルと大規模モデルの間の格差は縮小する可能性がある。
DeepSeek 67BがLLaMA2 70Bよりも優れている点は、DeepSeek 7BがLLaMA2 7Bよりも優れている点よりも大きい。この現象は、小規模モデルにおける言語の競合の影響が大きいことを示唆している。LLaMA2は、中国語データで特別にトレーニングされていないにもかかわらず、CMathなどの特定の中国語タスクで優れたパフォーマンスを発揮している。これは、数学的推論などの特定の基本的な能力が言語間で効果的に転移できることを示唆している。しかし、中国語のイディオムの評価を含むCHIDのようなタスクでは、LLaMA2はDeepSeek LLMと比較して大幅にパフォーマンスが低い。これは、事前学習中に中国語トークンを大量に消費する必要があることを示している。
5.1.2 チャットモデル
DeepSeekチャットモデルの結果は、チューニング後のほとんどのタスクで全体的な改善を示している。しかし、パフォーマンスが低下するケースも少数ながら存在した。
知識: TriviaQA、MMLU、C-Evalなどの知識関連タスクでは、ベースモデルとチャットモデルで変動が見られた。しかし、これはSFT後の知識の獲得や喪失を示すものではない。SFTの価値は、チャットモデルのゼロショット設定で、ベースモデルの少数ショット設定と同等のスコアを達成する能力にある。
推論: SFTインスタンスの大部分がCoT形式であるため、チャットモデルはBBHやNaturalQuestionsなどの推論タスクでわずかな改善を示している。しかし、SFT段階では推論能力を学習するのではなく、推論パスの正しい形式を学習していると考えられる。
パフォーマンス低下タスク: モデルサイズや事前学習済みのチェックポイントに関係なく、一部のタスクはファインチューニング後に一貫してパフォーマンスが低下している。これらのタスクは、HellaSwagのような穴埋めタスクや文完成タスクであることが多い。純粋な言語モデルの方がこのようなタスクを処理するのに適していると考えられる。
数学とコード: モデルは、ファインチューニング後に数学とコーディングのタスクで大幅な改善を示している。例えば、HumanEvalとGSM8Kのスコアは20ポイント以上向上している。これは、ベースモデルがこれらのタスクに対して初期に適合不足であり、SFT段階で広範なSFTデータを通じてコーディングと数学に関する追加の知識を学習したためと考えられる。ただし、モデルの能力は、コード補完や代数的な質問に重点が置かれている可能性がある。数学とコーディングの包括的な理解を深めるには、事前学習段階で多様なデータを取り込むことが重要である。
5.2 オープンエンド評価
チャットモデルでは、標準ベンチマークの指標を観察することに加えて、オープンなドメインやオープンエンドな質問で生成された結果の品質が、実際のユーザーエクスペリエンスに直接影響する。そのため、中国語と英語の両方のタスクで、チャットモデルのオープンエンド生成能力を個別にテストした。
5.2.1 中国語オープンエンド評価
中国語のオープンエンド評価では、AlignBench(Liu et al., 2023)の高品質なオープンエンド質問テストセットで、さまざまなドメインにおけるチャットモデルの包括性をテストした。AlignBenchには、合計8つの主要カテゴリ、36のサブカテゴリ、および683の質問が含まれている。各質問に対して、AlignBenchは、プロンプトに加えて、専門家による参照回答と、GPT-4が応答の品質を判断するための評価テンプレートを提供している。
結果は表7に示されている。DeepSeek 67Bチャットモデルは、ChatGPTや他のベースラインモデルを上回り、GPT-4の2つのバージョンのみに次ぐ性能を示している。これは、他のオープンソースまたはプロプライエタリな中国語大規模言語モデルと比較して、さまざまな中国語タスクにおけるモデルの優れたパフォーマンスを示している。DPOモデルは、ほぼすべての指標で改善を示しており、DPOトレーニングプロセスがモデルアライメントにプラスの影響を与えていることを示している。
基本的な中国語のタスクでは、モデルはすべてのモデルの中で最上位にランクされており、DPOモデルの中国語の基本的な言語能力は、GPT-4の最新バージョンよりもさらに高い。高度な中国語推論タスクでは、モデルのスコアは他の中国語LLMよりも大幅に高く、より複雑な中国語の論理推論および数学計算におけるモデルの優れたパフォーマンスを示している。
5.2.2 英語オープンエンド評価
英語のオープンエンド評価では、MT-Benchベンチマーク(Zheng et al., 2023)を使用した。MT-Benchには、8つの異なるカテゴリのマルチターン質問が含まれている。表8に示すように、DeepSeek LLM 67Bチャットは、LLaMA-2-Chat 70B、Xwin 70b v0.1、TÜLU 2+DPO 70Bなどの他のオープンソースモデルを上回り、GPT-3.5-turboと同等の8.35スコアを達成している。さらに、DPO段階の後、DeepSeek LLM 67BチャットDPOは平均スコアを8.76にさらに向上させており、GPT-4(OpenAI, 2023)に次ぐ性能を示している。これらの結果は、DeepSeek LLMの強力なマルチターンオープンエンド生成能力を示している。
5.3 ホールドアウト評価
データ汚染とベンチマークの過剰適合は、LLMを評価する上での2つの課題である。一般的な慣行として、最近公開されたテストセットを利用して、モデルをホールドアウトテストセットとして評価する。
LeetCode: モデルのコーディング能力を評価するために、LeetCode Weekly Contest(2023年7月から2023年11月までのWeekly Contest 351-372、Bi-Weekly Contest 108-117)の問題を利用した。これらの問題は、LeetCodeからデータをクロールして取得したもので、各問題に20以上のテストケースがある126個の問題で構成されている。評価指標はHumanEvalと同様である。モデルの出力がすべてのテストケースに合格した場合、モデルは問題を効果的に解決したと見なされる。モデルのコーディング能力は、図に示されている。
ハンガリー全国高校試験: Grok-1に合わせて、ハンガリー全国高校試験を使用してモデルの数学的能力を評価した。この試験は33個の問題で構成されており、モデルのスコアは人間による注釈によって決定される。すべてのモデルを評価するために、solution.pdfのスコアリングメトリックに従う。
指示追従評価: 2023年11月15日、Googleは指示追従評価データセット(Zhou et al., 2023)をリリースした。彼らは、25種類の検証可能な指示を特定し、各プロンプトに1つ以上の検証可能な指示を含む約500個のプロンプトを作成した。プロンプトレベルの緩いメトリックを使用して、すべてのモデルを評価する。
結果を表9に示す。DeepSeek 67Bは、これらのホールドアウトデータセットで他のベースラインモデルよりも大幅に優れている。特に、DeepSeek 7Bは他の小規模言語モデルよりも標準ベンチマークで劣るが、ホールドアウトタスクでのパフォーマンスは、他のモデルと比較して比較的優れている。
5.4 安全性評価
私たちは、汎用人工知能の安全性に対する重要性を深く認識している。真に役立つ人工知能モデルを確立するための前提は、人間と一致する価値観を持ち、人類に対して友好的であることである。私たちは、事前学習、SFT、DPOなど、トレーニングプロセス全体を通してモデルの安全性の保証を組み込んでいる。
モデルの安全性を検証するために、さまざまな分野の専門家からなる20人の専門家チームを設立し、人間の価値観に沿った安全コンテンツ分類システムを構築した(安全評価の分類法は表10に示す)。その後、専門家チームは、各安全サブカテゴリに対して、手動で数十個の高品質なテストケースを作成した。安全コンテンツ領域の多様性に加えて、安全コンテンツにおける形式の多様性にも注意を払っている。悪名高い「祖母」の抜け穴は、モデルがクエリの表面形式に欺かれて安全でない応答を提供することを示している。したがって、質問を考案する際には、専門家チームは問い合わせ方法を多様化することにも注意を払っている。誘導、ロールプレイング、マルチターン対話、プリセットポジションなどの手段を通じて、多様な安全問題を作成している。最終的に、2400個の質問で構成される安全テストセットを作成した。さらに、専門家チームは、さまざまなコンテンツタイプと形式タイプに対して、安全レビューの基本的なガイドラインを作成した。
このテストセットに対するモデルの出力結果については、手動で安全性を検査した。レビューチームは十分にトレーニングされており、注釈結果に対して相互検証を実施した。注釈者は、各質問に対して、安全、安全でない、モデル拒否の3つのカテゴリの注釈を実行する。DeepSeek 67Bチャットモデルの安全性をテストした結果を表10に示す。各安全カテゴリのテスト質問の数と、モデルが合格した安全テストの数が表に示されている。安全に回答されたテストケースとモデルが拒否したテストケースの両方を安全な応答としてラベル付けしている。結果は、モデルが多数の安全テストカテゴリで優れたセキュリティパフォーマンスを示していることを示している。
既存の安全性へのアプローチを補完するために、「Do-Not-Answer」データセット(Wang et al., 2023)を使用して評価をさらに充実させ、DeepSeek 67Bチャットモデルの安全メカニズムを評価した。データセットの939個のリスク分類されたプロンプトは、モデルの機能強化を強調する上で役立った。表11に示すように、DeepSeek 67Bチャットモデルは、ChatGPTとGPT-4の両方よりも高い97.8のスコアを達成し、優れたパフォーマンスを示している。このスコアは、機密性の高いクエリを安全に処理するモデルの能力をベンチマークするだけでなく、この分野の主要モデルの中でも競争力を発揮している。
5.5 考察
開発プロセス全体を通して、LLMの構築においていくつかの興味深い発見があった。
段階的ファインチューニング: 前述のように、小規模モデルは数学およびコードデータセットでより長いファインチューニングを必要とするが、反復的な動作を増加させるなど、モデルの会話能力を損なう可能性がある。この問題に対処するために、段階的なファインチューニングプロセスを実装した。このアプローチでは、最初の段階ですべての利用可能なデータでファインチューニングを行い、2番目の段階では会話データに焦点を当ててファインチューニングを行う。表12は、2段階のトレーニングプロセスから得られた結果を示している。これらの結果は、2番目の段階がコードと数学におけるモデルの熟練度を損なうことなく、反復動作を減らし、指示追従能力を強化していることを明確に示している。
多肢選択式質問: MMLU、AGI Eval、C-Evalなどの多肢選択式スタイルの評価データでモデルをテストするのが一般的な慣行である。多肢選択式質問では、モデルは対応する知識を持っているだけでなく、選択肢が何を参照しているかを理解する必要がある。アライメント段階では、2000万の中国語の多肢選択式質問を追加してテストし、表13に示すパフォーマンスを得た。C-Eval検証セットとCMMLUテストセットの重複を防止するために重複排除を実施したことに注意することが重要である。
追加の20M MC(多肢選択式)データを含めることは、中国語の多肢選択式ベンチマークだけでなく、英語のベンチマークの改善にも有益であることが証明されている。これは、モデルのMC問題を解決する能力が強化されたことを示している。ただし、この改善は、TriviaQAや社内評価などの多肢選択式形式を利用しない他の評価ではモデルのパフォーマンスにまで及んでいないことを観察している。
事前トレーニングにおける指示データ: 事前トレーニングフェーズの後半に指示データを取り込むと、ベンチマークタスクでのベースモデルのパフォーマンスが向上することが広く認識されている。この研究では、主に多肢選択式質問で構成される500万の指示データを、事前トレーニング段階の最後の10%で統合した。ベースモデルはベンチマークで改善されたパフォーマンスを示した。ただし、最終的な結果は、SFT段階で同じデータを追加することで達成された結果とほぼ同じだった。このアプローチはベースモデルのベンチマークでのパフォーマンスを強化するが、全体的な可能性はこれらの指示データを取り込まない場合と同等であると結論付けた。指示データがサイズ的に大きい場合は、事前トレーニングプロセスに組み込むことができる。多肢選択式質問を除外するという好みと、多肢選択式ではない質問の利用可能性が限られているため、事前トレーニングプロセスに指示データを含めないという決定を下した。
システムプロンプト: 適切に設計されたシステムプロンプトは、モデルが役立ち、敬意を払う応答を生成するように効果的にガイドする必要がある。LLaMA-2によって導入されたプロンプトをわずかに変更して、システムプロンプトとした。
システムプロンプト: あなたはDeepSeekによって開発された、役に立ち、敬意を払い、正直なAIアシスタントであるDeepSeek Chatです。トレーニングデータの知識カットオフ日は2023年5月までです。常に可能な限り役立つように回答し、安全を確保してください。回答には、有害、非倫理的、人種差別的、性差別的、有毒、危険、または違法なコンテンツを含めないでください。回答が社会的に公平で肯定的な性質であることを確認してください。質問が意味をなさない場合、または事実上首尾一貫していない場合は、正しくないものを回答する代わりに、その理由を説明してください。質問の答えがわからない場合は、誤った情報を共有しないでください。
システムプロンプトを導入すると、7B LLMのパフォーマンスがわずかに低下するという興味深い現象を観察した。ただし、67B LLMを利用すると、プロンプトを追加することで、表14に示すように結果が大幅に向上する。この不一致の説明は、大規模モデルがシステムプロンプトの背後にある意図された意味をよりよく理解しており、指示に効果的に従い、優れた応答を生成できることである。一方、小規模モデルはシステムプロンプトを適切に把握するのに苦労しており、トレーニングとテストの間の一貫性の欠如がパフォーマンスに悪影響を与える可能性がある。
6 Conclusion, Limitation, and Future Work
DeepSeek LLMは、英語と中国語の両方で2兆トークンという膨大なデータセットで学習されたオープンソースモデルである。本論文では、ハイパーパラメータの選択、スケーリング則、および様々なファインチューニングの試みについて詳細に説明した。先行研究におけるスケーリング則を調整し、最適なモデル/データスケーリングアップ戦略を提案した。さらに、与えられた計算予算で最適なバッチサイズと学習率を予測する方法を提示した。スケーリング則はデータ品質に関連しており、それが異なる研究でスケーリング挙動が異なる根本原因である可能性があると結論付けた。スケーリング則に導かれ、最適なハイパーパラメータを用いて事前学習を実施し、包括的な評価を行った。すべてのトレーニング段階でベンチマークの装飾や隠された秘密を避けた。
DeepSeek Chatは、他のLLMで一般的に見られる、事前学習後の継続的な知識更新の欠如、未確認のアドバイスのような非事実情報の生成の可能性、およびハルシネーションを起こす傾向といった、既知の制限を共有している。さらに、中国語データの初期バージョンは網羅的ではなく、特定の中国語固有のトピックで最適なパフォーマンスが得られない可能性があることに注意することが重要である。データは主に中国語と英語のソースで構成されているため、他の言語におけるモデルの熟練度はデリケートであり、慎重に取り組む必要がある。
DeepSeek LLMは、オープンソースの言語モデルを前進させるための長期的なプロジェクトである。コードインテリジェンスとMixture-of-Experts(MoE)に関する技術レポートを近日中に公開する予定である。これらは、事前学習のための高品質なコードデータの作成方法と、高密度モデルのパフォーマンスを達成するためのスパースモデルの設計方法を示す。現在、DeepSeek LLMの次期バージョンに向けて、より大きく改良されたデータセットを構築中である。推論、中国語の知識、数学、およびコードの能力が次期バージョンで大幅に向上することを期待している。アラインメントチームは、一般の人々にとって役立ち、正直で安全なモデルを提供する方法を研究することに専念している。初期の実験では、強化学習がモデルの複雑な推論能力を高める可能性があることが証明されている。
A Appendix
A.1 謝辞
このプロジェクトは多くの貢献者の努力によって実現した。データアノテーションチーム、コンプライアンスチーム、ビジネスチーム、デザインチームに感謝の意を表する。
A.2 モデルスケール表現の差異
異なるモデルスケール表現を用いてスケーリングカーブを再適合させた。IsoFLOPプロファイルからの実験を再利用し、6N1と6N2をモデルスケール表現として使用して計算FLOPを再計算し、性能スケーリングカーブを再適合させた。図6に示すように、結果は、これらの3つの表現間での最適なモデル/データ割り当ての偏差は、より高い計算予算では有意ではないが、より低い予算では顕著な違いがあることを示している。
- 6N1をモデルスケール表現として使用すると、適合された性能スケーリングカーブは、大規模モデルの性能を過大評価する傾向がある。
- 逆に、6N2を使用すると、性能を過小評価する傾向がある。
- Mをモデルスケール表現として使用すると、最も正確な予測が得られる。
A.3 ベンチマークメトリクスのカーブ
図7は、DeepSeek LLM Baseのベンチマークメトリクスのカーブを示している。ChineseQAは、TriviaQAと同様の方法で構築された社内テストセットである。図7は、トレーニングの開始から終了まで、これらのベンチマークで一貫した改善が見られることを示している。トレーニングが継続されれば、パフォーマンスはさらに向上すると考えられる。
A.4 コードまたは数学に特化したモデルとの比較
DeepSeek LLMと特定のコードおよび数学言語モデル(LLM)との比較を行った。表15は、DeepSeek LLM 67Bが、コードデータへのアクセスが少ないにもかかわらず、CodeLlamaと同等のパフォーマンスを達成できることを示している。DeepSeek LLMは、コード以外の分野でも優れた能力を持っていることに注意すべきである。
同様に、表16は、GSM8K、MATH、MGSM-zh、CMathなどのさまざまな数学関連ベンチマークから得られた結果を示している。DeepSeek 67Bは、さまざまな言語にわたる数学関連タスクで優れたパフォーマンスを示し、この分野での優位性を示している。さらに、DeepSeek LLMは、数学問題を解決するためにプログラムを利用することができ、連鎖思考よりも優れたパフォーマンスを示している。ベンチマークでは、以前のSOTAモデルであるToRAよりも大幅に優れている。
A.5 DPO段階でのベンチマーク結果
表17は、DPO段階で得られたベンチマーク結果を示している。これらの結果に基づいて、DPO段階はLLMの基本的な能力に大きな影響を与えないと結論付けることができる。
A.6 評価形式
表18〜表40は、さまざまなベンチマークでの評価形式の例を示している。