Meta が発表した LLM (Large Language Model) ならぬ LCM (Large Concept Model) の論文を Gemini Paper Summarizer で要約しました。
【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。
目次
- Abstract
- 概要
- 章構成
- 1 Introduction
- 2 Main Design Principles
- 3 Scaling the model to 7B
- 4 Large Concept Model Extensions
- 5 Related work
- 6 Limitations
- 7 Acknowledgments
- 8 Conclusion and Future Work
- References
- A Technical consideration for data preparation
- B Open Sourced Code
- C System prompt: Generation of Topic Descriptions
- D User prompt: LLM As a Judge - Coherence
Abstract
大規模概念モデル:文表現空間における言語モデリング
LLMは人工知能の分野に革命をもたらし、多くのタスクにおいて事実上のツールとして登場した。LLMの現在の確立された技術は、入力を処理し、トークンレベルで出力を生成することである。これは、情報を分析し、創造的なコンテンツを生成するために、単語を超えた多段階の抽象レベルで操作する人間とは対照的である。本論文では、明示的な高レベルのセマンティック表現(我々が「概念」と呼ぶ)で動作するアーキテクチャを試みる。概念は言語やモダリティに依存せず、流れにおける高レベルのアイデアやアクションを表す。したがって、「大規模概念モデル」を構築する。本研究では、実現可能性の証明として、概念が文に対応すると仮定し、既存の文埋め込み空間であるSONARを使用する。これは、テキストと音声の両方のモダリティで最大200の言語をサポートする。
大規模概念モデルは、埋め込み空間で自己回帰文予測を実行するように訓練される。我々は、MSE回帰、拡散ベース生成の変種、および量子化されたSONAR空間で動作するモデルなど、複数のアプローチを検討する。これらの探索は、1.6Bのパラメータモデルと1.3Tトークン程度のトレーニングデータを使用して実行される。次に、1つのアーキテクチャを約2.7Tトークンのトレーニングデータと7Bのモデルサイズにスケールアップする。我々は、要約と要約拡張の新しいタスクという、いくつかの生成タスクで実験的な評価を行う。最後に、我々のモデルが同じサイズの既存のLLMを凌駕する、多くの言語に対する優れたゼロショット汎化性能を示す。モデルのトレーニングコードは無料で利用可能である。
概要
本論文では、トークンレベルではなく、より高次の意味表現空間で言語モデリングを行う新しいアーキテクチャであるLCMを提案し、多言語・マルチモーダル対応、階層構造、長文処理能力、ゼロショット汎化性能、モジュール性・拡張性などの特徴を持つことを示している。
問題意識
本論文では、既存の大規模言語モデル(LLM)がトークンレベルで処理を行うのに対し、より高次の意味表現である「概念」レベルで処理を行う新しいアーキテクチャを提案している。このアーキテクチャは、言語やモダリティに依存しない抽象的なレベルでの推論と計画を可能にすることを目的としている。具体的には、文を「概念」として扱い、既存の文埋め込み空間であるSONARを用いて、埋め込み空間内での文予測を行うモデルを構築し、その有効性を検証している。
手法
この論文では、「概念」と呼ばれる高次の意味表現に基づいて言語モデリングを行う新しいアーキテクチャ、LARGE CONCEPT MODEL (LCM) を提案する。従来のLLMがトークンレベルで処理を行うのに対し、LCMは文レベルの意味埋め込み空間で処理を行う。具体的には、以下の要素が含まれる。
- SONAR埋め込み空間の利用: LCMは、テキストと音声の両方で200以上の言語をサポートする既存の文埋め込み空間SONARを利用する。
- 自己回帰的な文予測: LCMは、埋め込み空間内で自己回帰的に文を予測するように学習される。
- 様々なアプローチの探求: MSE回帰、拡散ベースの生成モデル、量子化されたSONAR空間でのモデルなど、複数のアプローチを検討する。
- 階層的な構造: LCMは、トークンレベルではなく、より抽象的なレベルで推論を行うことで、階層的な情報処理を可能にする。
- ゼロショット汎化: LCMは、言語やモダリティに依存せずに学習されるため、追加のデータや微調整なしに、SONARがサポートする任意の言語やモダリティに適用できる。
- モジュール性と拡張性: 概念エンコーダーとデコーダーは独立して開発および最適化できるため、新しい言語やモダリティの追加が容易である。
この論文では、これらの要素を組み合わせたLCMが、従来のLLMと比較して、より抽象的なレベルでの推論や、長文の生成、多言語への対応において優れた性能を示すことを示している。
新規性
本論文の新規性は、主に以下の3点に集約される。
概念レベルでの言語モデリング: 従来の言語モデル(LLM)がトークンレベルで処理を行うのに対し、本研究では「概念」というより高次の抽象レベルでの処理を提案している。この「概念」は言語やモダリティに依存せず、文や発話といった単位に対応する。これにより、人間の思考に近い、より抽象的なレベルでの推論や計画が可能になる。
SONAR埋め込み空間の活用: 既存の文埋め込み空間であるSONARを活用し、多言語・マルチモーダルな文表現を扱う。これにより、言語やモダリティに依存しない推論が可能となり、ゼロショットでの多言語への適用や、異なるモダリティ間での知識の共有が期待される。
拡散モデルに基づくアーキテクチャ: 従来のMSE損失に基づくモデルに加え、拡散モデルを用いた文埋め込み生成モデルを提案している。これにより、文脈に応じて多様な文生成が可能となり、より柔軟な言語モデルの構築が期待される。さらに、量子化を用いたモデルも提案し、離散的な単位でのモデリングも試みている。
これらの新規性により、本論文では、従来のLLMとは異なる、より柔軟で汎用的な言語モデルの可能性を示唆している。特に、多言語・マルチモーダルなデータに対するゼロショットでの適用は、今後の言語モデル研究において重要な方向性を示すものと言える。
章構成
- 1 Introduction
- 2 Main Design Principles
- 2.1 The SONAR embedding space
- 2.2 Data preparation
- 2.3 Large Concept Model variants
- 2.3.1 Base-LCM
- 2.3.2 Diffusion-based LCM
- 2.3.3 One-Tower Diffusion LCM
- 2.3.4 Two-Tower Diffusion LCM
- 2.3.5 Quantized LCM
- 2.4 Ablations
- 2.4.1 Experimental setup
- 2.4.2 Importance of the diffusion inference hyper-parameters
- 2.4.3 Studying the noise schedules
- 2.4.4 Studying the loss weighting strategies
- 2.5 Analysis
- 2.5.1 Inference efficiency of LCMs
- 2.5.2 Fragility of SONAR space
- 3 Scaling the model to 7B
- 3.1 Evaluation Tasks and Data
- 3.1.1 Metrics
- 3.1.2 Summarization
- 3.1 Evaluation Tasks and Data
- 4 Large Concept Model Extensions
- 4.1 Summary Expansion
- 4.2 Zero-shot generalization performance
- 4.3 Exploring explicit planning
- 5 Related work
- 5.1 Sentence representations
- 5.2 Multilingual LLMs
- 5.3 Alternative LLM architectures
- 6 Limitations
- 7 Acknowledgments
- 8 Conclusion and Future Work
- References
- A Technical consideration for data preparation
- B Open Sourced Code
- C System prompt: Generation of Topic Descriptions
- D User prompt: LLM As a Judge - Coherence
1 Introduction
大規模言語モデル(LLM)は自然言語処理研究を席巻しており、画像、動画、音声などの多種多様なモダリティへの拡張により、人間の知能に迫るためのデファクト技術と見なされている。LLMは、一般的な知識に関する詳細な回答の提供、長文ドキュメント分析の支援、さまざまな種類のメッセージの作成、コードの記述やデバッグなど、多岐にわたるタスクで目覚ましいパフォーマンスを発揮している。しかし、LLMをゼロから構築するには、膨大な量のデータを処理し、モデルをトレーニングするための莫大な計算資源が必要となる。現在、LLMの規模は4000億パラメータを超えており、知識獲得はデータ駆動型であり、より多くの言語やモダリティへの拡張には、通常、それらをカバーするための追加の(合成)データが必要となる。
利用可能なLLMは、LLAMA、MISTRAL、BLOOM、FALCONなどのオープンモデルと、GEMINI、GPT、CLAUDEなどのクローズドモデルに分類できる。これらのモデルはすべて、トランスフォーマーベースのデコーダー専用言語モデルという同じ基盤アーキテクチャに基づいており、先行するトークンの長いコンテキストを与えられた上で次のトークンを予測するように事前学習されている。LLMの成功と進歩にもかかわらず、現在のLLMは人間の知能の重要な特徴である、複数の抽象レベルでの明示的な推論と計画を欠いている。人間の脳は単語レベルでのみ動作するのではなく、複雑なタスクを解決したり、長いドキュメントを作成したりする際には、まずより高いレベルで全体構造を計画し、段階的に、より低いレベルで詳細を追加するトップダウンプロセスを持つ。LLMが暗黙的に階層表現を学習していると主張することもできるが、明示的な階層アーキテクチャを備えたモデルの方が、首尾一貫した長文出力を生成するのに適していると仮定する。
研究者が15分間の講演を行う状況を想像してみよう。通常、研究者は発音するすべての単語を書き出す詳細なスピーチを準備するのではなく、伝えたい高レベルのアイデアの流れを概説する。同じ講演を複数回行う場合、実際に発せられる単語は異なる可能性があり、異なる言語で行われる可能性さえあるが、高レベルの抽象的なアイデアの流れは同じままである。同様に、特定のトピックに関する研究論文やエッセイを書く場合、人間は通常、まずドキュメント全体をセクションに構造化するアウトラインを準備し、それを反復的に改良する。人間はまた、より長いドキュメントの異なる部分間の依存関係を抽象レベルで検出し、記憶する。以前の研究執筆の例を拡張すると、依存関係を追跡することは、導入で言及した各実験の結果を提供する必要があることを意味する。最後に、情報を処理および分析する場合、人間は長いドキュメントのすべての単語を考慮することはめったにない。代わりに、階層的なアプローチを使用する。つまり、特定の情報を検索するために、長いドキュメントのどの部分を検索する必要があるかを記憶する。
我々の知る限りでは、特定の言語やモダリティでのインスタンス化とは独立した、抽象レベルでの情報処理と生成のこの明示的な階層構造は、現在のLLMには見られない。本研究では、トークンレベルでの処理から離れ、抽象的な埋め込み空間での(階層的な)推論に近づく新しいアプローチを紹介する。この抽象的な埋め込み空間は、コンテンツが表現される言語やモダリティに依存しないように設計されている。言い換えれば、特定の言語でのインスタンス化ではなく、純粋に意味レベルでの基礎となる推論プロセスをモデル化することを目指している。我々のアプローチを検証するために、研究をサブワードトークンと概念の2つの抽象レベルに限定する。我々は概念を抽象的な原子アイデアとして定義する。実際には、概念はテキストドキュメントの文や、同等の音声発話に対応することが多い。我々は、文が単語とは対照的に、言語の独立性を達成するための適切な単位であると仮定する。これは、英語中心でトークンベースである現在のLLM技術とは対照的である。
我々の基本的なアイデアは、エンコーダーとデコーダーが利用可能な任意の固定サイズの文埋め込み空間に基づいている可能性がある。特に、我々は推論アーキテクチャに特化して最適化された新しい埋め込み空間をトレーニングすることを目指すことができる。本研究では、既存の自由に入手可能な文埋め込みであるSONAR(Duquenneら、2023b)を選択した。SONARは、テキストと音声モダリティの両方で最大200の言語をサポートしている。
2 Main Design Principles
本論文では、LCM の主要な設計原理を概説する。まず、エンコーダーとデコーダーを備えた SONAR 埋め込み空間について説明する。次に、データ準備の詳細、すなわち長い文書を文に分割する方法について議論する。最後に、本研究で導入された LCM のさまざまなバージョンについて詳しく説明する。
2.1 SONAR 埋め込み空間
本研究の動機は、トークンよりも高い概念レベルで推論を実行することである。これには、高度に意味的な埋め込み空間が必要となる。SONAR (Duquenne et al., 2023b) は、xsim や xsim++ (Chen et al., 2023b) のような複数の意味的類似性メトリックで最高のパフォーマンスを達成し、翻訳のための大規模なバイテキストマイニングでうまく使用された (Seamless Communication et al., 2023b) ため、選択された。
SONAR テキスト埋め込み空間は、クロスアテンションの代わりに固定サイズボトルネックを備えたエンコーダー/デコーダーアーキテクチャとしてトレーニングされた (図 2 参照)。基準は、200 言語の英語との間での機械翻訳、ノイズ除去自己符号化、および埋め込みボトルネックレイヤーでの明示的な MSE 損失を組み合わせている。テキスト埋め込み空間がトレーニングされると、教師-生徒アプローチが適用され、SONAR 空間を音声モダリティに拡張した。
LCM は SONAR 概念埋め込みを直接操作するため、サポートされているすべての言語とモダリティで推論を実行できる。表 1 は、他のいくつかの LLM の言語カバレッジを比較している。LCM は、他のモデルよりも大幅に多くの言語、特に多くの低リソース言語をサポートしている。テキストモダリティに加えて、SONAR は、英語での音声入力と音声出力に対して 76 言語をサポートしている。また、アメリカ手話 (ASL) の実験的なエンコーダーも開発した。
2.2 データ準備
LCM をトレーニングおよび評価するには、生のテキストデータセットを、それぞれが文に対応する SONAR 埋め込みのシーケンスに変換する必要がある。大規模なテキストコーパスを扱うには、いくつかの実際的な制限がある。まず、テキストを文に正確に分割することは、エラー、特定のフォーマットの問題、またはその他のノイズ源の存在により困難な場合がある。これには、堅牢な自動テキストセグメンテーション技術を適用する必要がある。次に、一部の文 (適切に形成されたものでさえ) は非常に長く複雑になる可能性があり、エンコードされた SONAR 埋め込みの品質に悪影響を与える可能性がある。これは、科学分野のテキストで特に一般的である。以下では、文のセグメンテーションの戦略と、それが SONAR エンコーディングにどのように影響するかについて説明する。
文のセグメンテーション分析 文のセグメンテーションには2つの手法が考えられる。多言語データを調査しているため、大規模な言語カバレッジを持つ文セグメンターに焦点を当てる。
- SpaCy セグメンター (SPACY) (Honnibal et al., 2020) は、文のセグメンテーションへのルールベースのアプローチを提供する、確立された多言語 NLP ツールキットである。SPACY は、高リソース言語で徹底的にテストされている。
- Segment any Text (SAT) (Minixhofer et al., 2023; Frohmann et al., 2024) は、トークンレベルで文の境界を予測するモデルとアダプターのスイートを提供する。SAT は、特に句読点や大文字に過度に依存することを回避し、摂動に対して耐性があるように設計されている。これは、これらの従来のマーカーがしばしば欠落しているドメインで役立つ。ただし、SAT のセグメンテーションの品質は、「適切な」分割確率しきい値の選択に依存する。
さらに、文字単位の最大文長制限を組み込むことで、両方のメソッドをカスタマイズする。これらの拡張機能を SPACY Capped および SAT Capped と呼ぶ。長い文は、SPACY の句読点マークに基づくルールベースのアプローチを使用して、論理的に一貫した小さなフラグメントに分割される。SAT の場合、提供された分割確率推定値を利用して、次の最適な分割の可能性を特定する。
特定のセグメンターの有効性を測定するために、AUTOBLEU を使用して再構成された文の品質を評価する。これは、セグメントをエンコードした後の SONAR ベクトルからデコードされたテキストと、参照セグメントを比較する BLEU スコア (Papineni et al., 2002) として定義される。良好なセグメンテーションでは、信号の損失なしにエンコードおよびデコードできるセグメントが生成され、したがって、より高い AUTOBLEU スコアが得られる。
この分析のために、事前トレーニングデータセットから約 50 万文を表す 1 万のドキュメントをサンプリングする。ドキュメントは各セグメンターで処理され、文がエンコードされてからデコードされ、AUTOBLEU スコアが計算される。元の文の長さに基づいて結果を層別化する。
図 3 に示すように、200 文字でキャッピングすると、SAT Capped メソッドは SPACY Capped よりもわずかに優位性を示す。ただし、両方の非キャッピングセグメンターは、すべての文長で大幅なパフォーマンス低下を示す。このパフォーマンスの低下は、250 文字を超える文で特に顕著であり、キャッピングなしでセグメンターを使用することの制限を強調している。
したがって、SAT Capped を使用して LCM トレーニングデータを準備する。SONAR 埋め込みの大量処理時に直面する技術的およびエンジニアリング上の課題については、付録 A で説明する。
2.3 大規模概念モデルのバリアント
LCM の設計は、連続的な文の埋め込みを条件付きで生成する必要性によって推進される。これは、現在の LLM がどのように機能するか、つまり、離散トークンの語彙に対する確率分布を推定することとは明らかに対照的である。タスクを解決する簡単な方法は、MSE 損失を最小化する目的で埋め込みを生成するトランスフォーマーモデルをトレーニングすることである (セクション 2.3.1 参照)。ただし、特定のコンテキストには、意味的に異なる多くの妥当な継続が存在する可能性がある。したがって、モデルは、次の文の連続埋め込みに対する条件付き確率分布を学習できる必要がある。
連続データに対するそのような条件付き確率分布を学習することを目的としたコンピュータビジョンの研究はたくさんある (Dhariwal and Nichol, 2021; Rombach et al., 2021)。Dall-E 3 (Betker et al., 2023) や Imagen Video (Ho et al., 2022) のようなモデルは、テキストプロンプトから画像またはビデオを生成するために拡散プロセスを使用する。多くの異なる実際の画像が同じ入力プロンプトを満たす可能性があるため、モデルは連続ピクセルデータに対する確率分布を学習する必要がある。これにより、文の埋め込み生成のための拡散モデルの探索が促される。セクション 2.3.3 と 2.3.4 で 2 つのバリアントを紹介する。連続データ生成に対するもう 1 つの一般的なアプローチは、最終的に離散単位でモデル化するためにデータを量子化することである。セクション 2.3.5 で量子化を使用した LCM モデリングを探索する。
2.3.1 ベース LCM
次の概念予測のベースラインアーキテクチャは、先行する概念 (読み取り文の埋め込み) のシーケンスを将来のシーケンスに変換する標準的なデコーダーのみのトランスフォーマーである。図 4 に示すように、BASE-LCM には「PostNet」と「PreNet」が装備されている。PreNet は、入力 SONAR 埋め込みを正規化し、モデルの隠れ次元 dmodel にマッピングする。
PreNet(x) = normalize(x)Wpre + bpre,
PostNet(x) = denormalize (xWpost + bpost),
ここで、Wpost ∈ RdSONAR×dmodel, bpost ∈ RdSONAR, Wpre ∈ Rdmodel×dSONAR, bpre ∈ Rdmodel.
「正規化」とその逆「非正規化」のマップを学習するために、異なるコーパスとテキストデータのドメインからランダムにサンプリングされた SONAR ベクトルのセットにロバストスケーラーを適合させる。このスケーラーは、中央値統計を削除し、四分位範囲 (IQR) に従ってデータをスケーリングする。
normalize(x) = (x - μ) / σ, denormalize(x) = μ + σx.
BASE-LCM は、次の概念予測の半教師ありタスクでトレーニングされる。つまり、モデルは次の概念 Ân を予測し、そのパラメーター θ は、グランドトゥルースの次の概念 (xn) を回帰するように最適化される。
Ân = f(x<n; θ), MSE(Ân, xn) = ||Ân - xn||2.
ドキュメント (概念のシーケンス) のデータ分布 q が与えられた場合、トレーニング損失は次のように評価される。
LBASE-LCM(θ) = Σn=1 Ex~q [MSE (f(x<n; θ), xn)].
推論時に可変長のドキュメントの生成を可能にするために、トレーニングドキュメントに「テキストの終わり」という文を接尾辞として追加する。ドキュメント内の任意の文と同様に、この特別な接尾辞は SONAR でエンコードされる。これは、x|x| = eot := encode("テキストの終わり") を意味する。推論中、2 つの主要な早期停止メカニズムを実装する。1 つ目は、生成された埋め込み Ân と eot の類似性を測定し、コサイン類似性がしきい値 seot を超えると停止する。2 つ目のメカニズムは、新しく生成された埋め込み Ân を前の生成 Ân-1 と比較し、コサイン類似性がしきい値 sprev より大きい場合は停止する。seot と sprev の両方を 0.9 に設定する。
2.3.2 拡散ベース LCM
拡散ベース LCM は、データ分布 q を近似するモデル分布 pe を学習する生成潜在変数モデルである。BASE-LCM と同様に、拡散 LCM を、ドキュメント内で一度に 1 つずつ概念を生成する自己回帰モデルとしてモデル化する。したがって、モデル分布は、シーケンスの各位置 n で po(xn|x<n) として表現される。つまり、次の概念の生成は、先行するコンテキストに基づいて条件付けられる。
以下では、ノイズ除去/拡散ステップ (t ∈ [0, 1]) に上付き文字を使用し、概念のシーケンスのインデックス付けに下付き文字 (n) を使用する。特定の n について、条件付きモデル分布 Po(xn) を Po(x0) として簡略化し、条件付きデータ分布 q(x|xn) を q(x0) として簡略化する。
拡散モデルには、順方向ノイズプロセスと逆ノイズ除去プロセスの 2 つのプロセスが含まれる (Ho et al., 2020; Song et al., 2020):
順方向プロセスとノイズスケジュール
順方向プロセスは、すべてのタイムステップ t ∈ [0,1] について、q(xt|x0) の周辺分布によって特徴付けられるガウス拡散プロセスである。
q(xt|x0) := N(αtx0, σt2I).
再パラメーター化トリックを使用すると、この周辺分布から次のようにサンプリングできる。
xt = αtx0 + σtε where ε ~ N(0, I)
分散を保持する順方向プロセス (Karras et al., 2022) を使用する。
αt2 = sigmoid(λt), σt2 = sigmoid(-λt) = 1 - sigmoid(λt), λt = log(αt2/σt2),
ここで、λt はタイムステップ t のログ信号対ノイズ比 (ログ SNR) である。
ノイズスケジュールは、タイムステップ t ∈ [0, 1] をログ SNR レベルにマッピングする厳密に単調に減少する関数 ft である: λt = ft(t)。
以前の研究では、離散的な分散スケジュール (β0, ..., βT) に基づいてノイズスケジュールを定義することも一般的である。これは、分散スケジュールに従ってガウスノイズを徐々にデータに追加する離散時間マルコフ連鎖としての順方向プロセスの定式化に由来する。
q(x1...T|x0) := ΠT t=1 q(xt|xt-1), q(xt|xt-1) := N(xt; √1 - βtxt-1, βtI),
表記を簡略化するために、タイムステップが離散化されたため、xt は xt/T を短縮したものである。
分散スケジュール (βt)t から、ノイズスケジュールは次のように表すことができる。
αt2 = Πts=1(1 - βs).
Kingma and Gao (2024) に従って、特定のノイズスケジュールに対して、トレーニング中にすべてのノイズレベルで費やす時間を特徴付けるために、ノイズレベル p(x) = -dt/dX の分布を視覚化する。
本研究では、3種類のノイズスケジュールを検討する。
コサイン: Nichol and Dhariwal (2021) で定式化されたスケジュールは次のとおりである。
αt2 = f(t)/f(0), where f(t) = cos2((t + s)π/(1 + s2)), where s = 0.008.
二次: Ho et al. (2020) で導入されたスケジュールで、分散 (βt)t は β0 から β1 まで二次的に増加する定数に設定される。
βt/T = (√β0 + (t/T)(√β1 - √β0))2
シグモイド: 本研究では、モデルのトレーニングにおける SNR 分布の影響を研究する手段として、シグモイドスケジュールを導入する。このスケジュールは、2 つのハイパーパラメーター (γ, δ) によってパラメーター化され、次のように定義される。
αt2 = f(t)/f(0), where f(t) = sigmoid (δ - γ logit(t)),
ここで、「シグモイド」はシグモイド関数 sigmoid: x → ex/(ex + 1) であり、「ロジット」はその逆関数 logit: x → log(x/(1 - x)) である。ハイパーパラメーター γ はログ SNR 分布 p(x) のスケールを制御し、δ はその中心を制御する (図 5 参照)。
すべての実験で、Lin et al. (2024) に従い、分散スケジュール (β1, ..., βT) を再スケーリングして、ゼロ終端 SNR、つまり βT = 1 を強制する。
逆プロセスと目的関数
拡散モデル po(x0...1) の結合分布は逆プロセスと呼ばれ、p(x1) = N(0, I) で始まる学習されたガウス遷移を持つマルコフ連鎖として定義される。離散化された形式では、次のようになる。
po(x0:T) := p(xT) ΠTt=1 po(xt-1|xt), po(xt-1|xt) := N(xt-1; μθ(xt, t), Σθ(xt, t)),
ここで、μθ と Σθ は予測された統計量である。Σθ は、順方向プロセスの遷移と一致するように、定数 I に設定される。μθ は、xt-1 とノイズ近似モデル εθ の線形結合に分解できる。この予測方法は、ε予測 (Ho et al., 2020; Nichol and Dhariwal, 2021; Nichol et al., 2022) と呼ばれる。本研究では、x0 予測を採用する。つまり、ノイズのない状態を予測し、単純な再構成損失を最適化する。
L(θ) := Et~U(0,1) [w(t)L(t, θ)], L(t, θ) := Ex0,ε [||x0 - μθ(αtx0 + σtε, t)||2].
再構成損失に対するさまざまな重み付け戦略が文献で提案されている (Ho et al., 2020; Salimans and Ho, 2022; Hang et al., 2023)。本研究では、デフォルトで単純な再構成損失 (w(t) = 1, ∀t) を使用し、クランプされた SNR 重み付け戦略を試す。
w(t) = max(min(exp(λt), λmax), λmin), λt = log(αt2/σt2),
これは、Salimans and Ho (2022) の切り捨てられた SNR 重み付けと Hang et al. (2023) の最小 SNR 戦略の一般化であり、SNR は最小値と最大値 λmin および λmax の間でクランプされる。
さらに、サンプル x0 の品質に影響を与える重み付け戦略を検討する。サンプル重みとして、サンプルの脆弱性スコア、つまりノイズのあるサンプルを再構成するのがどれほど簡単であるかに関連付けられたスカラー w(x0) ∈ [0,1] を使用する (セクション 2.5.2 を参照)。脆弱なサンプルにはより小さな重みが割り当てられ、したがって、目的関数への寄与が少なくなる。
Lfragility(θ) := Et~U(0,1),x0,ε [w(x0) ||x0 - μθ(αtx0 + σtε, t)||2],
w(x0) = sigmoid(a fragility(x0) + b),
ここで、a < 0 および b は調整するハイパーパラメーターである。
LCM のための分類器フリー拡散ガイダンス
分類器フリー拡散ガイダンス (Ho and Salimans, 2022) は、条件付き拡散モデルと無条件拡散モデルを共同でトレーニングすることで構成される。結果として得られた条件付きスコア推定値と無条件スコア推定値は、推論時に結合されて、サンプル品質と多様性のトレードオフを実現する。この結合されたスコアは、次のように定義される。
∇x log p(x|y) = (1 - γ)∇x log p(x) + γ∇x log p(x|y),
ここで、y は条件付け変数であり、この場合、ノイズ除去時に先行する埋め込み (x1, ..., xn-1) のシーケンスである。
ハイパーパラメーター γ は、条件付きスコアの寄与を制御する。γ = 0 の場合、これは無条件モデルと同等であり、γ = 1 の場合、完全に条件付きモデルである。ビジョンモデルの場合、実際には、γ は 1 より大きい値に設定され、条件付けモデルからの信号を増幅する。
推論
推論時には、逆プロセスが適用される。xT は p(xT) = N(0, I) からランダムノイズをサンプリングすることで取得され、次に、スコア関数の方向 (つまり、対数尤度が最も速く増加する方向) にステップを実行することによって反復的にノイズ除去される。分布のモードに陥るのを避けるために、プロセス中に追加のノイズが追加される。
実際には、xT ~ N(0, σinitI) から開始し、サンプリングされた出力の品質が初期ノイズスケール σinit に敏感であることがわかる。
モデルを多数の離散化されたタイムステップ (例: T=100) でトレーニングするが、加速された生成プロセス (Song et al., 2020) を介して推論時に、より少ないステップ数 (例: S=40) でのみ生成する。Lu et al. (2022) のトレーリングメソッドに従ってサンプルステップを選択する。これは、ステップ数が少ない S (Lin et al., 2024) により効率的であることがわかっている。つまり、サンプリングされたステップ (T1, ..., TS) = round(flip(arange(T, 0, -T/S))) に沿って生成する。推論中、画像合成拡散モデルで遭遇する画像過剰露出問題を軽減するために証明された Lin et al. (2024) の分類器フリーガイダンス再スケーリング手法を採用する。ガイダンススケールとガイダンス再スケーリング係数をそれぞれ gscale と grescale で表す。
Ning et al. (2023) に従って、推論時にイプシロン スケーリングを実行する。これは、拡散モデルの露出バイアス問題を軽減することが示されているためである。簡略化されたバージョンでは、これは、スカラー λeps でエラーの過剰予測された大きさを縮小するトレーニングフリーの方法である。
セクション 2.3.3 およびセクション 2.3.4 で、2 つの拡散 LCM バリアント、ONE-TOWER と TWO-TOWER について説明する。
2.3.3 ワンタワー拡散LCM
図 6 の左側のパネルに示されているこのモデルは、ノイズの多い入力 xmt が与えられた場合に、クリーンな次の文の埋め込み x0 を予測するタスクを持つ、単一のトランスフォーマーバックボーンで構成される。トレーニング中、自己注意は、無条件トレーニングの特定の確率でドロップできる。これにより、推論時に分類器フリーガイダンスが可能になる (詳細についてはセクション 2.3.2 を参照)。
各入力埋め込みは、対応する拡散タイムステップ埋め込みと連結される。学習された位置埋め込みは、LCM に供給される前に入力ベクトルに追加される。バックボーンは、因果マルチヘッド自己注意を利用する。
効率的なトレーニングのために、モデルはドキュメント内のすべての文を一度に予測するようにトレーニングされる。図 7 に示すように、拡散プロセス中、モデルは因果マルチヘッド注意レイヤーを使用して、コンテキスト内のクリーンな文に注意する。入力は、ノイズのある (青) およびクリーンな (水色) 文の埋め込みをインターリーブすることによって特別に準備され、注意マスクは、クリーンな文の埋め込み (灰色の矢印) のみに注意するように準備される。
2.3.4 ツータワー拡散LCM
このモデルは、図 6 の右側のパネルに示されているように、先行するコンテキストのエンコードを次の埋め込みの拡散から分離する。ラベル付けされたコンテキスト化器である最初のモデルは、コンテキストベクトル x<n を入力として受け取り、因果的にエンコードする。つまり、因果自己注意を備えたデコーダーのみのトランスフォーマーを適用する。コンテキスト化器の出力は、次に、ノイズ除去器と呼ばれる 2 番目のモデルに供給される。これは、反復的に潜在的な xm ~ N(0, I) のノイズを除去することによって、クリーンな次の文の埋め込み x0 を予測する。
ノイズ除去器は、エンコードされたコンテキストに注意するためのクロスアテンションブロックを備えたトランスフォーマーブロックのスタックで構成される。ノイズ除去器とコンテキスト化器の両方が、同じトランスフォーマー隠れ次元 dmodel を共有する。ノイズ除去器の各トランスフォーマーレイヤーの各ブロック (クロスアテンションレイヤーを含む) は、適応レイヤー正規化 (AdaLN, Perez et al. (2018); Peebles and Xie (2023)) で変調される。TWO-TOWER の AdaLN モジュレーターは、現在の拡散タイムステップ t の埋め込みからチャネルごとのスケール (γ)、シフト (β)、および残差ゲート (α) を回帰する。
[β, γ, α] = SiLU(embed(t))W+ + b,
y = x + α Block((1 + γ) x + β),
Peebles and Xie (2023) と Goyal (2017) に従って、式 (21) の W と b をゼロに初期化することにより、トランスフォーマーレイヤー (「ブロック」) の各残差ブロックを恒等関数で初期化する。
図 8 に示すように、トレーニング時間中に、複数の埋め込みを並行してノイズ除去するために、TWO-TOWER 順方向パスを実行する。右側のパネルには、ノイズ除去器のクロスアテンションマスクの視覚化が表示され、赤色で強調表示された行は、ノイズ除去器を無条件にトレーニングするためにドロップされたサンプルを示している。(h1, ..., h4) は、クロスアテンションレイヤーの直前のノイズ除去器の中間表現のシーケンスを表す。
拡散タイムステップ t は、256 次元周波数埋め込み (Dhariwal and Nichol, 2021; Peebles and Xie, 2023) の後に、活性化関数として SiLU を使用した 2 層 MLP が続くことによって埋め込まれる。「埋め込み」は、ノイズ除去器の隠れ次元 dmodel にマッピングする。ノイズ除去器の自己注意レイヤーは、現在の位置のみに注意する。つまり、先行するノイズのあるコンテキストには注意しない。自己注意レイヤーは、標準的なトランスフォーマーブロックとの一貫性のため、および一度に複数のベクトルをノイズ除去する可能性のある拡張のために保持された。
TWO-TOWER トレーニング
トレーニング時には、TWO-TOWER のパラメーターは、埋め込みの教師なしシーケンスでの次の文の予測タスクに対して最適化される。コンテキスト化器からの因果埋め込みは、ノイズ除去器で 1 つの位置だけシフトされ、そのクロスアテンションレイヤーで因果マスクが使用される。シーケンスの最初の位置の予測を可能にするために、ゼロベクトルがコンテキストベクトルに先頭に追加される (図 8 参照)。分類器フリーガイダンススケーリングを使用した推論の準備として、モデルを条件付きおよび無条件の両方でトレーニングするために、クロスアテンションマスクからランダムな行を Pcfg のレートでドロップし、コンテキストとしてゼロベクトルのみを使用して、対応する位置をノイズ除去する。
2.3.5 量子化されたLCM
現在、画像または音声生成分野で連続データ生成を処理するために使用されている主なアプローチは 2 つある。1 つは拡散モデリングであり、もう 1 つはこれらの離散単位の上でモデリングする前にデータの量子化を学習することである。
さらに、テキストモダリティは離散的なままであり、SONAR 空間で連続表現を処理しているにもかかわらず、(指定された文字数未満の) 可能なすべてのテキスト文は、SONAR 空間内の実際の連続分布ではなく、点のクラウドである。これらの考慮事項は、SONAR 表現の量子化を探索し、次の文の予測タスクに対処するためにこれらの離散単位でモデリングすることを促す。最後に、このようなアプローチに従うことで、温度、トップ p、またはトップ k サンプリングを自然に使用して、次の文の表現のサンプリングにおけるランダム性と多様性のレベルを制御できる。
このセクションでは、SONAR 空間の残差量子化器を学習し、次にこれらの離散単位に基づいて量子化された大規模概念モデルを構築する。アプローチを比較できるように、拡散 LCM モデルにできるだけ近いアーキテクチャを考案しようとした。
残差ベクトル量子化 (RVQ; Zeghidour et al. (2021)) を、SONAR 表現を離散化するための粗いから細かい量子化技術として使用する。ベクトル量子化は、連続入力埋め込みを学習されたコードブック内の最も近いエントリにマッピングする。RVQ は、各反復で追加のコードブックを使用して、前の量子化からの残差エラーを反復的に量子化する。残差の反復 k 平均法クラスタリングを実行する FAISS 実装 (Douze et al., 2024) を使用する。メモリ効率のためにビームサイズ 1 の Liu et al. (2015) の改良された残差ベクトル量子化 (IRVQ) メソッドを使用する。Common Crawl から抽出した 1500 万の英語文で RVQ コードブックをトレーニングし、ncodebooks = 64 の量子化器数と Nunits-per-codebook = 8192 のコードブックあたりのユニット数を使用する。
RVQ の 1 つの特性は、最初のコードブックの重心埋め込みの累積和が、入力 SONAR ベクトルのほぼ中間粗近似であるということである。このようにして、量子化された埋め込みをデコードするために SONAR テキストデコーダーを使用する前に、SONAR 埋め込みを量子化するために使用されるコードブックの数が増加するにつれて、自己エンコード BLEU スコアの進化を報告できる。図 9 では、コードブックの数が増加するにつれて自己エンコード BLEU が一貫して向上し、すべての 64 コードブックを使用すると、連続 SONAR 埋め込みで達成された自己エンコード BLEU スコアの約 70% に達することがわかる。
120 万の英語文で量子化器によって作成された空間に合わせて調整するために、量子化された表現で SONAR デコーダーを微調整する。中間コードブックからの残差表現に対してデコーダーをより堅牢にするために、微調整中にコードブック番号 k ∈ [3・Ncodebooks, Ncodebooks] を確率 p = 0.3 でランダムに選択し、最大 k までのコードブックで量子化された表現を使用する。図 9 は、デコーダーが量子化された表現に適応された場合の自己エンコードパフォーマンスの向上を示している。
QUANT-LCM アーキテクチャ
拡散 LCM と同様に、左コンテキスト文に基づいて条件付けられた SONAR 埋め込みの粗いから細かい生成を目指す。ただし、拡散モデリングのようなノイズ除去タスクには従わないが、中間量子化された表現に基づく SONAR 埋め込みの反復生成を行う。左コンテキスト文に基づいて条件付けられた SONAR 埋め込みを生成するために、QUANT-LCM モデルは、中間表現をゼロで埋められたベクトルとして開始する。反復的に、この中間表現に予測された残差重心埋め込みを追加する。このようにして、予測された SONAR 埋め込みは、すべてのコードブックが使用されるまで、最初のコードブックの重心埋め込みの累積和に基づいて反復的に改良される。
離散ターゲット
残差量子化器からの離散単位をモデリングする以前の研究 (Wang et al., 2023; Rubenstein et al., 2023; Lee et al., 2022) に従って、Quant-LCM は、ソフトマックス出力レイヤーでパラメーター化された、次のコードブックからのユニットを予測するようにトレーニングできる。パラメーター効率のために、ncodebooks · Nunits-per-codebook の固有のインデックスを離散ターゲットとして使用しない。これは、ncodebooks · Nunits-per-codebook の出力次元を意味するが、モデルにコードブックインデックスの情報のみを入力しながら、Nunits-per-codebook の出力次元のみを使用する。トレーニング時には、拡散 LCM トレーニングと同様に、1 から ncodebooks の間でコードブックインデックス k をランダムにサンプリングし、最初の k-1 コードブックの重心埋め込みの累積和を入力として計算する。クロスエントロピー損失計算のターゲットインデックスとして、ターゲット埋め込みのコードブック k からのユニットを使用する。推論時には、次のコードブックからのユニットを反復的に予測し、対応する重心埋め込みを取得し、追加の予測残差埋め込みとして現在の中間表現に追加する。最後に、セクション 2.3.3 で前述したように、トレーニング中に左コンテキスト条件付けをランダムにドロップすることにより、推論時にロジットで分類器フリーガイダンスを有効にする。離散ターゲットを使用したこのモデリングアプローチは、以下のセクションで QUANT-LCM-D と呼ばれる。量子化された表現の改善された SONAR デコーダーは、QUANT-LCM-D を使用した後の次のアブレーション研究で SONAR 量子化から生じる圧縮ギャップを埋めるために使用される。
連続ターゲット
左コンテキスト文とターゲットベクトルの量子化された中間表現に基づいて、連続ターゲット SONAR ベクトルを予測し、予測とターゲット埋め込みの間の平均二乗誤差を最小化するモデリングアプローチも探索する。推論時には、予測された残差 r に基づいて最も近い重心埋め込みを反復的に追加するか、次の分布から重心 ci をサンプリングできる。
p(ci|r) = exp(-β||ci - r||2) / Σk exp(-β||ck - r||2),
ここで、β は温度ハイパーパラメーターである。連続ターゲットを使用したこのモデリングアプローチは、次のセクションで QUANT-LCM-C と表記される。
2.4 アブレーション
このセクションでは、前述の LCM 設計を評価するために実施されたアブレーション実験について説明する。上記で紹介したすべての LCM のバリアント、つまり、BASE-LCM、ONE-TOWER、TWO-TOWER、および QUANT-LCM を比較する。
2.4.1 実験設定
アブレーション研究と再現性のために、FINEWEB-EDU データセット (Lozhkov et al., 2024) でモデルを事前トレーニングする。すべてのモデルは、約 16 億のトレーニング可能なパラメーターを持つように構成されており、Meta の Research Super Cluster (RSC, Lee and Sengupta (2022)) で、229k 概念の合計バッチサイズで 32 個の A100 GPU にまたがる 250k 最適化ステップで事前トレーニングされている。
モデルアーキテクチャ BASE-LCM は、32 レイヤーとモデル次元 dmodel = 2048 を持ち、16 個の注意ヘッドを持つ。回転位置埋め込み (ROPE, Su et al. (2024)) を使用し、RMSNorm (Zhang and Sennrich, 2019) を使用して事前正規化を適用し、SwiGLU 活性化関数 (Shazeer, 2020) を使用し、p=0.1 のドロップアウト率でトレーニングされる。
ONE-TOWER 拡散 LCM は、32 個のトランスフォーマーブロックで構成され、それぞれ 32 個の注意ヘッドを備えた自己注意レイヤーと、内部サイズ 8192 のフィードフォワードニューラルネットワークで構成される。次元 dmodel は 2048 であり、学習された位置埋め込みを使用する。ノイズスケジューラーは、T=100 の拡散タイムステップで設定される。トレーニング中、自己注意は、推論時に分類器フリーガイダンスを有効にするために、無条件トレーニングの場合に 0.15 の確率でドロップされる。
TWO-TOWER 拡散 LCM は、コンテキスト化器に 5 つのレイヤー、ノイズ除去器に 13 のレイヤーがある。BASE-LCM と同様に、16 個の注意ヘッド、モデル次元 dmodel = 2048 を持ち、コンテキスト化器とノイズ除去器の両方で SwiGLU 活性化と RMSNorm を使用する。コンテキスト化器は、埋め込み位置に ROPE を使用するが、ノイズ除去器は位置埋め込みを使用しない。デフォルトでは、T=100 のコサインノイズスケジュールを使用し、p=0.1 のドロップアウト率でトレーニングする。モデルを無条件にトレーニングするために、0.15 のレートのクロスアテンションマスクドロップアウトを使用する (セクション 2.3.4 を参照)。事前トレーニングドキュメントは、128 文でラップされる。特に記載がない限り、ガイダンススケール gscale = 3、ガイダンス再スケーリング係数 grescale = 0.7、初期ノイズスケール σinit = 0.6、および λeps = 1.00045 のイプシロン スケーリングで S=40 サンプルステップでデコードする。
3 Scaling the model to 7B
このセクションでは、モデルを7Bパラメータにスケールアップし、要約や要約拡張などのより困難なタスクでの性能を他のアプローチと比較する取り組みについて述べる。
3.1 評価タスクとデータ
このセクションでは、提案モデルの評価とベンチマークに使用するタスクについて説明する。データセット、ベースライン、メトリクスについて詳しく述べる。
3.1.1 メトリクス
長文テキスト生成がLCMの主な課題であるため、ベンチマークは自動評価が難しい生成タスクに焦点を当てる。そのため、生成品質の相補的な側面に着目して選択された複数の自動メトリクスを用いて評価する。
要約と要約拡張(後述)については、従来の参照ベースのROUGE-Lメトリクスを報告する。要約モデルはソースまたは生成されたプレフィックスからコンテンツをコピーする傾向があるため、追加の単語ベースのメトリクスを報告する。ソースから直接コピーされたコンテンツの量を評価するために、出力に存在するソースの単語3グラムの割合(OVL-3)を報告する。生成されたテキストの反復性を評価するために、出力に複製された単語4グラムの割合(REP-4)を報告する。
要約に焦点を当てたニューラル評価を補完するために、Clark et al. (2023)によって導入された2つのメトリクスを使用する。Q4(要約内のすべての情報がソースに完全に起因するかどうか)のSEAHORSE分類子の平均確率(SH-4と表記)と、Q5(要約がソースの主要なアイデアを捉えているかどうか)のSEAHORSE分類子の平均確率(SH-5と表記)である。
生成された文全体の流暢さの指標として、Krishna et al. (2020)によってCOLAデータセットで訓練された分類器によって予測された、文が言語的に許容される平均確率(COLAと表記)を報告する。生成されたテキストのローカルなコヒーレンスを評価するために、各n番目とn+2番目の文の間の平均コサイン類似度(Parola et al., 2023)を報告する。
3.1.2 要約
タスクとデータセット。比較的長いドキュメントを考慮する場合、要約タスクは、長いドキュメントに含まれる本質的な情報と、さまざまな重要な情報を結びつける論理構造を含む、対応する短いドキュメントを生成する行為として記述できる。
要約技術は、より抽出的なものからより抽象的なものまで多岐にわたる。抽出的な技術は、長いドキュメントにある語彙を要約内で維持しようとし、詳細や余分な表現を削除することで長いドキュメントを短縮する。一方、抽象的な技術は、長いドキュメントにある本質的な情報を言い換えて要約を生成しようとする。我々の研究は、理解と推論なしには実行できない抽象的な要約に焦点を当てる。
CNN DAILYMAIL (Hermann et al., 2015)とXSUM (Narayan et al., 2018)のデータセットを使用する。また、約5k語の長いドキュメントを入力とする、困難なLCFOコーパス(Costa-jussà et al., 2024)の結果も報告する。タスクは、入力ドキュメントの20%、10%、5%の長さを表す抽象的な要約を提供することである。詳細な統計は表9に記載されている。
ベースライン。CNN DAILYMAILとXSUMについては、要約タスクで優れた性能を発揮することが知られているさまざまなアーキテクチャ(エンコーダーデコーダートランスフォーマー、デコーダーのみのLLM)のいくつかのベースラインと比較する。エンコーダーデコーダートランスフォーマーモデルについては、T5 (Raffel et al., 2020)を使用する。デコーダーのみのLLMについては、GEMMA-7B、LLAMA-3.1-8B、MISTRAL-7B-v0.3を選択する。同じトレーニング体制でLCMと比較するために、公開されている命令調整モデルを選択し、同様のサイズ(7B)を持つ。T5はLCMよりもはるかに小さいサイズだが、これはターゲット評価データセットで明示的に微調整されたモデルを使用することで補完されることに注意する。
要約結果。表10には、要約(CNN DAILYMAILとXSUM)のためのさまざまなベースラインとLCMモデルの結果が記載されている。LCMは、特に調整されたLLM(T5-3B)と比較して競争力のあるROUGE-Lスコアを生成し、さらに超えることもできることがわかる。
4 Large Concept Model Extensions
このセクションでは、大規模概念モデル(LCM)のいくつかの拡張について検討する。まず、要約拡張という新たなタスクでLCMを評価する。次に、LCMの優れたゼロショット汎化性能を示す。最後に、文を超えた高レベルの情報を追加するアプローチを検討する。
4.1 要約拡張
このタスクでは、要約を入力として与え、それに対応するより長いテキストを生成する。目標は、元のドキュメントの事実情報を再作成するのではなく、入力を意味のある流暢な方法で拡張するモデルの能力を評価することである。CNN DAILYMAILとXSUMの要約を基に、長いドキュメントを生成するタスクで評価を行った。結果として、LLMは入力の6倍の長さのテキストを生成する傾向があるが、LCMはCNN DAILYMAILでは同様の長さのテキストを生成する傾向があるが、XSUMでは異なる傾向があることがわかった。また、LLMはより高いROUGE-Lスコアを得る傾向があるが、LCMはより低いCOLAスコアを持つことがわかった。
4.2 ゼロショット汎化性能
SONARは200の言語を表現できる意味空間である。本論文では、これまで英語のテキストのみで実験を行ってきたが、このセクションでは、SONARの多言語データを活用することで、提案するLCMアプローチがゼロショットで他の言語を処理できる能力を検証する。XLSUMコーパスを使用し、多言語ROUGEスコアリングスクリプトを用いて評価を行った。結果として、LCMは英語でLLAMA-3.1-8B-ITを上回り、また、両モデルが公式にサポートしている6つの言語の平均でも上回った。さらに、LCMはパシュトゥー語南部、ビルマ語、ハウサ語、ウェールズ語など、多くのリソースが少ない言語にも非常にうまく汎化することがわかった。
4.3 明示的な計画の探求
長文テキストを書く場合、最初にどのように物語を構成するかを考えることが重要である。このセクションでは、計画能力を明示的に組み込むことで、より一貫性のある生成を可能にするアプローチを検討する。具体的には、まず、文のシーケンスを予測し、次に段落区切りなどの自然なトピックの区切りを表す「区切り」概念を予測する。区切り概念が予測されると、大規模計画モデル(LPM)が計画を生成し、その後のシーケンスの予測のためのLCMを条件付けする。このアプローチの初期実験として、LCMをマルチタスク設定で訓練し、区切り概念と計画の両方を予測する。結果として、LPCMはベースラインのONE-TOWER LCMよりも有意に高い一貫性スコアを達成した。これは、LPCMがより一貫性のある出力を生成する能力があることを示唆している。
5 Related work
このセクションでは、本論文の提案手法に関連する既存研究について概説する。
5.1 文表現
近年、効果的な文埋め込みの学習が盛んに行われている。特に、Transformerベースの言語モデルが、個々のトークンの文脈表現を学習することで、言語のセマンティクスを効果的に捉えることができるようになった。しかし、これらのモデルは文表現の生成には最適ではない。
初期の研究を基盤とし、汎用的な文表現を学習するために、二重エンコーダアーキテクチャが利用されてきた。これらのアーキテクチャは、ソースとターゲットを共通の埋め込み空間にエンコードし、意味的に同一の文を近似するようなアライメント損失を用いる。これらのアーキテクチャは、多言語データを利用して、言語間でアライメントされた汎用的な埋め込み空間を生成するように拡張されてきた。初期のアプローチでは、コントラスト損失を用いて翻訳をアラインさせていたが、トークンレベルの目的関数と文レベルの目的関数を組み合わせることで、翻訳データのみに基づいて多言語文表現の質を向上させることが示されている。
翻訳目的関数を活用して、汎用的な多言語文表現を生成する別の研究として、LASERやSONARがある。これらのモデルは、エンコーダとデコーダの間に固定サイズの文表現を持つエンコーダ・デコーダアーキテクチャを利用し、翻訳目的関数で学習される。SONARは、NLLB-200モデルから初期化され、200の言語をカバーし、最も広い言語カバレッジを持つオープンソースモデルの1つとなっている。また、教師あり学習アプローチを通じて、文エンコーダにアラインされた73言語のオープンソース音声エンコーダも提供している。SONARは、いくつかの研究の基礎として使用されており、その音声デコーダは、ゼロショット音声翻訳を実行するために、元の音声の表現力を維持するように拡張されている。
5.2 多言語LLM
主要なLLMのほとんどは、複数の言語のテキストで学習されている。しかし、これらのLLMの事前学習データは、主に英語のテキストであるように思われる。例えば、Llama3チームは、事前学習データに英語のテキストが大幅に多く含まれており、多言語データで継続的な事前学習が必要であると述べている。
特定の言語に最適化されたLLMを学習する取り組みもいくつかある。例えば、ドイツ語のLEOLM、イタリア語のFUANO、アラビア語のALLAMなどがある。
5.3 代替LLMアーキテクチャ
埋め込み空間における次の状態を予測することは、Joint Embedding Predictive Architecture (JEPA) の中心的なアイデアである。このアイデアは、画像やビデオに対して自己教師あり学習アプローチとして実装されているが、言語に対する同等のモデルはまだ探索されていない。
テキスト補完のために、Ippolitoらは、候補の有限集合から次の文を選択することで動作する文レベルの言語モデルを提案した。このモデルは、短いストーリーの適切な継続を選択することに成功したが、より長い入力や完全に生成的な出力にはスケールされていない。Golestaniらは、より制限された文順序設定で同様の問題を研究したが、アーキテクチャ上の選択肢をより徹底的に検討した。INSETアーキテクチャは、文を固定サイズのベクトルにエンコードし、それらをデコードするノイズ除去オートエンコーダと、欠落した文の埋め込みを予測する双方向Transformerを組み合わせることで、文の穴埋めタスクを解決している。
MarfurtとHenderson、およびCornilleらは、要約や一般的な言語モデリングのために、完全に生成的な設定で、予測された次の文の埋め込みを使用した。しかし、これらのアーキテクチャは、文レベルの接続を、文を跨ぐトークンレベルの接続への追加としてのみ考慮し、それらの置き換えとしては考慮しなかった。
最近の研究では、SentenceVAEアーキテクチャが、文エンコーダを使用して入力を準備し、文デコーダを使用して出力を生成することにより、文レベルで言語モデリングを実行している。しかし、その入力と出力の埋め込み空間は結びついていないため、推論は、予測された各文をテキストにデコードし、それを再エンコードしてコンテキストに追加することによってのみ可能である。
もともと連続データ用に開発された拡散モデリングを、離散テキストドメインに適応させようとする一連の研究もある。PLANNERアーキテクチャは、段落の変分オートエンコーダと、テキストコンテキストまたはクラスラベルを条件とする潜在オートエンコーダ表現を予測するように学習された拡散モデルで構成されている。Lovelaceらは、デコーダ専用の言語モデルを、継続テキストのエンコードされたセマンティック提案で拡張し、容易に誘導可能な拡散モデルが次の提案の埋め込みを予測する。TEncDMモデルは、コンテキストトークンの埋め込み空間で拡散を実行し、それらは非自己回帰的にデコードされる。
拡散をシーケンスモデリングに適用する一部のアプリケーションは、シーケンスモデルのプランニング能力をターゲットにしている。Semformerは、将来のトークンに関する情報を提供するように学習された特別なプランニングトークンを含めることで、複数のステップ先を計画するようにTransformer言語モデルを学習することを提案した。Yeらは、複数のステップのプランニングを必要とするタスクに適した、自己回帰生成の代替として、離散拡散を言語モデルに適用した。Ubukataらは、プランニングタスクへの拡散の応用について概説しているが、それらのほとんどは言語ドメインに関係していない。
全体として、以前の研究の多くは、言語モデリングや関連タスクに隠れた表現を使用していたが、それらのすべては、トークンレベルの入力または出力に依存しているか、任意の長さのテキストを生成することを意図していなかった。LCMは、高度にセマンティックで再構成可能な文表現空間で完全に実装された最初の完全生成言語モデルであるように思われる。
6 Limitations
本論文では、大規模概念モデリング(LCM)アプローチの限界について議論する。
まず、埋め込み空間の選択が重要であると指摘する。SONAR埋め込み空間は多言語・マルチモーダル表現に優れるが、短文の対訳データで学習されているため、グローバルな文脈把握や多様なテキストへの対応に課題がある。また、フリーズされたエンコーダの使用は、LCMモデリングとの連携が最適でない可能性があり、エンドツーエンド学習の難しさや言語・モダリティ間の共有表現の保証も課題となる。
次に、概念の粒度について議論する。文レベルでの概念定義は、多様な文の生成を困難にし、固定長の埋め込み表現は文の細かな分割を妨げる。また、学習データにおける文の重複の少なさは、モデルの汎化能力を制限する。
さらに、連続値と離散値のモデリングについて議論する。拡散モデルは連続データに有効だが、SONAR空間の文は離散的な組み合わせオブジェクトであるため、拡散モデルの適用が困難になる。また、クロスエントロピー損失に基づくsoftmax出力は、高精度なタスクに重要だが、連続的な拡散モデリングでは統合が難しい。QUANT-LCMは離散的なテキストを扱う方法を提供するが、SONAR空間の効率的な量子化が課題となる。
最後に、新しい表現空間の開発の重要性を強調する。
7 Acknowledgments
本研究の遂行にあたり、Robbie Adkins, Can Balioglu, Joy Chen, Pascale Fung, Jason Holland, Amita Kamath, Justine Kao, Sagar Miglani, Alice Rakotoarison, Abhilasha Sancheti, Arjang Talattof, Ellen Tan, Carleigh Wood, Shireen Yates, Bokai Yu, Luke Zettlemoyerの各氏に、コメントや提案、および論文の改善にご協力いただいたことに感謝する。
8 Conclusion and Future Work
本論文では、大規模言語モデル(LLM)の現状のアーキテクチャであるトークンレベルでの処理に疑問を呈し、より高次の意味レベルでの抽象的な「概念」に基づく新しいアーキテクチャであるLarge Concept Model(LCM)を提案した。このモデルは、特定の言語やモダリティに依存せず、高次元の埋め込み空間で処理を行う。
LCMの実現可能性を検証するため、概念をテキストドメインの文や同等の音声セグメントに対応させ、自由に入手可能なSONAR文エンコーダで埋め込みを取得した。LCMのアーキテクチャについては、埋め込み空間でのMSE損失最小化だけでなく、拡散プロセスに基づくONE-TOWERやTWO-TOWER LCM、SONAR表現の量子化に基づくQUANT-LCMなど、様々なアプローチを検討した。これらのモデルを16億パラメータで評価し、文の連続生成タスクに焦点を当てた。その後、モデルを70億パラメータにスケールアップし、要約や要約拡張タスクで他の公開モデル(GEMMA、MISTRAL、LLAMA)と比較した。
LCMは、ゼロショット汎化性能が高く、英語テキストのみで学習したモデルを、他の言語のテキストに適用できることを示した。LCMは、英語だけでなく、他の言語でもLLAMA-3.1-8B-ITを上回る結果を示した。また、LCM自体を多言語・多モダリティデータで学習させ、知識を習得させる可能性についても言及した。
次文予測は、次トークン予測よりもはるかに難しいことが示唆された。これは、埋め込み空間での操作や高次意味レベルでの処理による可能性のある文の数が事実上無制限であること、文脈が与えられても次文の選択には曖昧さが残ること、固定サイズのトークン語彙に基づくsoftmax出力層が全ての可能なトークン継続に対する正規化された確率分布を提供することなどが原因として挙げられた。
拡散プロセスは出力埋め込み空間での確率分布を学習できる可能性があるが、現時点での実験結果では、LCMの特性を十分に活用するには更なる研究が必要であることが示唆された。例えば、複数の埋め込みをサンプリングし、スコアを関連付けることで、ビームサーチによって最適な文のシーケンスを見つけられるようにする必要がある。また、小さなモデリングエラーが、構文的・意味的に正しい文にデコードできない埋め込み空間での予測につながる可能性についても触れた。
今後の研究では、次文予測タスクに適した代替概念埋め込みを検討し、その埋め込み空間でのモデリングアプローチを改善していく。本論文で議論されたモデルや結果は、科学的多様性を高め、大規模言語モデリングの現状のベストプラクティスから脱却するためのステップとして捉え、今後の研究を促進し、機械知能の分野の進歩に貢献することを目指す。
References
本論文では、大規模言語モデル(LLM)に代わるアーキテクチャとして、高次元の埋め込み空間で動作する「Large Concept Model (LCM)」を提案している。この提案を裏付けるため、関連研究として、多言語文表現、多言語LLM、代替LLMアーキテクチャ、拡散モデルを用いた言語モデリングに関する既存の研究をまとめている。
多言語文表現に関する研究では、文のセマンティクスを効果的に学習するためのさまざまなアプローチが紹介されている。これらのアプローチには、dual encoderアーキテクチャ、翻訳目的の活用、およびタスク固有のプロンプトやパラメータを使用した埋め込みの変更が含まれる。また、LASERやSONARなどのモデルは、多言語データを用いて学習された固定サイズの文表現を生成することができ、これらのモデルは、さまざまなタスクで優れたパフォーマンスを発揮することが示されている。
多言語LLMに関する研究では、さまざまな言語をサポートするLLMのトレーニングに関する取り組みが紹介されている。これらのモデルは、言語カバレッジと機能のバランスを取る必要があり、トレーニングデータ、モデルアーキテクチャ、および微調整技術の選択によって、そのパフォーマンスが大きく異なる。
代替LLMアーキテクチャに関する研究では、埋め込み空間での次の状態の予測、文レベルの言語モデリング、および拡散モデルを用いた言語モデリングなど、さまざまなアプローチが紹介されている。これらのアプローチは、トークンレベルの操作に代わる方法を提供し、テキスト生成のさまざまな側面を改善することを目的としている。
拡散モデルを用いた言語モデリングに関する研究では、連続データに適用されてきた拡散モデルをテキストドメインに適応させるためのさまざまなアプローチが紹介されている。これらのアプローチは、テキスト生成の品質と多様性を改善することを目的としており、計画能力を組み込むこともできる。
これらの研究を総合すると、本論文は、既存のLLMアーキテクチャの限界に対処し、多言語およびマルチモーダルデータで動作する新しい言語モデリングアプローチの可能性を強調している。
A Technical consideration for data preparation
本研究では、固定されたエンコーダと文書分割手法を使用しているため、各学習実行時にオンザフライで生成するのではなく、事前に計算されたSONAR埋め込みを使用することにした。これにより、同じデータミックスでの反復が高速化され、高価なGPU計算をストレージ容量とトレードオフしている。
SONAR埋め込みのシーケンスを保存する際、1024個の浮動小数点数の固定サイズのテンソルであるため、ストレージ要件は生のテキストを保存するよりも要求が厳しくなる。1テラバイトの生のテキストデータの場合、15〜20テラバイトのエンコードされたデータを保存する必要がある。全体として、このスペースと計算のトレードオフにより、GPUメモリの使用量が減少し、計算負荷が軽減され、より高速に反復処理を行うことができる。通常、単一のGPUでは1秒あたり約300〜400個のSONAR文埋め込みを生成できるが、事前に計算されたデータ(潜在的にリモートストレージから)をロードすることで、GPUあたり1秒あたり2万個以上の埋め込みをロードできる(GPUあたり約15個のCPUを使用)。
SONAR埋め込みのシーケンスは、16ビット精度(FP16)でparquetデータセットに保存する。埋め込みはセグメント化されたテキストと整列したままであり、parquetバイナリ形式とライブラリエコシステムは、このような複雑なデータ構造を効率的に保存およびロードするのに適している。parquetでは、各文の品質メトリックなどの追加データを保存することもでき、重要な最後のデータフィルタリングと変換が可能になる。
LCMの学習のために、約40億の文書を処理し、平均27トークン/文、平均88文字の長さで3100億の文を生成した。合計で889テラバイト以上の生のテキストになった。
B Open Sourced Code
本論文では、再現性確保のため、LCMの学習、評価、およびデータ処理コードをオープンソースライセンスの下で公開している。このコードは、異なるモデルアーキテクチャの構築と反復を可能にする FAIRSEQ2 フレームワークに基づいている。評価フレームワークも公開しており、LCMと他のモデルとの比較を容易に再現可能である。さらに、大規模データの前処理を簡素化するための stopes の更新版も公開している。これにより、SLURM クラスタ上でのジョブのスケジューリングと監視、および ray.data との互換性のある API を提供し、大規模データセットのブロック処理と変換を容易にしている。
C System prompt: Generation of Topic Descriptions
あなたはトピック記述生成器である。あなたの仕事は、テキストの抜粋を読み、トピック記述を生成することである。抜粋は整形式であってもなくても構わない。記述は最大1文で、単語数は最小限に抑える。ただし、一般的ではなく、不適切な言葉を含んではならない。
例として、抜粋、理想的なトピック記述、そして悪いトピック記述の例を挙げる。
抜粋例:「ある日、街の一つの地区が完全に荒廃した。ガラス窓は粉々になり、店はひっくり返り、多くの民間人が殺された。スーパーマンは、過去に辛うじで打ち負かした古い敵の一人、ボルタルのサインを瞬時に認識した。これは彼へのメッセージだった。『挑戦するぞ!私を探しに来い!』」
良いトピック記述の例:スーパーマンの古い敵、ボルタルが現れ、彼に挑戦した。
悪いトピック記述の例:スーパーマン
悪いトピック記述の例:ボルタル
悪いトピック記述の例:
D User prompt: LLM As a Judge - Coherence
このセクションでは、テキストのまとまり具合を評価するためのプロンプトを提示する。ユーザーはテキストの抜粋を与えられ、そのテキストのまとまり具合を0から5までのスコアで評価するよう求められる。スコアの定義は以下の通りである。
- 0: テキストは完全にまとまりがなく、論理的なつながりが全くない。
- 1: テキストにはいくつかの小さなつながりがあるが、全体的にまとまりがなく、理解するのが難しい。
- 2: テキストにはある程度のまとまりがあるが、アイデア間の関係が不明瞭なため、理解するのが依然として難しい。
- 3: テキストは適度にまとまっており、アイデア間には明確なつながりがあるが、深さや明瞭さに欠ける可能性がある。
- 4: テキストは非常にまとまっており、アイデア間のつながりが明確かつ論理的で、理解しやすい。
- 5: テキストは非常にまとまっており、明確かつ簡潔な構造で、理解するのが容易である。
ユーザーはスコアのみを提供し、説明は不要である。