Google が開発した言語モデル BERT に関する論文を Gemini Paper Summarizer で要約しました。
【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。
目次
Abstract
我々は、Bidirectional Encoder Representations from Transformers(BERT)と呼ばれる新しい言語表現モデルを導入する。最近の言語表現モデル(Peters et al., 2018a; Radford et al., 2018)とは異なり、BERTは、すべての層で左右の文脈の両方を同時に条件付けることによって、ラベルなしテキストから深い双方向表現を事前学習するように設計されている。その結果、事前学習済みのBERTモデルは、質問応答や言語推論などの幅広いタスクに対して、タスク固有のアーキテクチャを大幅に変更することなく、1つの追加の出力層のみで微調整することで、最先端のモデルを作成できる。
BERTは概念的にシンプルであり、経験的に強力である。これは、GLUEスコアを80.5%(絶対的な改善7.7%ポイント)、MultiNLI精度を86.7%(絶対的な改善4.6%)、SQUAD v1.1質問応答テストF1を93.2(絶対的な改善1.5%ポイント)、SQUAD v2.0テストF1を83.1(絶対的な改善5.1%ポイント)に押し上げるなど、11の自然言語処理タスクで新たな最先端の結果を得ている。
概要
BERTは、双方向Transformerを用いて言語理解のための事前学習を行うモデルであり、様々なNLPタスクで最先端の性能を達成している。
問題意識
本論文は、自然言語処理における言語表現の事前学習において、既存の手法が持つ制約、特に単方向言語モデルの使用による制約を克服することを目的としている。具体的には、文レベルのタスクやトークンレベルのタスクにおいて、双方向の文脈情報を効果的に活用できるような事前学習モデルを提案し、その有効性を示すことを目指している。
手法
本論文では、BERT(Bidirectional Encoder Representations from Transformers)という新しい言語表現モデルを提案する。BERTは、Transformerアーキテクチャに基づいた深層双方向エンコーダであり、ラベルなしテキストから双方向の表現を事前学習することで、質問応答や言語推論など、幅広いタスクに対して最先端の性能を達成する。
BERTの主な特徴は以下の通りである。
- 双方向表現の事前学習: 従来の言語モデルとは異なり、BERTは左右両方の文脈を考慮した双方向の表現を学習する。これにより、文脈をより深く理解し、より高度なタスクに対応できる。
- マスク付き言語モデル(MLM): 入力テキストの一部をランダムにマスクし、元の語彙IDを予測するタスクで事前学習を行う。これにより、双方向の文脈を考慮した表現を学習できる。
- 次文予測(NSP): テキストペアの表現を学習するために、2つの文が連続しているかどうかを予測するタスクで事前学習を行う。これにより、文間の関係を捉えることができる。
- タスク固有のアーキテクチャの削減: 事前学習されたBERTモデルは、タスク固有の出力層を追加するだけで、様々なタスクに対応できる。これにより、タスクごとに異なるアーキテクチャを設計する手間を省くことができる。
BERTは、事前学習と微調整という2つのステップで構成される。まず、ラベルなしテキストで事前学習を行い、次に、タスク固有のラベル付きデータで微調整を行う。このアプローチにより、BERTは幅広いタスクで最先端の性能を達成する。
新規性
この論文の新規性は、以下の3点にまとめられる。
双方向事前学習の重要性の実証: 従来の言語表現モデル(例えば、Radford et al. (2018))が単方向言語モデルを使用していたのに対し、BERTはマスクされた言語モデルを用いて双方向の深い表現を事前学習する。これは、Peters et al. (2018a)が独立に学習された左右の言語モデルを浅く連結するのとは対照的である。
タスク固有のアーキテクチャの必要性の低減: 事前学習された表現が、多くの複雑なタスク固有のアーキテクチャの必要性を減らすことを示す。BERTは、文レベルおよびトークンレベルのタスクにおいて、多くのタスク固有のアーキテクチャを凌駕する最先端の性能を達成する初の微調整ベースの表現モデルである。
複数のNLPタスクにおける最先端の性能の達成: BERTは、11のNLPタスクにおいて最先端の性能を達成する。これは、事前学習された表現が多様なタスクに対応できることを示している。
これらの点から、BERTは従来の言語モデルの制約を克服し、より強力で汎用性の高い言語表現を学習するための新しいアプローチを提案していると言える。
章構成
- 1 Introduction
- 2 Related Work
- 2.1 Unsupervised Feature-based Approaches
- 2.2 Unsupervised Fine-tuning Approaches
- 2.3 Transfer Learning from Supervised Data
- 3 BERT
- 3.1 Pre-training BERT
- 3.2 Fine-tuning BERT
- 4 Experiments
- 4.1 GLUE
- 4.2 SQUAD v1.1
- 4.3 SQUAD v2.0
- 4.4 SWAG
- 5 Ablation Studies
- 5.1 Effect of Pre-training Tasks
- 5.2 Effect of Model Size
- 5.3 Feature-based Approach with BERT
- 6 Conclusion
- References
- A Additional Details for BERT
- A.1 Illustration of the Pre-training Tasks
- A.2 Pre-training Procedure
- A.3 Fine-tuning Procedure
- A.4 Comparison of BERT, ELMo,and OpenAI GPT
- A.5 Illustrations of Fine-tuning on Different Tasks
- B Detailed Experimental Setup
- B.1 Detailed Descriptions for the GLUE Benchmark Experiments.
- C Additional Ablation Studies
- C.1 Effect of Number of Training Steps
- C.2 Ablation for Different Masking Procedures
1 Introduction
BERT(Bidirectional Encoder Representations from Transformers)という新しい言語表現モデルが提案されている。従来の言語表現モデルとは異なり、BERTは、全ての層において左右両方の文脈を考慮することで、ラベルなしテキストから深層双方向表現を事前学習するように設計されている。その結果、事前学習済みのBERTモデルは、質問応答や言語推論など、幅広いタスクにおいて、タスク固有のアーキテクチャを大幅に変更することなく、1つの追加出力層で微調整するだけで、最先端のモデルを作成できる。BERTは概念的にシンプルでありながら、経験的に強力である。GLUEスコアを80.5%(絶対値で7.7%向上)、MultiNLIの精度を86.7%(絶対値で4.6%向上)、SQUAD v1.1の質問応答テストF1を93.2(絶対値で1.5%向上)、SQUAD v2.0のテストF1を83.1(絶対値で5.1%向上)にするなど、11の自然言語処理タスクで新たな最先端の結果を達成している。
言語モデルの事前学習は、多くの自然言語処理タスクを改善するのに有効であることが示されている。これらには、文レベルのタスク(自然言語推論や言い換えなど、文の関係を全体的に分析して予測するタスク)や、トークンレベルのタスク(固有表現認識や質問応答など、モデルがトークンレベルで詳細な出力を生成する必要があるタスク)が含まれる。事前学習済みの言語表現をダウンストリームタスクに適用するための戦略は、特徴ベースと微調整の2つがある。特徴ベースのアプローチは、事前学習済みの表現を追加機能として含むタスク固有のアーキテクチャを使用する。微調整のアプローチは、最小限のタスク固有のパラメータを導入し、事前学習済みの全てのパラメータを微調整することで、ダウンストリームタスクで学習する。2つのアプローチは、事前学習中に同じ目的関数を共有しており、そこでは、一般的な言語表現を学習するために一方向言語モデルを使用する。
本論文では、現在の技術は、特に微調整アプローチにおいて、事前学習済みの表現の能力を制限していると主張する。主な制限は、標準的な言語モデルが一方向性であり、これが事前学習中に使用できるアーキテクチャの選択を制限することである。例えば、OpenAI GPTでは、Transformerの自己注意層において、全てのトークンが前のトークンにのみ注意を払うことができる左から右へのアーキテクチャを使用している。このような制限は、文レベルのタスクには最適ではなく、質問応答などのトークンレベルのタスクに微調整ベースのアプローチを適用する際には、両方向からの文脈を組み込むことが重要であるため、非常に有害となる可能性がある。本論文では、BERT(Bidirectional Encoder Representations from Transformers)を提案することで、微調整ベースのアプローチを改善する。BERTは、Clozeタスクに触発された「マスクされた言語モデル」(MLM)の事前学習目的を使用することで、前述の一方向性の制約を緩和する。マスクされた言語モデルは、入力から一部のトークンをランダムにマスクし、その目的はマスクされたトークンの元の語彙IDを予測することである。
2 Related Work
2.1 教師なし特徴ベースのアプローチ
単語の汎用的な表現学習は、数十年にわたる活発な研究分野であり、非ニューラルな手法(Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006)とニューラルな手法(Mikolov et al., 2013; Pennington et al., 2014)の両方が存在する。事前学習された単語埋め込みは、最新のNLPシステムに不可欠であり、スクラッチから学習した埋め込みよりも大幅な改善をもたらす。単語埋め込みベクトルの事前学習には、左から右への言語モデリング目的(Mnih and Hinton, 2009)や、左右の文脈で正しい単語と誤った単語を区別する目的(Mikolov et al., 2013)が用いられてきた。
これらのアプローチは、文埋め込み(Kiros et al., 2015; Logeswaran and Lee, 2018)や段落埋め込み(Le and Mikolov, 2014)など、より粗い粒度にも一般化されている。文表現を学習するために、先行研究では、候補となる次の文をランク付けする目的(Jernite et al., 2017; Logeswaran and Lee, 2018)、前の文の表現を与えられた次の文の単語を左から右に生成する目的(Kiros et al., 2015)、またはノイズ除去自己符号化器から派生した目的(Hill et al., 2016)が使用されている。
ELMoとその前身(Peters et al., 2017, 2018a)は、異なる次元で従来の単語埋め込み研究を一般化している。彼らは、左から右および右から左の言語モデルから文脈依存の特徴を抽出する。各トークンの文脈表現は、左から右と右から左の表現の連結である。文脈依存の単語埋め込みを既存のタスク固有アーキテクチャと統合すると、ELMoは、質問応答(Rajpurkar et al., 2016)、感情分析(Socher et al., 2013)、固有表現認識(Tjong Kim Sang and De Meulder, 2003)を含むいくつかの主要なNLPベンチマークで最先端技術を向上させる。Melamud et al.(2016)は、LSTMを使用して左右両方の文脈から単語を予測するタスクを通じて文脈表現を学習することを提案した。ELMoと同様に、彼らのモデルは特徴ベースであり、深く双方向ではない。Fedus et al.(2018)は、穴埋めタスクがテキスト生成モデルの堅牢性を向上させるために使用できることを示している。
2.2 教師なしファインチューニングアプローチ
特徴ベースのアプローチと同様に、この方向の最初の研究では、ラベルなしテキストから単語埋め込みパラメータのみを事前学習した(Collobert and Weston, 2008)。
最近では、文脈依存のトークン表現を生成する文またはドキュメントエンコーダが、ラベルなしテキストから事前学習され、教師ありダウンストリームタスクのためにファインチューニングされている(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018)。これらのアプローチの利点は、スクラッチから学習する必要があるパラメータが少ないことである。少なくとも部分的にこの利点のために、OpenAI GPT(Radford et al., 2018)は、GLUEベンチマーク(Wang et al., 2018a)の多くの文レベルタスクで以前に最先端の結果を達成した。左から右への言語モデルは、事前学習に使用される一般的なアプローチである。
2.3 教師ありデータからの転移学習
自然言語推論(Conneau et al., 2017)や機械翻訳(McCann et al., 2017)などの大規模データセットを使用した教師ありタスクからの効果的な転移を示す研究も存在する。コンピュータビジョンの研究では、大規模な事前学習済みモデルからの転移学習の重要性も実証されており、効果的なレシピは、ImageNetで事前学習されたモデルをファインチューニングすることである(Deng et al., 2009; Yosinski et al., 2014)。
3 BERT
本論文では、BERT(Bidirectional Encoder Representations from Transformers)という新しい言語表現モデルを提案する。BERTは、事前学習とファインチューニングの2段階で構成される。事前学習では、ラベルなしデータを用いてモデルを学習し、ファインチューニングでは、事前学習済みのパラメータで初期化し、ラベル付きデータを用いて下流タスクに合わせてモデルを調整する。BERTの重要な特徴は、異なるタスク間でアーキテクチャを統一している点である。事前学習と下流タスクでのアーキテクチャの差異は最小限に抑えられている。
3.1 Pre-training BERT
BERTの事前学習では、従来の左から右、または右から左への言語モデルではなく、2つの教師なしタスクを用いる。
- Masked LM (MLM):入力トークンの一部をランダムにマスクし、マスクされたトークンの元の語彙IDを予測する。これにより、双方向のTransformerを学習できる。
- Next Sentence Prediction (NSP):2つの文の関係を理解するために、2つの文が連続しているかどうかを予測する。
3.2 Fine-tuning BERT
ファインチューニングは、Transformerの自己注意機構を利用して、下流タスクに合わせて入力と出力を調整する。テキスト対を扱うタスクでは、BERTは自己注意機構を用いて、2つの文間の双方向の相互注意を効果的に組み込む。各タスクでは、タスク固有の入力と出力をBERTに接続し、すべてのパラメータをエンドツーエンドでファインチューニングする。
4 Experiments
このセクションでは、11個の自然言語処理タスクにおけるBERTのファインチューニングの結果を示す。
4.1 GLUE
General Language Understanding Evaluation (GLUE)ベンチマークは、多様な自然言語理解タスクのコレクションである。GLUEデータセットの詳細な説明は付録B.1に記載されている。GLUEでファインチューニングするために、入力シーケンス(単一文または文のペア)をセクション3で説明したように表現し、最初の入力トークン([CLS])に対応する最終隠れベクトル $C \in R^H$
を集約表現として使用する。ファインチューニング中に導入される新しいパラメータは、ラベル数 $K$
の分類層の重み $W \in R^{K \times H}$
のみである。標準的な分類損失を $C$
と $W$
を用いて計算する。バッチサイズは32とし、すべてのGLUEタスクに対して3エポックでファインチューニングを行う。各タスクについて、開発セットで最適なファインチューニング学習率(5e-5, 4e-5, 3e-5, 2e-5の中から選択)を選択する。BERT_LARGEについては、小規模なデータセットでファインチューニングが不安定になる場合があるため、いくつかのランダムな再起動を実行し、開発セットで最適なモデルを選択する。表1に示すように、BERT_BASEとBERT_LARGEの両方が、すべてのタスクで既存のシステムを大幅に上回り、それぞれ4.5%と7.0%の平均精度向上を達成している。特に、最大かつ最も広く報告されているGLUEタスクであるMNLIでは、BERTは4.6%の絶対精度向上を達成している。
4.2 SQUAD v1.1
Stanford Question Answering Dataset (SQUAD v1.1)は、10万件のクラウドソーシングによる質問/回答ペアのコレクションである。質問と、回答を含むWikipediaのパッセージが与えられたとき、タスクはパッセージ内の回答テキストスパンを予測することである。質問応答タスクでは、質問とパッセージを単一のパックされたシーケンスとして表現し、質問にはA埋め込み、パッセージにはB埋め込みを使用する。ファインチューニング中に開始ベクトル $S \in R^H$
と終了ベクトル $E \in R^H$
のみを導入する。回答スパンの開始位置が単語 $i$
である確率は、$T_i$
と $S$
の内積を計算し、パッセージ内のすべての単語に対してsoftmaxを適用することで計算される。同様の式が回答スパンの終了位置に使用される。位置 $i$
から位置 $j$
までの候補スパンのスコアは $S \cdot T_i + E \cdot T_j$
と定義され、$j \ge i$
である最大スコアリングスパンが予測として使用される。学習目標は、正解の開始位置と終了位置の対数尤度の合計である。学習率は5e-5、バッチサイズは32、エポック数は3でファインチューニングを行う。表2に示すように、このシステムは、アンサンブルで+1.5 F1、単一システムで+1.3 F1で、トップのリーダーボードシステムを上回っている。
4.3 SQUAD v2.0
SQUAD 2.0タスクは、提供された段落に短い回答が存在しない可能性を許容することで、SQuAD 1.1の問題定義を拡張する。このタスクのために、SQuAD v1.1 BERTモデルを拡張する簡単なアプローチを使用する。回答がない質問は、開始位置と終了位置が[CLS]トークンである回答スパンを持つものとして扱う。開始位置と終了位置の回答スパンの位置の確率空間は、[CLS]トークンの位置を含むように拡張される。予測では、回答なしスパンのスコア $S_{null} = S \cdot C + E \cdot C$
を、最適な非nullスパンのスコア $S_{i,j} = max_{j \ge i} S \cdot T_i + E \cdot T_j$
と比較する。非null回答を予測するのは、$S_{i,j} > S_{null} + \tau$
の場合であり、閾値 $\tau$
は開発セットでF1を最大化するように選択する。このモデルではTriviaQAデータを使用せず、学習率は5e-5、バッチサイズは48、エポック数は2でファインチューニングを行う。表3に示すように、既存のシステムを5.1 F1上回る結果が得られた。
4.4 SWAG
Situations With Adversarial Generations (SWAG)データセットには、113,000件の文ペアの補完例が含まれており、接地された常識推論を評価する。文が与えられたとき、タスクは4つの選択肢の中で最も妥当な継続を選択することである。SWAGデータセットでファインチューニングする場合、与えられた文(文A)と可能な継続(文B)の連結を含む4つの入力シーケンスを構成する。導入されるタスク固有のパラメータは、[CLS]トークン表現 $C$
との内積が、各選択肢のスコアを示すベクトルであり、softmax層で正規化される。学習率は2e-5、バッチサイズは16、エポック数は3でファインチューニングを行う。表4に示すように、BERTLARGEは、著者のベースラインであるESIM+ELMoシステムを+27.1%、OpenAI GPTを8.3%上回る。
5 Ablation Studies
このセクションでは、BERT の様々な側面についてアブレーション実験を行い、その相対的な重要性をより深く理解することを目的とする。
5.1. 事前学習タスクの効果
BERT の双方向性の重要性を実証するために、BERTBASE と全く同じ事前学習データ、ファインチューニングスキーム、ハイパーパラメータを使用し、2つの事前学習目標を評価する。
- No NSP: マスク化言語モデル (MLM) を使用して学習された双方向モデルであるが、「次の文予測」(NSP) タスクは使用しない。
- LTR & No NSP: MLM ではなく、標準的な左から右 (LTR) 言語モデルを使用して学習された左文脈のみのモデル。このモデルは NSP タスクなしで事前学習された。これは OpenAI GPT と直接比較可能であるが、より大きな学習データセット、入力表現、ファインチューニングスキームを使用している。
まず、NSP タスクによってもたらされる影響を検証する。Table 5 では、NSP を削除すると、QNLI、MNLI、SQUAD 1.1 のパフォーマンスが大幅に低下することが示されている。次に、「No NSP」と「LTR & No NSP」を比較し、双方向表現の学習効果を評価する。LTR モデルはすべてのタスクで MLM モデルよりもパフォーマンスが低く、特に MRPC と SQUAD では大幅な低下が見られる。SQUAD では、トークンレベルの隠れ状態に右文脈がないため、LTR モデルはトークン予測が苦手であることが直感的に理解できる。LTR システムを強化するために、ランダムに初期化された BiLSTM を追加したが、SQuAD の結果は大幅に改善されたものの、事前学習された双方向モデルの結果よりはるかに劣っていた。また、BiLSTM は GLUE タスクのパフォーマンスを低下させた。
ELMo のように、LTR モデルと RTL モデルを別々に学習し、各トークンを 2 つのモデルの連結として表現することも可能である。しかし、(a) これは単一の双方向モデルよりも 2 倍コストがかかる。(b) QA のようなタスクでは、RTL モデルは質問に対する回答を条件付けられないため、直感的ではない。(c) これは、すべてのレイヤーで左右の文脈を使用できるため、深い双方向モデルよりも厳密にパワーが劣る。
5.2. モデルサイズの効果
このセクションでは、ファインチューニングタスクの精度に対するモデルサイズの影響を検証する。異なるレイヤー数、隠れユニット数、注意ヘッド数を持つ複数の BERT モデルを学習し、それ以外はすべて同じハイパラメータと学習手順を使用した。
選択された GLUE タスクの結果を Table 6 に示す。この表では、5 回のランダムな再起動による平均 Dev セット精度を報告する。より大きなモデルは、たとえば、ラベル付き学習例が 3,600 個しかない MRPC でさえ、すべての 4 つのデータセットで厳密な精度向上をもたらすことがわかる。また、既存の研究と比較して、すでに非常に大きなモデルの上で、これほどの大幅な改善を達成できていることにも驚かされる。例えば、Vaswani らの研究で探求された最大の Transformer は、エンコーダに対して 100M のパラメータを持つ (L=6, H=1024, A=16) であり、文献で見られる最大の Transformer は、235M のパラメータを持つ (L=64, H=512, A=2) である。対照的に、BERTBASE は 110M のパラメータを含み、BERTLARGE は 340M のパラメータを含む。
モデルサイズを大きくすると、機械翻訳や言語モデリングのような大規模タスクで継続的な改善が見られることが以前から知られており、Table 6 に示されている保持された学習データの LM パープレキシティによって実証されている。しかし、この研究が、極端なモデルサイズへのスケーリングが、モデルが十分に事前学習されていれば、非常に小規模なタスクでも大きな改善をもたらすことを説得力を持って実証した最初の研究であると考える。Peters ら (2018b) は、事前学習された bi-LM のサイズを 2 層から 4 層に増やしたことによるダウンストリームタスクへの影響について、結果がまちまちであることを示し、Melamud ら (2016) は、隠れ次元のサイズを 200 から 600 に増やすと改善が見られたが、さらに 1,000 に増やしても改善は見られなかったと述べている。これらの以前の研究は両方とも特徴ベースのアプローチを使用していたが、モデルがダウンストリームタスクで直接ファインチューニングされ、ランダムに初期化された追加パラメータを非常に少ない数しか使用しない場合、ダウンストリームタスクデータが非常に少ない場合でも、より大きく表現力の高い事前学習済み表現から恩恵を受けることができるという仮説を立てる。
5.3. BERT を用いた特徴ベースのアプローチ
これまでに提示された BERT の結果はすべて、事前学習されたモデルに単純な分類レイヤーを追加し、ダウンストリームタスクですべてのパラメータを共同でファインチューニングするファインチューニングアプローチを使用している。しかし、事前学習されたモデルから固定された特徴を抽出する特徴ベースのアプローチには、特定のアドバンテージがある。まず、すべてのタスクを Transformer エンコーダアーキテクチャで簡単に表現できるわけではなく、タスク固有のモデルアーキテクチャを追加する必要がある。次に、学習データの高価な表現を一度事前計算し、この表現の上に安価なモデルで多くの実験を実行することに大きな計算上のメリットがある。
このセクションでは、BERT を CoNLL-2003 固有表現認識 (NER) タスク (Tjong Kim Sang and De Meulder, 2003) に適用することで、2 つのアプローチを比較する。BERT への入力では、大文字と小文字を区別する WordPiece モデルを使用し、データによって提供される最大のドキュメントコンテキストを含める。標準的な慣例に従って、これをタギングタスクとして定式化する。
ファインチューニングアプローチをアブレーションするために、BERT のパラメータをファインチューニングすることなく、1 つまたは複数のレイヤーからアクティベーションを抽出することにより、特徴ベースのアプローチを適用する。これらの文脈埋め込みは、分類レイヤーの前にあるランダムに初期化された 2 層の 768 次元 BiLSTM への入力として使用される。
結果を Table 7 に示す。BERTLARGE は、最先端の手法と競争力のあるパフォーマンスを発揮する。最良のパフォーマンスを示す手法は、事前学習された Transformer の上位 4 つの隠れ層からのトークン表現を連結するものであり、これはモデル全体をファインチューニングするよりも 0.3 F1 しか遅れていない。このことは、BERT がファインチューニングアプローチと特徴ベースのアプローチの両方で有効であることを示している。
6 Conclusion
近年、言語モデルを用いた転移学習の進歩により、教師なし事前学習が多くの言語理解システムにおいて不可欠であることが示されている。特に、これらの結果は、低リソースのタスクでさえ、深い単方向アーキテクチャの恩恵を受けることを可能にしている。本研究の主な貢献は、これらの知見を深い双方向アーキテクチャにさらに一般化し、同じ事前学習済みモデルが広範なNLPタスクにうまく対応できるようにしたことである。
References
以下に、論文「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」の参考文献セクションを日本語で要約します。
この論文では、自然言語処理における様々なタスクに対する事前学習済み言語モデルの有効性について議論しており、その参考文献は、この分野の研究の発展を辿る上で重要な論文を網羅している。
参考文献は、以下の主要なテーマに分類できる。
- 単語・文の分散表現:
- 単語埋め込みの学習(GloVe, Word2Vec)
- 文や段落の分散表現学習(Skip-thought vectors, context2vec)
- 文脈を考慮した単語表現(ELMo, Learned in translation)
- 事前学習と転移学習:
- 言語モデルを用いた事前学習(GPT, ULMFiT)
- 教師ありデータからの転移学習
- 画像認識における転移学習
- Transformerモデルと注意機構:
- Transformerモデルの提案(Attention is all you need)
- Transformerを用いた言語モデル
- 自己注意機構を用いたモデル
- 自然言語処理のタスク:
- その他の関連研究:
これらの参考文献は、BERTモデルの開発と評価において、先行研究が重要な役割を果たしたことを示している。また、この論文が、これらの研究の上に立脚し、双方向Transformerを用いた事前学習という新たなアプローチを提案していることを示唆している。
Appendix for “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding”
付録は三つのセクションに分かれている。
- BERT の実装に関する詳細
- 実験に関する詳細
- アブレーション実験
付録では、論文中で述べられている BERT の実装、実験、アブレーション実験の詳細について、より深く理解するための情報を提供している。特に、事前学習タスクの詳細や、学習ステップ数、マスキング戦略がモデルの性能に与える影響について、具体的な数値やグラフを用いて詳細に分析している。
A Additional Details for BERT
A.1 事前学習タスクの例示
本節では、事前学習タスクの例を提示する。
Masked LM とマスキング手順
例えば、ラベルなしの文が "my dog is hairy" であると仮定し、ランダムマスキング手順中に 4 番目のトークン("hairy" に対応)を選択した場合、マスキング手順は以下のように説明できる。
- 80% の場合:単語を
[MASK]
トークンに置き換える。例:my dog is hairy
→my dog is [MASK]
- 10% の場合:単語をランダムな単語に置き換える。例:
my dog is hairy
→my dog is apple
- 10% の場合:単語をそのままにする。例:
my dog is hairy
→my dog is hairy
。これは、表現を実際の観測された単語に偏らせるためである。
この手順の利点は、Transformer エンコーダがどの単語を予測するように求められるか、またはランダムな単語に置き換えられたかを認識しないため、すべての入力トークンの分布的な文脈表現を保持することを強制される点である。さらに、ランダムな置き換えはすべてのトークンの 1.5%(つまり、15% の 10%)でしか発生しないため、モデルの言語理解能力を損なうことはないと思われる。C.2 節では、この手順の影響を評価する。
標準的な言語モデルの学習と比較して、Masked LM は各バッチでトークンの 15% のみを予測するため、モデルにはより多くの事前学習ステップが必要になる可能性がある。
次文予測
次文予測タスクは、以下の例で示すことができる。
Input: [CLS] the man went to [MASK] store [SEP] he bought a gallon [MASK] milk [SEP] Label: IsNext Input: [CLS] the man [MASK] to the store [SEP] penguin [MASK] are flight #less birds [SEP] Label: NotNext
A.2 事前学習手順
各学習入力シーケンスを生成するために、コーパスから 2 つのテキストスパンをサンプリングする。これらは通常、実際の文よりも長いが、短くなることもある。最初の文は A 埋め込みを受け取り、2 番目の文は B 埋め込みを受け取る。50% の場合、B は A に続く実際の次の文であり、50% の場合はランダムな文である。これらは、結合された長さが ≤ 512 トークンになるようにサンプリングされる。LM マスキングは、均一なマスキング率 15% で WordPiece トークン化後に適用され、部分的な単語ピースは特別に考慮されない。
バッチサイズ 256 シーケンス(256 シーケンス * 512 トークン = 128,000 トークン/バッチ)で 1,000,000 ステップ学習する。これは、33 億語のコーパスで約 40 エポックである。学習率は 1e-4 の Adam を使用し、β₁ = 0.9、β₂ = 0.999、L2 重み減衰は 0.01、最初の 10,000 ステップで学習率ウォームアップ、学習率の線形減衰を使用する。すべてのレイヤーでドロップアウト確率 0.1 を使用する。OpenAI GPT に従って、標準の relu ではなく gelu 活性化を使用する。学習損失は、マスクされた LM の平均尤度と、次の文予測の平均尤度の合計である。
BERTBASE
の学習は、Pod 構成の 4 つの Cloud TPU(合計 16 個の TPU チップ)で実行された。BERTLARGE
の学習は、16 個の Cloud TPU(合計 64 個の TPU チップ)で実行された。各事前学習には 4 日かかった。
アテンションはシーケンス長に対して二次関数的に高価になるため、長いシーケンスは不釣り合いに高価になる。実験で事前学習を高速化するために、ステップの 90% でシーケンス長 128 でモデルを事前学習する。次に、残りの 10% のステップで、位置埋め込みを学習するためにシーケンス 512 で学習する。
A.3 ファインチューニング手順
ファインチューニングでは、ほとんどのモデルハイパーパラメータは事前学習と同じだが、バッチサイズ、学習率、学習エポック数は異なる。ドロップアウト確率は常に 0.1 に保たれた。最適なハイパーパラメータ値はタスク固有だが、以下の範囲の値がすべてのタスクでうまく機能することがわかった。
- バッチサイズ:16、32
A.4 BERT、ELMo、OpenAI GPT の比較
本節では、ELMo、OpenAI GPT、BERT を含む最近の一般的な表現学習モデルの違いを研究する。モデルアーキテクチャ間の比較は図 3 に視覚的に示されている。アーキテクチャの違いに加えて、BERT と OpenAI GPT はファインチューニングアプローチであり、ELMo は特徴ベースのアプローチであることに注意する必要がある。
BERT に最も近い既存の事前学習方法は、大規模なテキストコーパスで左から右への Transformer LM を学習する OpenAI GPT である。実際、BERT の設計上の決定の多くは、2 つの方法を最小限に比較できるように、可能な限り GPT に近づけるために意図的に行われた。本研究の核となる主張は、3.1 節で提示した双方向性と 2 つの事前学習タスクが経験的な改善の大部分を占めるということだが、BERT と GPT の学習方法には他にもいくつかの違いがあることに注意する。
- GPT は BooksCorpus (800M 語) で学習される。BERT は BooksCorpus (800M 語) と Wikipedia (2,500M 語) で学習される。
- GPT は、ファインチューニング時にのみ導入される文区切り記号 (
[SEP]
) と分類子トークン ([CLS]
) を使用する。BERT は、事前学習中に[SEP]
、[CLS]
、文 A/B 埋め込みを学習する。 - GPT は 32,000 語のバッチサイズで 1M ステップ学習した。BERT は 128,000 語のバッチサイズで 1M ステップ学習した。
- GPT はすべてのファインチューニング実験で同じ学習率 5e-5 を使用した。BERT は、開発セットで最適なパフォーマンスを発揮するタスク固有のファインチューニング学習率を選択する。
これらの違いの影響を分離するために、5.1 節でアブレーション実験を行い、改善の大部分が実際には 2 つの事前学習タスクとそれらが有効にする双方向性から来ていることを示す。
A.5 さまざまなタスクでのファインチューニングの例
さまざまなタスクでの BERT のファインチューニングの例は、図 4 に示すことができる。タスク固有のモデルは、1 つの追加の出力レイヤーで BERT を組み込むことで形成されるため、スクラッチから学習する必要があるパラメータの数は最小限である。タスクのうち、(a) と (b) はシーケンスレベルのタスクであり、(c) と (d) はトークンレベルのタスクである。図では、E は入力埋め込みを表し、Ti はトークン i の文脈表現を表し、[CLS]
は分類出力用の特別な記号であり、[SEP]
は連続しないトークンシーケンスを区切るための特別な記号である。
B Detailed Experimental Setup
セクションBでは、実験の詳細な設定について述べている。特に、GLUEベンチマークにおける実験の詳細な記述を提供している。GLUEベンチマークは、様々な自然言語理解タスクを集めたものであり、そのデータセットの詳細な説明は、Wang et al. (2018a)によってまとめられている。
以下に、各データセットの概要を示す。
MNLI (Multi-Genre Natural Language Inference):大規模なクラウドソーシングによる含意関係分類タスク。2つの文が与えられたとき、2番目の文が1番目の文に対して含意、矛盾、中立のいずれの関係にあるかを予測する。
QQP (Quora Question Pairs):Quoraで質問された2つの質問が意味的に同等であるかを判定する二値分類タスク。
QNLI (Question Natural Language Inference):Stanford Question Answering Dataset (SQuAD)を二値分類タスクに変換したもの。正例は正しい回答を含む質問と文のペア、負例は同じ段落から回答を含まない質問と文のペアである。
SST-2 (Stanford Sentiment Treebank):映画レビューから抽出された文に対して、感情を人間がアノテーションした二値分類タスク。
CoLA (Corpus of Linguistic Acceptability):英語の文が言語的に「許容可能」かどうかを予測する二値分類タスク。
STS-B (Semantic Textual Similarity Benchmark):ニュースの見出しなどから抽出された文のペアの集合で、2つの文の意味的な類似度を1から5のスコアでアノテーションしたもの。
MRPC (Microsoft Research Paraphrase Corpus):オンラインニュースから自動的に抽出された文のペアで、人間が意味的に同等であるかどうかをアノテーションしたもの。
RTE (Recognizing Textual Entailment):MNLIと同様の含意関係タスクだが、学習データが少ない。
WNLI (Winograd NLI):小規模な自然言語推論データセット。このデータセットの構築には問題があることが指摘されており、GLUEに提出されたすべての学習済みシステムは、多数決クラスを予測する65.1のベースライン精度よりも悪い結果となっているため、このデータセットは除外する。GLUEの提出では、常に多数決クラスを予測している。
C Additional Ablation Studies
C.1 学習ステップ数の影響
図5は、kステップで事前学習されたチェックポイントから微調整した後のMNLI Dev精度を示している。これにより、以下の質問に答えることができる。
質問: BERTは、高い微調整精度を達成するために、本当に大量の事前学習(128,000語/バッチ * 1,000,000ステップ)を必要とするのか? 回答: はい。BERTBASEは、500kステップと比較して1Mステップで学習した場合、MNLIでほぼ1.0%の精度向上を達成する。
質問: MLM事前学習は、各バッチですべての単語ではなく、15%の単語しか予測しないため、LTR事前学習よりも収束が遅いのではないか? 回答: MLMモデルはLTRモデルよりも収束がわずかに遅い。しかし、絶対精度の点では、MLMモデルはほぼすぐにLTRモデルを上回り始める。
C.2 異なるマスキング手順のアブレーション
セクション3.1で、BERTがマスク言語モデル(MLM)目標で事前学習を行う際に、ターゲットトークンをマスクするための混合戦略を使用していることに言及する。以下は、異なるマスキング戦略の効果を評価するためのアブレーション実験である。
マスキング戦略の目的は、微調整段階では[MASK]シンボルが決して現れないため、事前学習と微調整の間のミスマッチを減らすことであることに注意されたい。MNLIとNERの両方のDev結果を報告する。NERについては、モデルが表現を調整する機会がないため、ミスマッチが増幅されると予想されるため、微調整と特徴ベースの両方のアプローチを報告する。
MASK | SAME | RND | MNLI (微調整) | NER (微調整) | NER (特徴ベース) |
---|---|---|---|---|---|
80% | 10% | 10% | 84.2 | 95.4 | 94.9 |
100% | 0% | 0% | 84.3 | 94.9 | 94.0 |
80% | 0% | 20% | 84.1 | 95.2 | 94.6 |
80% | 20% | 0% | 84.4 | 95.2 | 94.7 |
0% | 20% | 80% | 83.7 | 94.8 | 94.6 |
0% | 0% | 100% | 83.6 | 94.9 | 94.6 |
表8: 異なるマスキング戦略におけるアブレーション。
表8に結果を示す。表中のMASKは、MLMの[MASK]シンボルでターゲットトークンを置き換えることを意味し、SAMEはターゲットトークンをそのままにすることを意味し、RNDはターゲットトークンを別のランダムトークンで置き換えることを意味する。
表の左側の数字は、MLM事前学習中に使用される特定の戦略の確率を示す(BERTは80%、10%、10%を使用)。論文の右側は、Devセットの結果を表している。特徴ベースのアプローチでは、セクション5.3で最良のアプローチであることが示されたように、BERTの最後の4層を特徴として連結する。
表から、微調整は驚くほど異なるマスキング戦略に対してロバストであることがわかる。しかし、予想通り、MASK戦略のみを使用することは、NERに特徴ベースのアプローチを適用する際には問題があった。興味深いことに、RND戦略のみを使用すると、私たちの戦略よりもはるかに悪い結果となる。