文脈的単語表現の転移可能性に関する論文を Gemini Paper Summarizer で要約しました。

Liu, N. F., Gardner, M., Belinkov, Y., Peters, M. E., & Smith, N. A. (2019). Linguistic knowledge and transferability of contextual representations.

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 Introduction

2 Probing Tasks

2.1 Token Labeling

2.2 Segmentation

2.3 Pairwise Relations

3 Models

4 Pretrained Contextualizer Comparison

4.1 実験設定

4.2 結果と考察

5 Analyzing Layerwise Transferability

5.1 実験設定

5.2 結果と考察

6 Transferring Between Tasks

6.1 実験設定

6.2 結果と考察

7 Related Work

8 Conclusion

Acknowledgments

References

A Probing Task Setup Details

B Probing Model Training Details

C References to State-of-the-Art Task-Specific Models (Without Pretraining)

D Performance of Pretrained Contextualizers on All Tasks

D.1 トークンラベリング (ELMoとOpenAI Transformer)

D.2 トークンラベリング (BERT)

D.3 セグメンテーション (ELMoとOpenAI Transformer)

D.4 セグメンテーション (BERT)

D.5 ペアワイズ関係 (ELMoとOpenAI Transformer)

D.6 ペアワイズ関係 (BERT)

E Full Results for Transferring Between Pretraining Tasks

E.1 トークンラベリング

E.2 セグメンテーション

E.3 ペアワイズ予測

Abstract

大規模なニューラル言語モデルから得られる文脈的単語表現は、多様な自然言語処理タスクで成功を収めており、言語の有用で転移可能な特徴を符号化していることを示唆している。それらが捉える言語知識を明らかにするために、我々は、いくつかの最近の事前学習済み文脈化器（ELMo、OpenAIトランスフォーマー言語モデル、BERTのバリアント）を、17の多様なプロービングタスクのスイートを用いて研究する。凍結された文脈的表現の上に学習された線形モデルは、多くの場合、最先端のタスク固有モデルと競合できるが、微細な言語知識を必要とするタスク（例えば、結合詞の識別）では失敗することを発見した。文脈的単語表現の転移可能性を調査するために、特にリカレントニューラルネットワーク（RNN）とトランスフォーマーの間で、文脈化器内の個々の層の転移可能性の違いを定量化する。例えば、RNNの上位層はよりタスク固有であるのに対し、トランスフォーマー層は同じ単調な傾向を示さない。さらに、文脈的単語表現を転移可能にする要因をより良く理解するために、言語モデルの事前学習を11の教師あり事前学習タスクと比較する。任意のタスクにおいて、密接に関連するタスクでの事前学習は、事前学習データセットが固定されている場合、言語モデルの事前学習（平均してより優れている）よりも優れたパフォーマンスをもたらす。しかし、より多くのデータでの言語モデルの事前学習が最良の結果をもたらす。

概要

本論文では、様々な言語学的知識を捉える17のプロービングタスクを用いて、事前学習された文脈化単語表現の言語知識と転移能力を詳細に分析し、LSTMとTransformerの層ごとの特性や、事前学習タスクの選択が表現に与える影響を明らかにしている。

問題意識

本論文は、大規模なニューラル言語モデルから得られる文脈依存型単語表現（CWR）が、どのような言語知識を捉えているのか、また、その転移可能性はどのように変化するのかを明らかにしようとしている。特に、以下の3点に焦点を当てている。

CWRが捉えている言語的特徴は何か、また、捉えられていないものは何か。
文脈化器（contextualizer）の異なる層において、転移可能性はどのように変化するのか、また、その理由は何か。
事前学習タスクの選択が、CWRの学習された言語知識と転移可能性にどのように影響するのか。

これらの問いに答えることで、CWRの原理的な強化や、より効果的なエンコーダアーキテクチャ、事前学習タスクの開発に繋げることを目指している。

手法

本論文では、文脈化された単語表現（CWR）の言語知識と転送可能性を調査するために、17種類の多様なプロービングタスクを用いた分析を行う。具体的には、ELMo、OpenAI Transformer、BERTといった事前学習済み文脈化モデルの各層の表現を対象に、線形モデルを用いて様々な言語情報を予測するプロービングモデルを構築し、その性能を評価する。また、言語モデルの事前学習タスクだけでなく、様々な教師あり学習タスクで事前学習したCWRの転送可能性についても比較検討する。

新規性

本論文の新規性は、以下の3点にまとめられる。

広範な言語現象を対象としたプロービングタスクの構築: 既存研究では、特定の言語現象（例えば、構文構造や形態論）に焦点を当てたものが多かったが、本論文では、共参照、意味関係、エンティティ情報など、17種類の多様なプロービングタスクを用いて、文脈付き単語表現（CWR）が捉える言語知識を網羅的に分析している。これにより、CWRが持つ言語知識の全体像をより深く理解することが可能になった。
CWRの層ごとの転移可能性の分析: CWRを生成するモデル（文脈化器）の層ごとに、転移可能性を定量的に評価している。特に、再帰型ニューラルネットワーク（RNN）とTransformerの層構造の違いに着目し、RNNでは下位層がより転移可能である一方、Transformerでは中間層が転移可能であるという異なる傾向を明らかにしている。
様々な事前学習タスクがCWRに与える影響の分析: 言語モデルの事前学習だけでなく、様々な教師あり事前学習タスクを用いてCWRを学習し、その転移可能性を比較している。その結果、関連性の高いタスクで事前学習した場合、個々のタスクに対する性能は向上するものの、一般的な転移可能性においては言語モデルの事前学習が優位であることを示している。

これらの結果は、CWRの特性を理解し、より効果的なCWRの利用や開発に繋がる重要な知見を提供する。

章構成

1 Introduction
2 Probing Tasks
- 2.1 Token Labeling
- 2.2 Segmentation
- 2.3 Pairwise Relations
3 Models
4 Pretrained Contextualizer Comparison
- 4.1 Experimental Setup
- 4.2 Results and Discussion
5 Analyzing Layerwise Transferability
- 5.1 Experimental Setup
- 5.2 Results and Discussion
6 Transferring Between Tasks
- 6.1 Experimental Setup
- 6.2 Results and Discussion
7 Related Work
8 Conclusion
Acknowledgments
References
A Probing Task Setup Details
B Probing Model Training Details
C References to State-of-the-Art Task-Specific Models (Without Pretraining)
D Performance of Pretrained Contextualizers on All Tasks
- D.1 Token Labeling (ELMo and OpenAI Transformer)
- D.2 Token Labeling (BERT)
- D.3 Segmentation (ELMo and OpenAI Transformer)
- D.4 Segmentation (BERT)
- D.5 Pairwise Relations (ELMo and OpenAI Transformer)
- D.6 Pairwise Relations (BERT)
E Full Results for Transferring Between Pretraining Tasks
- E.1 Token Labeling
- E.2 Segmentation
- E.3 Pairwise Prediction

1 Introduction

事前学習された単語表現は、最先端のニューラル NLP モデルの重要な要素である。従来、これらの単語ベクトルは静的であり、各単語に単一のベクトルが割り当てられていた。しかし、最近の研究では、入力シーケンス全体を考慮して各単語にベクトルを割り当てる文脈的単語表現（CWR）が探求されている。CWR は通常、機械翻訳や言語モデリングなどの大規模データセットで学習されたニューラルネットワークの出力である。CWR は非常に効果的であり、最新のモデルで従来の静的単語ベクトルの代わりに使用すると、さまざまな NLP タスクで大きな改善が見られる。CWR の広範な成功は、言語の有用で転移可能な特徴をエンコードしていることを示唆している。しかし、その言語知識と転移可能性はまだ十分に理解されていない。最近の研究では、言語モデルやニューラル機械翻訳システムによって捕捉された言語知識が調査されているが、これらの研究は、階層的な構文や形態論などの単一の現象に焦点を当てていることが多い。本研究では、共参照、意味関係の知識、エンティティ情報など、幅広い現象を評価するために設計された 17 の多様なプロービングタスクを使用して CWR を調査することで、先行研究を拡張する。

2 Probing Tasks

本研究では、CWRs（文脈化された単語表現）に内在する言語知識を理解するために、17種類の多様な英語プロービングタスクを構築した。先行研究とは対照的に、文や文の埋め込みの特性やタスク性能を分析するのではなく、個々の単語または単語ペアのCWRsの理解に焦点を当てている。この分析ツールキットは、表現の内容をプロービングする将来の研究を支援するために公開されている。

2.1 Token Labeling

過去の研究の多くは、各トークンに対して独立して決定を行うトークンラベリングタスクを調査してきた。本研究では、これらの研究を統合し、追加のプロービングタスクを提案することで拡張している。

品詞タグ付け (POS)：CWRsが基本的な構文を捉えているかを評価する。Penn Treebank (PTB)とUniversal Dependencies English Web Treebank (UD-EWT)の2つの標準データセットを使用。
CCGスーパタギング (CCG)：単語の文脈における構文的な役割に関する詳細な情報を評価する。「ほぼ構文解析」と見なされており、スーパタグのシーケンスが文を少数の可能な構文解析にマッピングする。PTBのCCG派生に変換したCCGbankを使用。
構文的構成要素祖先タグ付け：ベクトルの階層的な構文の知識をプローブする。与えられた単語に対して、プロービングモデルは句構造木（PTBから）における親、祖父母、または曾祖父母の構成要素ラベルを予測するように訓練される。
意味タグ付け (ST)：トークンに文脈における意味的な役割を反映するラベルを割り当てる。これらの意味タグは、語彙意味論を評価し、冗長なPOS区別を抽象化し、POSタグ内の有用なケースを曖昧さ回避する。Parallel Meaning Bankの一部として開発されたBjervaらのデータセットを使用。
前置詞スーパセンス曖昧性解消：前置詞の語彙的な意味貢献（機能; PS-fxn）と、それが媒介する意味役割または関係（役割; PS-role）を分類するタスク。単語の語義曖昧性解消の一種であり、語彙意味論の一面を調べる。上記のタグ付けタスクとは対照的に、モデルはシーケンス内のすべてのトークンに対して決定を下すのではなく、単一トークンの前置詞で訓練および評価される。STREUSLE 4.0コーパスを使用。
イベント事実性 (EF)：フレーズに、それらが記述するイベントの事実性をラベル付けするタスク。モデルは、範囲[-3, 3]の(非)事実性の値を予測するように訓練される。上記のタグ付けタスクとは異なり、このタスクは回帰問題として扱われる。

2.2 Segmentation

プロービングタスクのいくつかは、BIOまたはIOタグを使用したセグメンテーションを伴う。ここでは、モデルは単一の単語のCWRからのみラベルを予測するように訓練される。

構文チャンキング (Chunk)：CWRsがスパンと境界の概念を含んでいるかどうかをテストする。タスクは、テキストを浅い構成要素チャンクにセグメント化することである。CONLL 2000共有タスクデータセットを使用。
固有表現認識 (NER)：CWRsがエンティティタイプに関する情報をエンコードしているかどうかを調べる。CoNLL 2003共有タスクデータセットを使用。
文法エラー検出 (GED)：文法的に正しい文を生成するために編集する必要があるトークンを特定するタスク。CWRsは大量の文法テキストで訓練されたモデルから抽出されるため、このタスクは、埋め込みが入力の異常（この場合は、非文法性）を示す特徴をエンコードするかどうかを評価する。First Certificate in Englishデータセットを使用。
接続詞識別 (Conj)：モデルが調整構造における接続詞を構成するトークンを識別するように挑戦する。これを行うには、非常に具体的な構文知識が必要となる。データは、FiclerとGoldbergの調整アノテーション付きPTBから取得。

2.3 Pairwise Relations

また、単語間の関係がCWRsにエンコードされているかどうかを調べるプロービングタスクも設計している。これらのタスクでは、単語ペアW1、W2が与えられた場合、プロービングモデルに[W1、W2、W1OW2]を入力する。モデルは、トークン間の関係に関する情報を予測するように訓練される。

アーク予測とアーク分類タスク：アーク予測は、2つのトークン間に何らかの関係が存在するかどうかを識別するバイナリ分類タスクである。アーク分類は、2つのトークンが何らかの関係でリンクされている状態で、それらの関係を識別するように訓練されるマルチクラス分類タスクである。
- 構文依存関係アーク予測と構文依存関係アーク分類：PTB（UDに変換）とUD-EWTを使用。
- 意味依存関係アーク予測と意味依存関係アーク分類：SemEval 2015共有タスクのデータセットを使用。
共参照アーク予測：モデルは、2つのエンティティがCWRsから共参照するかどうかを予測するように訓練される。CoNLL 2012共有タスクのデータセットを使用。

3 Models

セクション3では、本研究で使用するモデルについて説明している。

まず、プロービングモデルとして線形モデルを使用する。これは、CWRから容易に抽出できる情報に焦点を当てるためである。プロービングモデルの学習ハイパーパラメータなどの詳細は付録Bに記載されている。

次に、コンテキスト化モデルとして、英語のコンテキスト化された単語表現のために、公開されている6つのモデルを研究する。具体的には、双方向言語モデリングタスクで独立して学習された2つのコンテキスト化モデルの出力を連結するELMo、4層LSTMを使用するELMoのバリアント、6層Transformerを使用するELMoのバリアント、左から右への12層Transformer言語モデルであるOpenAI Transformer、マスクされた言語モデリングタスクと次の文予測タスクで共同で学習された双方向Transformerを使用するBERT（base、cased）、およびBERT（large、cased）を検討する。

4 Pretrained Contextualizer Comparison

この研究では、事前学習済みコンテキスト化器が捉える言語知識をより深く理解するために、一連のプロービングタスクを用いて各層を分析する。これらのコンテキスト化器は多くの点で異なっており、それらの違いをすべて制御することはこの研究の範囲外である。利用可能なモデルに焦点を当て、トレーニングレジームやモデルアーキテクチャの体系的な比較は今後の課題とする。

4.1 実験設定

プロービングモデルは、各コンテキスト化器の個々の層によって生成された表現で学習される。また、コンテキスト化されていないベクトル（300次元のGloVe、cased Common Crawlで学習）で学習した線形プロービングモデルと比較し、コンテキスト化による利点も評価する。

4.2 結果と考察

表1は、各コンテキスト化器の最適なプロービングモデルと、GloVeベースライン、およびタスクの過去の最高性能を比較している。線形モデルのみを使用しても、さまざまなNLPタスクで高いパフォーマンスに必要な情報の多くを容易に抽出できることが示されている。すべての場合において、CWRは非コンテキストベースラインよりも有意に優れている。実際、プロービングモデルは、多くの場合、注意深く調整されたタスク固有の最先端モデルのパフォーマンスに匹敵するか、それを超えることもある。特に、線形プロービングモデルは、文法エラー検出と前置詞の超意味識別（役割と機能の両方）で公開された最先端技術を凌駕している。

ELMoベースのコンテキスト化器を比較すると、ELMo（4層）とELMo（オリジナル）は本質的に同等であるが、両方の再帰モデルがELMo（トランスフォーマー）よりも優れていることがわかる。また、OpenAIトランスフォーマーは、ELMoモデルとBERTよりも大幅にパフォーマンスが低いことがわかる。OpenAIトランスフォーマーは一方向（左から右）で学習された唯一のモデルであることを考えると、双方向性が最高品質のコンテキスト化器にとって重要な要素であることを再確認できる。さらに、OpenAIトランスフォーマーは小文字化されたテキストで学習された唯一のモデルであり、NERのようなタスクでのパフォーマンスが妨げられている。BERTはELMoおよびOpenAIモデルよりも大幅に改善されている。

プロービングタスクの結果は、現在のCWRの方法では、入力内のエンティティや共参照現象に関する多くの情報を捉えていないことを示している（表1のNERの結果と付録Dの共参照アーク予測の結果など）。この弱点を緩和するために、将来の研究では、事前学習済みコンテキスト化器を明示的なエンティティ表現で拡張することが考えられる。

プロービングの失敗：プロービングモデルは、多くのタスクで最先端に近いパフォーマンスを発揮する一方で、NER、文法エラー検出、および接続詞識別など、いくつかのタスクではそれほど優れたパフォーマンスを発揮しない。これは、（1）CWRが関連情報や予測相関をエンコードしていないか、（2）プロービングモデルがベクトルから情報や予測相関を抽出するために必要な能力を持っていないかのいずれかが原因である可能性がある。前者の場合、タスク固有の情報をCWRにエンコードするには、タスク固有のコンテキスト特徴を学習する必要があるかもしれない。コンテキストプロービングモデルでタスク固有のコンテキスト特徴を学習することも（2）に役立つが、プロービングモデルの能力を高めることと同等の結果が得られると予想される。

プロービングモデルの失敗をより深く理解するために、（1）線形出力層の前にタスクで学習したLSTM（単方向、200隠れユニット）を使用するコンテキストプロービングモデル（タスク固有のコンテキスト化を追加）、または（2）線形プロービングモデルを多層パーセプトロン（MLP）に置き換える（プロービングモデルにパラメーターを追加：ReLUで活性化された単一の1024次元隠れ層）。これらの代替プロービングモデルは、ほぼ同じ数のパラメーターを持つ（LSTM + 線形はわずかに少ない）。

また、プロービング設定のパフォーマンスの上限を推定するために、完全な機能を備えたモデルと比較する。このモデルでは、CWRは512隠れユニットを持つ2層BiLSTMへの入力であり、出力はReLUで活性化された単一の1024次元隠れ層を持つMLPに供給され、ラベルを予測する。同様のモデルに、条件付きランダムフィールド（CRF; Lafferty et al., 2001）を付加したモデルは、CoNLL 2003 NERデータセットで最先端の結果を達成した（Peters et al., 2018a）。他のプロービングモデルにはグローバルコンテキストがないため、CRFを削除する。

この実験では、ELMo（オリジナル）事前学習済みコンテキスト化器に焦点を当てる。表2は、線形プロービングモデルと最先端の方法とのギャップが最も大きい2つのタスク（NERと文法エラー検出）で、各代替プロービングモデル内の最適な層のパフォーマンスを示している。また、高度に具体的な構文知識を必要とする2つのタスク（大祖先予測と接続詞識別）も含まれる。すべての場合において、MLPで線形モデルを置き換えるか、コンテキストプロービングモデルを使用することで、線形プロービングモデルよりも大幅な改善が見られる。NERと文法エラー検出では、MLPモデルとLSTM +線形モデルの間で非常に類似したパフォーマンスが見られる。これは、プロービングモデルがCWRから必要な情報を抽出するために、より多くの容量を必要としただけであることを示している。接続詞識別と大祖先予測では、CWRにエンコードされる可能性が低い構文知識をプローブする2つのタスクで、プロービングモデルのタスクで学習したコンポーネントとしてパラメーターを追加すると、単純にプロービングモデルにパラメーターを追加するよりも大幅な改善が見られる。これは、事前学習済みコンテキスト化器がタスクに必要な情報を捉えていないことを示唆している。

この分析は、エンドタスクにCWRを特化させることを目的とするコンテキスト化器の微調整に関する洞察も明らかにする。結果は、エンドタスクが事前学習タスクでは捉えられない可能性のある特定の情報を必要とする場合に、タスクで学習したコンテキスト化が重要であることを確認している（§4）。ただし、このようなエンドタスク固有のコンテキスト化は、CWRを微調整するか、タスクで学習したコンテキスト化器への入力として固定出力特徴を使用することによって実現できる。Peters et al.（2019）は、どのアプローチを適用すべきかを検討し始めている。

5 Analyzing Layerwise Transferability

本研究では、プロービングタスクの範囲でどれだけうまく実行できるかによって、CWRsの転移可能性を定量化する。より転移可能な表現は、タスク間でより優れたパフォーマンスを示す。事前学習されたコンテキスト化器の各層によって生成された表現を分析すると、層ごとの転移可能性に顕著なパターンが観察される（図3）。

5.1 実験設定

本研究では、ELMoベースのモデルに焦点を当てる。これは、著者らがコンテキスト化器のトレーニング用のコードを公開しているためである。さらに、ELMoベースのモデルは制御された比較を容易にする。これらのモデルは、コンテキスト化器のアーキテクチャのみが異なる。

5.2 結果と考察

図4は、CWRsを入力として、双方向言語モデリングタスクを実行するためにトレーニングされたソフトマックス分類器のパフォーマンスを示す。リカレントモデルでは、上位層が常に低いパープレキシティを達成していることがわかる。興味深いことに、4層のELMOモデルのレイヤー1と2は、非常に似たパフォーマンスを示す。一方、ELMo（トランスフォーマー）モデルの層は、このような単調な増加を示さない。最上位層が最良である（事前学習中にソフトマックス分類器に供給されたベクトルであるため、予想通り）一方で、中間層はさまざまなパフォーマンスを示す。すべてのモデルにおいて、言語モデリングに適した表現は、プロービングタスクのパフォーマンスが低い（図3）ことを示しており、コンテキスト化器の層は、一般的特徴とタスク固有の特徴のエンコードの間でトレードオフがあることを示唆している。

これらの結果は、ハワードとルーダー（2018）の段階的なアンフリーズの手法を動機づける。この手法では、微調整プロセス中に（最終層から開始して）モデル層が段階的にアンフリーズされる。高レベルのLSTM層は一般的でなく（事前学習タスクに特化している）、タスク固有の調整を適切に行う必要がある可能性が高い。一方、LSTMのベース層はすでに高度に転移可能な特徴を学習しており、微調整の恩恵を受けない可能性がある。

6 Transferring Between Tasks

6.1 実験設定

異なる事前学習タスク間の比較を制御するために、コンテキスト化器のアーキテクチャと事前学習データセットを固定する。すべてのコンテキスト化器はELMo（オリジナル）のアーキテクチャを使用し、各事前学習タスクの学習データはPTBから取得する。これにより、モデルは同じトークンを見るが、教師信号が異なる。比較対象は以下の通りである。

非コンテキスト化ベースライン（GloVe）: コンテキスト化の効果を評価する。
ランダム初期化された未学習のELMo（オリジナル）ベースライン: 事前学習の効果を評価する。
10億語ベンチマークで事前学習されたELMo（オリジナル）モデル: 双方向言語モデルの学習がより多くのデータでどのように効果があるかを評価する。

6.2 結果と考察

表3は、12個の異なるタスク（biLMとPTBアノテーション付きのセクション2の11個のタスク）で事前学習されたコンテキスト化器の各層の平均ターゲットタスク性能を示している。双方向言語モデルの事前学習が平均して最も効果的である。ただし、個々のターゲットタスクで最高のパフォーマンスを達成する設定は、関連タスク間の転移を伴うことが多い（表3には示されていないが、付録Eを参照）。例えば、構文依存関係アーク分類（EWT）タスクのCWRをプロービングする場合、タスク自体で事前学習を行うのが最も効果的である。ただし、別のデータセット（PTB）を使用する。しかし、構文依存関係アーク予測（PTB）、CCGスーパタギング、チャンキング、祖先予測タスク、および意味依存関係アーク分類での事前学習は、双方向言語モデルの事前学習よりも優れたパフォーマンスを示す。

関連タスク間の転移は有益だが、より多くのデータで学習するとより強力な結果が得られる（10億語ベンチマークで学習されたELMoオリジナルBiLM）。これは、事前学習されたCWRの転移性が大規模なコーパスでの事前学習に依存していることを示しており、自己教師あり事前学習の有用性と重要性を強調している。

さらに、BiLMのレイヤー0は、PTBで事前学習されたコンテキスト化器の中で最もパフォーマンスの高い単一層である。この観察は、レイヤー0が文字レベルの畳み込みニューラルネットワークの出力であり、トークンレベルのコンテキスト情報を持たないため、語彙情報が言語モデルの初期一般化の源であることを示唆している。

本研究と方法論的に最も類似しているのは、Shiら(2016b)、Adiら(2017)、Hupkesら(2018)の研究であり、彼らはニューラルモデルの内部表現を用いて、関心のある特性を予測している。Conneauら(2018)は、文埋め込みの言語的特性を研究するためにプロービングタスクを構築している。Petersら(2018b)は、ニューラルアーキテクチャの選択が、双方向言語モデル(ELMo)から派生したCWRの最終タスク性能と質的特性にどのように影響するかを研究している。Bowmanら(2018)は、さまざまな事前学習タスクを比較し、マルチタスク学習の影響を調査している。

先行研究では、ニューラルモデルにおける学習された表現を研究するために、個々のニューロンの活性化を直接調べたり(Karpathyら、2015; Liら、2015; Shiら、2016a)、モデルやデータセットの構成要素をアブレーションしたり(Kuncoroら、2017; Gaddyら、2018; Khandelwalら、2018)、注意機構を解釈したり(Bahdanauら、2015)など、さまざまな手法が用いられてきた。最近の調査については、BelinkovとGlass(2019)を参照のこと。特に重要な研究として、モデルが特定の現象を捉えている場合にのみ解決できる合成タスクの構築がある(Linzenら、2016; JumeletとHupkes、2018; Wilcoxら、2018; FutrellとLevy、2019)。ZhangとBowman(2018)は、言語モデルとニューラル機械翻訳システムの構文的知識を比較している。本研究では、事前学習タスクと対象プロービングモデルタスクの範囲を広げ、より完全な全体像を得ることを目指す。また、最先端の結果を生み出している強力な文脈化器アーキテクチャであるELMo(オリジナル)に焦点を当てる。

いくつかの研究では、アナロジーのような単語類似性タスクを用いて、非文脈的な単語表現を本質的に評価しようとしてきた(Mikolovら、2013)。これらの手法は、追加のパラメータを必要とせず、ベクトルを直接評価する点で、本研究のアプローチとは異なる。本研究のプロービングモデルは学習する必要がある。この点において、本研究の手法はQVEC(Tsvetkovら、2015)に似ている。

8 Conclusion

本研究では、17種類の多様なプロービングタスクを用いて、文脈化された単語表現の言語知識と転送可能性を調査した。事前学習された文脈化器によって生成された特徴量は、幅広いタスクで高いパフォーマンスを達成するのに十分であることが示された。文脈化された単語表現では捉えられない特定の情報を必要とするタスクに対しては、タスク固有の文脈的特徴を学習することで、必要な知識をエンコードできることが示された。さらに、文脈化器の層における転送可能性のパターン分析により、LSTMの最下層が最も転送可能な特徴をエンコードし、トランスフォーマーの中間層が最も転送可能であることが示された。LSTMの上位層はタスク固有性が高く（したがって、一般的ではない）、トランスフォーマー層はタスク固有性の単調な増加を示さないことが判明した。以前の研究では、上位の文脈化層がより高次の意味情報を明示的にエンコードしている可能性が示唆されていたが、実際には、特定の高次の意味現象が、文脈化器の事前学習タスクに偶然有用であり、上位層に現れるようである。最後に、双方向言語モデルの事前学習は、他の11種類の候補となる事前学習タスクよりも一般的に転送可能な表現を生成することが判明した。

Acknowledgments

本研究は、セマンティックタギングのデータセットを共有してくれたJohannes Bjerva氏、ワシントン大学のNoah's ARKグループのメンバー、アレン人工知能研究所の研究者、匿名査読者からの貴重なフィードバックに感謝する。また、NLはワシントン研究財団フェローシップとバリー・M・ゴールドウォーター奨学金によって、YBはハーバード大学の心脳行動イニシアチブによって支援されている。

References

以下に、論文の参考文献（References）セクションを日本語で要約する。

この論文では、自然言語処理（NLP）における文脈付き単語表現（CWR）の言語知識と転移可能性について調査している。参考文献には、CWRに関連する様々な研究が含まれており、特に以下のトピックに関するものが目立つ。

CWRの基礎と応用:
- ELMo、BERT、OpenAI Transformerなど、主要なCWRモデルに関する論文が引用されている。
- CWRが機械翻訳、言語モデリング、構文解析など、多様なNLPタスクで有効であることが示されている。
- CWRの内部構造や、どのように言語情報をエンコードしているかについての分析研究も含まれている。
言語知識の分析:
- プロービングタスクを用いて、CWRがどのような言語情報を捉えているかを分析した研究が多数引用されている。
- 品詞タグ付け、構文解析、意味役割付与など、様々な言語レベルでの知識がCWRにエンコードされていることが示唆されている。
- CWRの層ごとの転移可能性や、タスク固有の知識と一般的な知識のトレードオフについても議論されている。
転移学習と事前学習:
- 言語モデリング以外の事前学習タスクが、CWRの転移可能性に与える影響についての研究が含まれている。
- 自己教師あり学習や多タスク学習など、異なる事前学習戦略が比較検討されている。
- 事前学習に用いるデータ量や、データセットの特性が、CWRの性能に影響を与えることが示唆されている。
その他:
- 単語埋め込み、文埋め込み、注意機構など、関連するNLP技術に関する論文も引用されている。
- 構文構造、意味構造、形態素解析などの言語学的な概念に関する論文も含まれている。
- モデルの解釈可能性や、ニューラルネットワークの内部構造に関する研究も引用されている。

これらの参考文献は、CWRの研究が急速に進展しており、その言語知識と転移可能性についての理解が深まっていることを示している。また、この論文が、先行研究を基盤としつつ、新たな視点からCWRの分析に取り組んでいることを示唆している。

A Probing Task Setup Details

構文的構成要素祖先タギング (Syntactic Constituency Ancestor Tagging): 各文の最上位ノードであるROOTノードを削除する。親、祖父母、または曾祖父母を持たない単語には、「None」というラベルを付与する。これにより、他の例と同様に扱われ、プロービングモデルは学習および評価中にこの「None」ラベルを予測する必要がある。
前置詞の超意味曖昧性解消 (Preposition Supersense Disambiguation): 個々のCWRs（文脈化された単語表現）またはペアのCWRs内の言語的知識に焦点を当てるため、単語の前置詞のみでプロービングモデルを学習・評価する。
接続詞の識別 (Conjunct Identification): プロービングモデルは、接続詞構造を持つ文のみで学習および評価を行う。

B Probing Model Training Details

我々のプロービングモデルは、学習率0.001のAdam（Kingma and Ba, 2015）を用いて学習される。我々は、3のエポックの忍耐を持つ早期停止を用いて、50エポックの間学習を行う。我々のモデルは、AllenNLPフレームワーク（Gardner et al., 2018）で実装される。サブワード表現を使用するコンテキスト化器（例えば、OpenAIトランスフォーマーとBERT）については、サブワード表現をトークン表現に集約するために、トークンの表現をその最終サブワードの表現とする。

C References to State-of-the-Art Task-Specific Models (Without Pretraining)

セクションCでは、事前学習なしでタスク固有のモデルにおける最先端の性能に関する参考文献を示している。具体的には、以下のタスクに対する最先端の性能を達成したモデルの参考文献が記載されている。

CCG supertagging (CCG)
品詞タグ付け (POS) (Penn Treebank (PTB) および Universal Dependencies English Web Treebank (EWT) の両方)
チャンキング (Chunk)
固有表現認識 (NER)
意味タグ付け (ST)
文法誤り検出 (GED)
前置詞の超意味役割 (PS-Role) および機能 (PS-Fxn)
イベントの事実性 (EF)

これらのタスクは、本文中で提案されたプロービングタスクの一部である。このセクションでは、事前学習された文脈化表現を使用せずに、これらのタスクで達成された最先端の結果への参照を提供することで、提案されたプロービングタスクのベースラインを確立している。

D Performance of Pretrained Contextualizers on All Tasks

このセクションでは、様々なプリトレインされたコンテキスト化器（ELMo、OpenAI Transformer、BERT）の、様々なタスクにおける性能を詳細に分析する。

D.1 トークンラベリング (ELMoとOpenAI Transformer)

表5では、ELMoとOpenAI Transformerの各層からの出力に基づいた線形プロービングモデルのトークンラベリングタスクにおける性能を示す。この結果は、GloVeに基づくベースラインと比較され、各タスクにおける最先端の性能も示されている。

D.2 トークンラベリング (BERT)

表6では、BERTの各層からの出力に基づいた線形プロービングモデルのトークンラベリングタスクにおける性能を示す。この結果は、各タスクにおける最先端の性能と比較されている。

D.3 セグメンテーション (ELMoとOpenAI Transformer)

表7では、ELMoとOpenAI Transformerの各層からの出力に基づいた線形プロービングモデルのセグメンテーションタスクにおける性能を示す。この結果は、GloVeに基づくベースラインと比較され、各タスクにおける最先端の性能も示されている。

D.4 セグメンテーション (BERT)

表8では、BERTの各層からの出力に基づいた線形プロービングモデルのセグメンテーションタスクにおける性能を示す。

D.5 ペアワイズ関係 (ELMoとOpenAI Transformer)

表9では、ELMoとOpenAI Transformerの各層からの出力に基づいた線形プロービングモデルのペアワイズ関係タスクにおける性能を示す。この結果は、GloVeに基づくベースラインと比較されている。

D.6 ペアワイズ関係 (BERT)

表10では、BERTの各層からの出力に基づいた線形プロービングモデルのペアワイズ関係タスクにおける性能を示す。

E Full Results for Transferring Between Pretraining Tasks

このセクションでは、様々な事前学習タスクで学習されたコンテキスト化表現の、異なるタスクへの転移性能を詳細に示している。特に、トークンラベリング、セグメンテーション、ペアワイズ予測の3つのタスクについて、事前学習タスクの種類とモデルの層ごとの性能を比較している。

E.1 トークンラベリング

表11は、様々な事前学習タスクで学習されたコンテキスト化表現を用いたトークンラベリングタスクの結果を示している。この表では、EWTのPOSタグ付け、意味タグ付け（ST）、前置詞の役割（PS-Role）、前置詞の機能（PS-Fxn）、イベントの事実性（EF）の各タスクについて、異なる事前学習タスクと層における性能を比較している。 * ELMo（オリジナル）モデルをベースラインとして、様々な事前学習タスクが、これらのタスクの性能にどのように影響するかを示している。 * 学習された表現の層によって、性能が異なることが示されている。

E.2 セグメンテーション

表12は、様々な事前学習タスクで学習されたコンテキスト化表現を用いたセグメンテーションタスクの結果を示している。この表では、固有表現認識（NER）と文法エラー検出（GED）のタスクについて、異なる事前学習タスクと層における性能を比較している。 * ELMo（オリジナル）モデルをベースラインとして、様々な事前学習タスクが、これらのタスクの性能にどのように影響するかを示している。 * ここでも、学習された表現の層によって、性能が異なることが示されている。

E.3 ペアワイズ予測

表13は、様々な事前学習タスクで学習されたコンテキスト化表現を用いたペアワイズ予測タスクの結果を示している。この表では、構文依存関係アーク予測（EWT）、構文依存関係アーク分類（EWT）、意味依存関係アーク予測、意味依存関係アーク分類、そして共参照アーク予測の各タスクについて、異なる事前学習タスクと層における性能を比較している。 * ELMo（オリジナル）モデルをベースラインとして、様々な事前学習タスクが、これらのタスクの性能にどのように影響するかを示している。 * 様々な事前学習タスクが、これらのタスクの性能に影響を与えることが示されている。

これらの結果は、事前学習タスクの選択が、コンテキスト化表現の転移性能に大きな影響を与えることを示唆している。また、モデルの層によって、学習される情報の種類が異なることも示唆している。

七誌の開発日記

AIで論文を読む: Linguistic knowledge and transferability of contextual representations