単語表現空間における構文木構造の埋め込みに関する論文を Gemini Paper Summarizer で要約しました。

Hewitt, J., & Manning, C. D. (2019). A Structural Probe for Finding Syntax in Word Representations. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4129–4138, Minneapolis, Minnesota. Association for Computational Linguistics.

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 Introduction

2 Methods

2.1 構造的プローブ

2.2 構造的プローブの特性

2.3 木の深さを捉える構造的プローブ

3 Experiments

3.1 木構造距離評価指標

3.2 木構造深さ評価指標

4 Results

4.1 線形変換ランクの分析

5 Discussion & Conclusion

6 Acknowledgements

References

A Appendix: Implementation Details

A.1 二乗L2距離 vs. L2距離

A.2 プローブ学習の詳細

B Appendix: Extra examples

Abstract

近年の研究により、単語表現における言語知識を検出する能力が向上した。しかし、現在の統語的知識を検出する方法では、構文木が全体として表現されているかどうかをテストしていない。本研究では、ニューラルネットワークの単語表現空間の線形変換に構文木が埋め込まれているかどうかを評価する構造プローブを提案する。このプローブは、二乗L2距離が構文木における単語間の距離を符号化する線形変換と、二乗L2ノルムが構文木における深さを符号化する線形変換を特定する。我々のプローブを用いて、そのような変換がELMoとBERTの両方に存在することを示すが、ベースラインには存在しないことを示す。これは、構文木全体が深層モデルのベクトル幾何学に暗黙的に埋め込まれているという証拠となる。

概要

本論文では、ニューラルネットワークの単語表現空間における構文木構造の埋め込みを評価する構造プローブを提案し、ELMoとBERTが構文木を高い一貫性で埋め込んでいることを実験的に示す。

問題意識

本論文は、単語の分散表現が構文木構造をどの程度捉えているかを評価するための構造的プローブを提案している。既存の構文知識検出手法は、構文木全体が表現されているかを検証していないという問題意識に基づき、単語表現空間の線形変換によって構文木が埋め込まれているかを評価する手法を開発している。具体的には、単語間の距離が構文木における距離に対応し、単語のノルムが構文木における深さに対応するような線形変換を学習することで、分散表現が構文構造をどの程度捉えているかを定量的に評価している。

手法

この論文では、ニューラルネットワークの単語表現空間において構文木が埋め込まれているかを評価するための構造プローブという手法を提案している。具体的には、単語間の距離を構文木におけるパス長で、単語の深さを構文木における深さでエンコードする線形変換を学習する。

新規性

本論文の新規性は、以下の点にまとめられる。

構造プローブの提案: 単語表現空間における構文木構造の埋め込みを評価するための、新しい構造プローブを提案した点。このプローブは、単語間の距離が構文木におけるパス長に対応するような線形変換を特定する。また、単語の深さが構文木における深さに対応するような線形変換も特定する。
深層モデルにおける構文木の埋め込みの検証: 提案した構造プローブを用いて、ELMoとBERTという2つの深層言語モデルが構文木構造を埋め込んでいることを実験的に示した点。これは、これらのモデルが明示的に構文木を学習していないにもかかわらず、その表現空間に構文構造が暗黙的に存在することを示唆する。
低ランク変換の有効性: 構文構造を捉えるために必要な線形変換のランクが低いことを示した点。これは、構文情報が単語表現空間の低次元部分空間に効率的にエンコードされている可能性を示唆する。

これらの点から、本論文は、単語表現空間における構文構造の存在を検証するための新しい手法を提案し、深層モデルにおける構文構造の埋め込みに関する新たな知見を提供した点で、新規性があると言える。

章構成

1 Introduction
2 Methods
- 2.1 The structural probe
- 2.2 Properties of the structural probe
- 2.3 Tree depth structural probes
3 Experiments
- 3.1 Tree distance evaluation metrics
- 3.2 Tree depth evaluation metrics
4 Results
- 4.1 Analysis of linear transformation rank
5 Discussion & Conclusion
6 Acknowledgements
References
A Appendix: Implementation Details
- A.1 Squared L2 distance vs. L2 distance
- A.2 Probe training details
B Appendix: Extra examples

1 Introduction

深層学習モデルが自然言語処理のベンチマークで成果を上げ続ける中、モデルが何を学習しているかを理解することが重要になっている。そのため、プロービング手法が、言語表現が特定の知識（品詞、形態素、文の長さなど）をどの程度符号化しているかを評価するために設計されている。これらの手法は、表現から情報を抽出するための教師ありモデルであるプローブを指定することで機能する。特に、深層モデルの表現が構文を符号化しているかどうかは、言語学とより良いモデルを構築する上で重要である。最近の研究にもかかわらず、深層文脈モデルが単語表現において構文木全体を符号化しているかどうかについては、未解決の疑問が残っている。

2 Methods

2.1 構造的プローブ

本研究では、ニューラルネットワークの単語表現が文の依存構造を捉えているかを検証するための、構造的プローブを提案する。このプローブは、単語列 $w_1^n$ が与えられた際に、モデル $M$ が出力するベクトル表現 $h_1^n$ を利用する。具体的には、任意の正定値対称行列 $A \in S^{m \times m}$ によってパラメータ化される内積 $h^T A h$ を定義する。これは、線形変換 $B \in R^{k \times m}$ を用いて $A = B^T B$ と表現でき、内積は $(Bh)^T (Bh)$ と表せる。この内積は距離の概念に対応し、単語 $h_i$ と $h_j$ の二乗距離は以下のように定義される。

d_B(h_i, h_j)^2 = (B(h_i - h_j))^T (B(h_i - h_j))

この二乗距離の定義を用いて、学習データ中の全ての文 $l$ における、単語ペア $(w_i, w_j)$ 間の構文木上の距離 $d_T^l(w_i, w_j)$ を近似するように、行列 $B$ を勾配降下法によって学習する。

\min_B \sum_l \frac{1}{|s_l|^2} \sum_{i,j} |d_T^l(w_i, w_j) - d_B(h_i, h_j)^2|

ここで、 $|s_l|$ は文の長さであり、文中の単語ペア数で正規化している。

2.2 構造的プローブの特性

提案する構造的プローブは、有効な距離指標を定義するため、いくつかの特性を持つ。まず、距離は非負かつ対称であることが保証される。最も重要な点として、このプローブは、表現空間上に、二乗距離が構文木上の距離を符号化するような内積が存在するという具体的な主張を検証する。これは、モデルが単にどの単語がどの単語に支配されるかだけでなく、構文木上の単語間の近さを符号化することを意味する。この特性は、単語埋め込みにおけるアナロジーがベクトルオフセットとして符号化されるという主張と同様に、表現空間の構造に関する主張である。この構造を調べることで、変換された空間の次元数などの情報を得ることができる。

2.3 木の深さを捉える構造的プローブ

構文木の二つ目の特性として、単語 $w_i$ の深さ $||w_i||$ を考える。これは、構文木における単語 $w_i$ とルートノード間のエッジ数として定義される。この深さは、文中の単語の順序を定めるため、ノルムとして表現される。そこで、単語表現の二乗ノルムが構文木上の深さを符号化するような線形変換 $B$ の存在を検証する。この場合、ベクトル距離関数 $d_B(h_i, h_j)$ を二乗ノルム $||h_i||^2$ で置き換え、式(1)を $||h_i||_A = (B h_i)^T (B h_i)$ に置き換えて、 $B$ を学習する。距離プローブと同様に、このノルムの定式化も、ベクトル空間の構造に関する具体的な主張となる。

3 Experiments

本研究では、言語モデリングを目的として事前学習された2つの人気英語モデルであるELMoとBERTからの表現が、提案する構造仮説に従って構文木を埋め込んでいるかどうかを評価する。特に断りがない限り、線形変換 $B$ はフルランク（すなわち、 $B$ は正方行列）であるとする。後述の§4.1では、構文をエンコードするために実際に必要な変換のランクを検証する。

3.1 木構造距離評価指標

モデルを評価するにあたり、すべての単語ペア間の予測距離が、金標準の構文木をどれだけうまく再構成し、構文木の距離指標とどれだけ相関しているかを評価する。木構造の再構成を評価するために、各テスト文の予測された構文木距離を取得し、最小全域木を計算する。予測された木構造は、無向グラフにおける付加スコア（UUAS）に基づいて評価する。距離の相関については、各文の真の距離と予測距離との間のスピアマン相関係数を計算する。これらの相関係数は、固定長のすべての文の間で平均化され、「距離スピアマン（DSpr.）」指標として、文長5〜50の範囲でマクロ平均を算出する。

3.2 木構造深さ評価指標

モデルを評価するにあたり、構文木における深さによって指定される単語の順序を再現する能力を評価する。真の深さ順序と予測された順序との間のスピアマン相関係数を報告する。まず、同じ長さの文の間で平均化し、次に文長5〜50の範囲で平均化して、「正規スピアマン（NSpr.）」指標とする。また、文の根を最も浅いものとして識別するモデルの能力を「root%」として評価する。

4 Results

表1に、構文距離プローブと構文深さプローブの結果を示す。まず、我々のプローブが、パーサーベースのプローブとは異なり、情報量の多い表現の上で単に「構文解析を学習する」ことができないことを確認する。特に、ELMO0とDECAY0は、単語の線形シーケンスをエンコードする右分岐木オラクルを大幅に上回ることができない。ELMO1の表現能力はあるが、トレーニングはされていないPROJOは、ベースラインの中で最も優れた性能を発揮する。調査の結果、PROJOに対する我々のプローブは、線形仮説をわずかに逸脱して改善していることがわかった（図2参照）。

我々は、ELMOとBERTのそれぞれにおいて、驚くほどロバストな構文が埋め込まれていることを発見した。図2は、予測された距離に基づく最小全域木が、ELMoとBERTの両方で依存構文解析構造を驚くほど回復していることを示している。しかし、距離メトリック自体はグローバルな概念であることに注意する。すべての単語ペアは、どの単語がヘッドであるかだけでなく、距離を知るようにトレーニングされている。図4は、予測された距離によって回復された真の構文距離メトリックの豊富な構造を示している。図3は、プローブ変換後のベクトルのノルムによって、木構造における深さが驚くほどエンコードされていることを示している。モデル間では、BERTLARGEがBERTBASEよりも優れており、BERTBASEがELMOよりも優れていることが一貫してわかった。また、Petersらの研究と同様に、レイヤー間で構文情報に明確な違いがあることがわかった（図1参照）。

4.1 線形変換ランクの分析

ELMoとBERTの両方に構文をエンコードするベクトル構造が存在するという結果を踏まえ、構文情報がベクトル空間にどの程度コンパクトにエンコードされているかを問うのは自然なことである。両方のモデルにおいて、必要な線形変換の有効ランクが驚くほど低いことがわかった。我々は、kを変化させる構造プローブをトレーニングする。すなわち、変換されたベクトルBhがRkにあるような行列B∈Rk×mを指定する。図5に示すように、kを64または128以上に増やしても、構文解析の精度は向上しない。直感的には、kが大きいほどプローブモデルの表現力が大きくなり、モデルの表現能力の大部分が構文に費やされることを意味する。また、我々が検討する3つのモデルすべてが、ほぼ同じランクの変換を必要とするように見えることに好奇心をそそられる。この探求は、今後の研究課題とする。

5 Discussion & Conclusion

本研究は、モデルが階層構造やその他の言語現象を理解しているかを判断するために、モデルの振る舞いを分析する最近の研究を拡張するものである。先行研究では、言語プローブに関する研究が見られる。Conneauら（2018）は、文の表現ベクトルに文中で達成された最大の構文深さを分類させることで、本研究の構文深さ予測タスクと同様のタスクを提示した。Tenneyら（2019）は、ゴールド構造が与えられた場合に構造上のラベルを学習するプローブを訓練し、本研究の補完的なタスクを評価する。Petersら（2018b）は、隠れ状態から構成素構造木を抽出できる範囲を評価するが、情報の符号化方法について明確な仮説を立てることなく、かなりの複雑さのプローブを使用する。

本研究のレビューアは、双線形グラフベースの依存性パーサーのように、単にヘッドをプローブする可能性を指摘したが、より広く言えば、何らかの種類の深層ニューラルネットワークプローブは、本研究の方法よりも高い解析精度を達成する可能性がほぼ確実である。本研究のタスクとプローブの構築は、構文知識の概念を広くテストするのではなく、すべての単語のペアが構文距離を知っており、この情報がベクトル空間の大域的な構造特性であるという非常に厳密な概念をテストするように設計されている。ただし、本研究はこの仮説をテストすることに限定されており、プローブの複雑さ、プローブタスク、およびテストされる仮説の間で他のトレードオフを行う将来のプローブタスクを予見する。

要約すると、本研究では、構造プローブを通じて、構文木の構造が、2つの深層モデルの単語表現空間における適切に定義された距離とノルムを通じて出現することを実証した。この実用的な洞察を超えて、本研究のプローブは、言語の任意のニューラル表現におけるさまざまなタイプのグラフ構造の存在をテストするのに役立つ可能性があり、将来の研究のための刺激的な道筋を示唆している。

6 Acknowledgements

Urvashi Khandelwal氏とTatsunori B. Hashimoto氏に初期段階での有益な助言を、Abigail See氏、Kevin Clark氏、Siva Reddy氏、Drew A. Hudson氏、Roma Patel氏に草稿への有益なコメントを、Percy Liang氏にランク実験の指導を感謝する。また、明確性の向上と追加実験につながる有益なコメントをくれた査読者にも感謝する。本研究はTencentからの寄付によって支援された。

References

以下は、参考文献の日本語要約です。

Yossi Adi et al. (2017): 文埋め込みの微細な分析のために補助的な予測タスクを使用する。
Yonatan Belinkov et al. (2017): ニューラル機械翻訳モデルが形態論について学習する内容を分析する。
Terra Blevins et al. (2018): 深層RNNがソフトな階層的構文をエンコードする。
Alexis Conneau et al. (2018): 文埋め込みが言語的特性をどの程度捉えているかを調査する。
Jacob Devlin et al. (2019): BERT：言語理解のための深層双方向Transformerの事前学習。
Richard Futrell et al. (2018): RNNを心理言語学的な対象として捉え、構文状態と文法的な依存関係を分析する。
Kristina Gulordava et al. (2018): 色のない緑の再帰的ネットワークが階層的に夢を見る。
William L. Hamilton et al. (2017): グラフ上の表現学習に関する手法と応用。
Dieuwke Hupkes et al. (2018): 再帰型ニューラルネットワークが階層構造をどのように処理するかを可視化し、診断分類器で明らかにする。
Diederik P. Kingma and Jimmy Ba (2014): 確率的最適化のためのAdam法。
Adhiguna Kuncoro et al. (2018): LSTMは構文に敏感な依存関係を学習できるが、構造をモデル化することで改善される。
Tal Linzen (2018): 言語学と深層学習が互いに貢献できる内容。
Tal Linzen et al. (2016): LSTMが構文に敏感な依存関係を学習する能力を評価する。
Tal Linzen and Brian Leonard (2018): 再帰型ネットワークと人間における構文的合意エラーの異なるパターン。
Mitchell P. Marcus et al. (1993): 大規模な英語アノテーション付きコーパスであるペンツリーバンクの構築。
Marie-Catherine de Marneffe et al. (2006): 句構造解析から型付き依存関係解析を生成する。
Tomas Mikolov et al. (2013): 単語と句の分散表現とその合成性。
Graham Neubig et al. (2017): 動的ニューラルネットワークツールキットであるDynet。
Adam Paszke et al. (2017): PyTorchにおける自動微分。
Matthew Peters et al. (2018a): 深層文脈化単語表現。
Matthew Peters et al. (2018b): 文脈化された単語埋め込みの構造と表現を分析する。
Marten van Schijndel and Tal Linzen (2018): 明示的な階層的構文なしにガーデンパス効果をモデル化する。
Gongbo Tang et al. (2018): なぜ自己注意なのか？ニューラル機械翻訳アーキテクチャのターゲット評価。
Ian Tenney et al. (2019): 文脈から何を学ぶのか？文脈化された単語表現における文構造のプロービング。

A Appendix: Implementation Details

A.1 二乗L2距離 vs. L2距離

セクション2.2では、距離プローブが距離メトリックを指定する一方で、二乗ベクトル距離でそれを再構成すること、同様に、ノルムプローブがノルムを指定する一方で、二乗ベクトルノルムでそれを再構成することに言及する。これは、正確な構文木距離とノルムを再構成するために重要であることがわかった。これは、正確な構文木構造のスカラ値を再構成するために二乗ベクトル量を使用する必要があることを意味する。たとえば、二乗距離は三角不等式に従わないため、これは問題となる可能性があるが、有効な距離メトリックは従う。

ただし、エンコードされたグラフ構造の観点から、距離と二乗距離は同一であることに注意する。二乗ベクトル距離で学習した後、予測された量を平方根にすることで、距離メトリックを得ることができる。単語のすべてのペア間の相対的な順序は変わらない。同じ木がどちらの方法でもエンコードされ、定量的なメトリックも変化しない。ただし、正確なスカラ距離は真の木距離とは異なる。

これは、なぜ二乗距離が距離よりも優れているのか、そしてそれ以上に、L2距離のどの関数（またはおそらく、Lp距離）が木距離を最適にエンコードするのかという将来の研究のための疑問を提起する。それは、距離の関数に関する損失の勾配、および関数が木距離の正確なスカラ値にどれだけ適合しやすいかに関係している可能性がある。

A.2 プローブ学習の詳細

すべてのプローブは、真の距離またはノルムに対する予測された二乗距離または二乗ノルムのL1損失を最小化するように学習される。最適化は、学習率0.001、β1 = .9、β2 = .999、ε = 10-8で初期化されたAdamオプティマイザ（Kingma and Ba, 2014）を使用して実行される。プローブは、バッチサイズ20で、最大40エポックまで収束するように学習される。深さプローブの場合、損失は文中のすべての予測で合計され、文の長さで正規化され、次に勾配ステップを実行する前にバッチ内のすべての文で合計される。距離プローブの場合、正規化は文の長さの二乗によって実行される。各エポックで、開発損失が計算される。開発損失が新しい最小値を達成しない場合、オプティマイザは初期学習率に0.1を乗じてリセットされる（モメンタム項は保持されない）。すべてのモデルは、DyNet（Neubig et al., 2017）とPyTorch（Paszke et al., 2017）の両方で実装された。

B Appendix: Extra examples

セクション「B Appendix: Extra examples」では、モデルの挙動の追加例として、ベースラインモデルの挙動を含め、構文木の距離予測と深さ予測の両方について示している。図6と図7では、複数のモデルとベースラインから抽出された依存関係木を持つ単一の文を示している。図8では、ELM01、BERTLARGE16、およびベースラインのPROJOからの複雑な文に対する木の深さ予測を示している。最後に、図9では、大規模で高解像度形式で、文中のすべての単語ペア間の金の構文木距離と予測された二乗構文木距離を示している。

七誌の開発日記

AIで論文を読む: A Structural Probe for Finding Syntax in Word Representations