【お知らせ】プログラミング記事の投稿はQiitaに移行しました。

AIで論文を読む: What does BERT look at?

BERT の Attention 機構に関する論文を Gemini Paper Summarizer で要約しました。

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

BERTのような大規模な事前学習済みニューラルネットワークは、自然言語処理において近年大きな成功を収めており、教師なしデータから言語のどのような側面を学習できるのかを調査する研究が活発化している。最近の分析では、モデルの出力(例えば、言語モデルの驚き)や内部ベクトルの表現(例えば、プロービング分類器)に焦点が当てられてきた。これらの研究を補完するものとして、我々は事前学習済みモデルのアテンションメカニズムを分析するための手法を提案し、それをBERTに適用する。BERTのアテンションヘッドは、区切り文字トークンへの注意、特定の位置オフセット、または文全体への広範な注意などのパターンを示し、同じレイヤーのヘッドはしばしば同様の挙動を示す。さらに、特定のアテンションヘッドが構文や共参照の言語的概念とよく対応していることを示す。例えば、動詞の直接目的語、名詞の限定詞、前置詞の目的語、および非常に高い精度で共参照の言及を検出するヘッドを発見する。最後に、アテンションベースのプロービング分類器を提案し、それを用いて、かなりの構文情報がBERTのアテンションに捉えられていることをさらに示す。

概要

BERTの注意機構を分析した結果、特定の注意ヘッドが構文や照応関係といった言語的な概念と対応していること、また、注意ヘッドの組み合わせが構文解析において有効であることを示した。

問題意識

この論文は、BERTのような大規模な事前学習済みニューラルネットワークが、言語のどのような側面を学習しているのかを解明しようとしている。特に、BERTの注意機構(attention mechanism)に着目し、その挙動を分析することで、BERTがどのような言語的特徴を捉えているのかを明らかにしようとしている。従来の言語モデルの出力や内部ベクトル表現の分析に加えて、注意機構の分析という新たなアプローチを提案している点が特徴である。

手法

この論文では、事前学習済みモデルの注意機構を分析するための手法を提案し、BERTに適用している。具体的には、以下の3つの主要なアプローチを提示している。

  1. 注意ヘッドの行動パターンの分析: BERTの注意ヘッドが、区切りトークン、特定の相対位置、または文全体に注意を向けるといった、一般的な行動パターンを示すことを明らかにしている。また、同じ層のヘッドが類似した行動を示す傾向があることも示している。

  2. 個々の注意ヘッドの言語的特性の分析: 各注意ヘッドを、ある単語を入力として、最も注意を向ける別の単語を出力する単純な分類器として扱い、構文関係を分類する能力を評価している。特定のヘッドが、動詞の直接目的語、名詞の限定詞、前置詞の目的語、所有代名詞の目的語などを高い精度で識別できることを示している。また、照応解析についても同様の分析を行い、BERTのヘッドが照応関係を捉えることができることを示している。

  3. 注意に基づくプロービング分類器: 注意マップを入力として、依存関係解析を行うプロービング分類器を提案している。この分類器は、BERTの注意機構が構文情報を捉えていることを示唆している。さらに、単語埋め込みと注意機構を組み合わせることで、より高い精度を達成できることを示している。

これらの手法を通じて、BERTの注意機構が、構文や照応といった言語的な側面を、教師なし学習のみで獲得していることを明らかにしている。

新規性

本論文の新規性は、以下の3点にまとめられる。

  1. BERTの注意機構の分析手法の提案: 従来の言語モデルの分析は、モデルの出力や内部ベクトル表現に焦点を当てていた。本研究では、BERTの注意機構を分析する新しい手法を提案し、言語モデルがどのように言語構造を学習しているかを明らかにする。
  2. BERTの注意機構の特性の発見: BERTの注意ヘッドが、区切りトークンへの注意、特定の位置オフセットへの注意、文全体への注意など、特定のパターンを示すことを発見した。また、同じ層のヘッドが類似の挙動を示すことも示した。
  3. 注意ヘッドと言語学的概念との対応: 特定の注意ヘッドが、動詞の直接目的語、名詞の限定詞、前置詞の目的語、共参照の指示対象など、構文や共参照の概念と高い精度で対応することを示した。さらに、注意機構に基づいたプロービング分類器を提案し、BERTの注意機構が構文情報を捉えていることを実証した。

これらの発見は、BERTが自己教師あり学習によって構文情報を獲得していることを示唆しており、言語モデルの学習メカニズムの理解に貢献すると考えられる。

章構成

  • 1 Introduction
  • 2 Background: Transformers and BERT
  • 3 Surface-Level Patterns in Attention
    • 3.1 Relative Position
    • 3.2 Attending to Separator Tokens
    • 3.3 Focused vs Broad Attention
  • 4 Probing Individual Attention Heads
    • 4.1 Method
    • 4.2 Dependency Syntax
    • 4.3 Coreference Resolution
  • 5 Probing Attention Head Combinations
  • 6 Clustering Attention Heads
  • 7 Related Work
  • 8 Conclusion
  • Acknowledgements
  • References

1 Introduction

BERTのような大規模な事前学習済み言語モデルは、教師ありタスクで高い精度を達成しているが、その理由は完全には解明されていない。これらのモデルが言語の構造を学習していることは示唆されるが、具体的な言語的特徴が何かは不明である。近年、入力文に対するモデルの出力や、プロービング分類器を用いた内部ベクトル表現の分析によって、この問題が研究されてきた。本研究では、これらのアプローチを補完するものとして、事前学習済みモデルの注意機構を分析する手法を提案し、BERTに適用する。BERTの注意ヘッドは、区切り文字トークンへの注意、特定の位置オフセットへの注意、文全体への広範な注意など、様々なパターンを示す。また、特定の注意ヘッドが、動詞の直接目的語、名詞の限定詞、前置詞の目的語、共参照メンションなど、言語的な概念とよく対応することを示す。さらに、注意ベースのプロービング分類器を提案し、BERTの注意機構にかなりの構文情報が捉えられていることを示す。

2 Background: Transformers and BERT

Transformerは多層構造を持ち、各層は複数の注意機構(attention head)を含む。注意機構は入力文の各トークンに対応するベクトル $h = [h_1, ..., h_n]$ を受け取り、それぞれをクエリベクトル $q_i$, キーベクトル $k_i$, 値ベクトル $v_i$ に変換する。そして、クエリベクトルとキーベクトルの間のソフトマックス正規化されたドット積として、単語間の注意重み $a$ を計算する。注意機構の出力 $o$ は、値ベクトルの重み付き和である。

\begin{aligned}
a_{ij} &= \frac{\exp(q_i k_j)}{\sum_{l=1}^n \exp(q_i k_l)} \\
o_i &= \sum_{j=1}^n a_{ij} v_j
\end{aligned}

注意重みは、現在のトークンの次の表現を計算する際に、他のトークンがどれほど「重要」かを決定する。

BERTは、英語テキスト33億トークンで事前学習されている。BERTは、「マスクされた言語モデリング」タスクと「次の文予測」タスクの2つのタスクを実行する。「マスクされた言語モデリング」タスクでは、入力テキストからマスクされた単語の識別子を予測する。「次の文予測」タスクでは、コーパス内の入力の前半に続くか、ランダムな段落であるかを予測する。教師ありデータでモデルをさらに学習させると、感情分析から質問応答まで、さまざまなタスクで優れたパフォーマンスが得られる。

BERTの重要な詳細として、入力テキストに使用される前処理がある。特別なトークン [CLS] がテキストの先頭に追加され、別のトークン [SEP] が末尾に追加される。入力が複数の別々のテキストで構成される場合(例えば、読解の例が別々の質問と文脈で構成される場合)、[SEP] トークンはそれらを区切るためにも使用される。次のセクションで示すように、これらの特別なトークンはBERTの注意機構で重要な役割を果たす。本稿では、各々12個の注意機構を含む12層を持つ「ベース」サイズのBERTモデルを使用する。特定の注意機構を指すために、<層>-<ヘッド番号> を使用する。

3 Surface-Level Patterns in Attention

BERTの注意機構がどのように振る舞うかについて、特定の言語現象を調べる前に、表面的なパターンを分析する。

3.1 相対位置

BERTの注意ヘッドが、現在のトークン、前のトークン、次のトークンにどれくらいの頻度で注意を向けるかを計算した。ほとんどのヘッドは現在のトークンにほとんど注意を向けないことがわかった。しかし、特にネットワークの初期レイヤーには、前のトークンや次のトークンに強く注意を向けることに特化したヘッドがある。具体的には、4つの注意ヘッド(レイヤー2, 4, 7, 8)が平均して50%以上の注意を前のトークンに、5つの注意ヘッド(レイヤー1, 2, 2, 3, 6)が平均して50%以上の注意を次のトークンに当てている。

3.2 セパレータトークンへの注意

BERTの注意の大部分が、いくつかのトークンに集中していることがわかった。例えば、レイヤー6から10では、BERTの注意の半分以上が[SEP]に集中している。これは、セグメントが128トークン長であるため、[SEP]のようなトークンがセグメントに2回出現する場合、平均的な注意は1/64程度になるはずであることと比較すると注目に値する。[SEP]と[CLS]は必ず存在し、マスクされない。一方、ピリオドやカンマはデータ中で最も一般的なトークンであるため、モデルがこれらのトークンを特別に扱う理由となっている可能性がある。同様のパターンが、uncased BERTモデルでも発生しており、これは、確率的な学習のアーティファクトではなく、特別なトークンへの注意に体系的な理由があることを示唆している。

考えられる説明の一つは、[SEP]がセグメントレベルの情報を集約するために使用され、それが他のヘッドによって読み取られるということである。しかし、さらなる分析により、この考えは疑わしくなった。もしこの説明が正しいのであれば、[SEP]を処理する注意ヘッドが、これらの表現を構築するためにセグメント全体に広く注意を向けることが期待される。しかし、実際には、彼らはほとんど(90%以上)自分自身と他の[SEP]トークンに注意を向けている。さらに、質的分析によると、特定の機能を持つヘッドは、その機能が呼び出されない場合に[SEP]に注意を向けることがわかった。例えば、ヘッド8-10では、直接目的語が動詞に注意を向ける。このヘッドでは、名詞以外のものがほとんど[SEP]に注意を向ける。したがって、これらの特別なトークンへの注意は、注意ヘッドの機能が適用できない場合の「no-op」として使用される可能性があると推測する。

この仮説をさらに調査するために、特徴の重要度の勾配ベースの尺度を適用した。具体的には、BERTのマスクされた言語モデリングタスクからの損失の勾配の大きさを、各注意重みに関して計算した。直感的に、この値は、トークンへの注意を変更することがBERTの出力にどれだけ影響するかを測定する。結果は図3に示されている。レイヤー5から、[SEP]への注意が大きくなるレイヤーと同じレイヤーで、[SEP]への注意の勾配が非常に小さくなる。これは、[SEP]への注意を増減させてもBERTの出力が大幅に変化しないことを示しており、[SEP]への注意が注意ヘッドの「no-op」として使用されるという理論を裏付けている。

3.3 集中型 vs 広範囲型注意

最後に、注意ヘッドが少数の単語に焦点を当てるか、多くの単語に広く注意を向けるかを測定した。これを行うために、各ヘッドの注意分布の平均エントロピーを計算した。一部の注意ヘッド、特に下位レイヤーでは、非常に広い注意を持っていることがわかった。これらの高エントロピー注意ヘッドは、通常、注意の最大10%を単一の単語に費やしている。これらのヘッドの出力は、文のバッグオブベクター表現とほぼ同じである。

また、[CLS]トークンのみからのすべての注意ヘッドのエントロピーも測定した。ほとんどのレイヤーの[CLS]からの平均エントロピーは図4に示されているものと非常に近いが、最終レイヤーは3.89ナッツという高い[CLS]からのエントロピーを持っており、非常に広い注意を示している。この発見は、[CLS]トークンの表現が事前学習中の「次の文の予測」タスクの入力として使用されるため、入力全体を表すために広く注意を向けているという点で理にかなっている。

4 Probing Individual Attention Heads

本論文では、BERTが学習した言語の側面を調査するために、個々の注意機構を評価する。特に、依存構造解析のようなタスクのラベル付きデータセットで、注意機構を評価する。結果の概要は図5に示されている。

4.1 方法

単語レベルのタスクで注意機構を評価したいが、BERTはバイトペアトークン化を使用しているため、一部の単語(データでは約8%)が複数のトークンに分割される。そのため、トークン間の注意マップを単語間の注意マップに変換する。分割された単語への注意については、そのトークンに対する注意の重みを合計する。分割された単語からの注意については、そのトークンに対する注意の重みの平均を取る。これらの変換は、各単語からの注意の合計が1になるという特性を保持する。特定の注意機構と単語について、モデルの予測として最も注意の重みを受け取る他の単語を選択する。

4.2 依存構造解析

設定として、Penn Treebankのウォールストリートジャーナル部分から、スタンフォード依存関係で注釈された注意マップを抽出する。各注意機構の予測の「方向」を評価する。つまり、ヘッドワードが従属語に注意する場合と、従属語がヘッドワードに注意する場合の両方を評価する。一部の依存関係は他の依存関係よりも予測が簡単である。例えば、名詞の決定詞は直前の単語であることが多い。したがって、比較のために、単純な固定オフセットベースラインからの予測を示す。例えば、固定オフセット-2は、従属語の左側2つの位置にある単語を常にヘッドと見なす。

結果として、表1は、構文全体でうまく機能する単一の注意機構がないことを示している。最も優れた注意機構は34.5 UASを取得するが、これは右分岐ベースラインの26.3 UASよりもわずかに優れている程度である。この結果は、構文の個々の注意機構を評価したRaganato and Tiedemann (2018)によって報告されたものと同様である。ただし、特定の注意機構が特定の依存関係に特化していることがわかる。一部の注意機構は非常に高い精度で特定の依存関係を予測できる。

4.3 共参照解析

BERTの注意機構が構文の特定の側面を反映していることを示したので、より困難な意味論的タスクである共参照解析に注意機構を使用することを検討する。共参照リンクは通常、構文依存関係よりも長く、最先端のシステムは通常、構文解析と比較して共参照で大幅にパフォーマンスが低下する。

設定として、CoNLL-2012データセットを使用して共参照解析の注意機構を評価する。特に、先行詞選択の精度を計算する。つまり、共参照メンションのヘッドワードが、そのメンションの先行詞の1つのヘッドに最も注意を払う割合を計算する。先行詞を選択するための3つのベースラインと比較する。

  • 最も近い他のメンションを選択する。
  • 現在のメンションと同じヘッドワードを持つ最も近い他のメンションを選択する。
  • Lee et al.(2011)に触発された単純なルールベースシステム。

また、Wiseman et al.(2015)の最近のニューラル共参照システムのパフォーマンスも示す。

結果として、表2に示すように、BERTの注意機構の1つが、まともな共参照解析パフォーマンスを実現し、文字列一致ベースラインで10以上の精度向上を示し、ルールベースシステムに近いパフォーマンスを示すことがわかる。名詞メンションで特に優れている。これは、図5の右下に見られるように、同義語間のファジーマッチングが可能であるためと考えられる。

5 Probing Attention Head Combinations

個別のアテンションヘッドは特定の構文的側面に特化しているため、モデルの構文に関する全体的な「知識」は、複数のアテンションヘッドに分散していると考えられる。そこで、アテンションベースのプロービング分類器の新しいファミリーを提案し、それらを依存構造解析に適用することで、この全体的な能力を測定する。

この分類器は基本的にグラフベースの依存構造解析器であり、入力された単語に対して、文中の他の単語が現在の単語の構文的なヘッドである確率分布を生成する。

最初のプローブである「Attention-Only Probe」は、アテンション重みの単純な線形結合を学習する。

p(i|j) \propto \exp(\sum_{k=1}^n w_k a_{ij}^k + u_k a_{ji}^k)

ここで、$p(i|j)$は単語$i$が単語$j$の構文的なヘッドである確率、$a_{ij}^k$はヘッド$k$によって生成された単語$i$から単語$j$へのアテンション重み、$n$はアテンションヘッドの数である。重みベクトル$w$$u$は、標準的な教師あり学習を用いて学習される。

2つ目のプローブである「Attention-and-Words Probe」は、入力単語に関する情報を持つことで分類器が恩恵を受けると仮定し、GloVe埋め込みに基づいてアテンションヘッドの重みを設定するモデルを構築する。

p(i|j) \propto \exp(\sum_{k=1}^n W_{k,:}(v_i \oplus v_j) a_{ij}^k + U_{k,:}(v_i \oplus v_j))

ここで、$v$はGloVe埋め込み、$\oplus$は連結を表す。GloVe埋め込みは学習中に固定され、2つの重み行列$W$$U$のみが学習される。

これらの手法をPenn Treebankのdevセットで評価し、3つのベースラインと比較する。

  1. 常に依存語の右側をヘッドとして予測する右分岐ベースライン
  2. 依存語と候補ヘッドのGloVe埋め込みと、それらの間の距離特徴を入力とする単純な1層隠れ層ネットワーク
  3. アテンションマップは持つが、他の重みをランダムに初期化したBERTネットワークから得られたアテンションマップを用いた「Attention-and-Words Probe」

結果として、「Attention + GloVe」プロービング分類器がベースラインを大幅に上回り、77という適切なUASを達成し、BERTのアテンションマップが英語の構文をかなり詳細に表現していることが示唆された。

また、Hewitt and Manning (2019)による構造プローブの結果も報告する。これは、アテンションではなくBERTのベクトル表現を基にプロービング分類器を構築している。スコアは直接比較できないが、類似したスコアは、BERTのベクトル表現にはアテンションマップよりも多くの構文情報がないことを示唆している。

6 Clustering Attention Heads

本論文では、BERTの注意機構におけるヘッド間の類似性に着目し、同一レイヤー内のヘッドが互いに類似しているか、または異なるか、そして行動によってヘッドを明確にグループ化できるかを調査した。具体的には、すべてのヘッドペア間の距離を計算し、ヘッド$H_i$$H_j$の距離を以下のように定義した。

distance(H_i, H_j) = \sum_{token \in data} JS(H_i(token), H_j(token))

ここで、$JS$は注意分布間のJensen-Shannon Divergenceである。この距離を用いて、多次元尺度構成法(MDS)を適用し、各ヘッドを2次元空間に埋め込み、ユークリッド距離が対応するヘッド間のJensen-Shannon距離を反映するようにした。

結果として、図6に示すように、いくつかの明確なヘッドのクラスターが発見された。これらのクラスターは、すでに本論文で議論した行動に対応することが多い。また、同一レイヤー内のヘッドは互いに近い傾向があり、同一レイヤー内のヘッドが類似した注意分布を持つことを示唆している。この結果は、Tu et al. (2018) が、注意ヘッドに異なる行動を促すことで機械翻訳の性能を向上できることを示唆していることから、やや驚くべきものである。BERTの注意ヘッドにおけるこの冗長性の可能性として、学習中に一部の注意重みをゼロにする注意ドロップアウトの使用が挙げられる。

近年、ニューラルネットワークが何を学習しているかをより深く理解するための分析研究が盛んに行われている。特に言語モデルの事前学習に焦点が当てられている。

1つ目の研究ラインでは、注意深く選ばれた入力文に対する言語モデルの出力を調べる。例えば、主語と動詞の一致におけるモデルの性能は、モデルの構文能力の尺度となる。

2つ目の研究ラインでは、モデルの内部ベクトル表現を調査し、プロービング分類器が用いられる。プロービング分類器は、事前学習されたモデルのベクトル表現を入力とし、品詞タグ付けなどの教師ありタスクを実行するように訓練される。高い精度を達成した場合、入力表現が対応する言語の側面を反映していることを示唆する。

これらの研究と同様に、構文や共参照の側面を捉えたモデルも示されている。

注意機構の分析に関しては、Vig (2019) はBERTの注意機構の可視化ツールを構築し、注意の挙動に関する観察を報告している。Burns et al. (2018) は、質問応答データセットにおけるモデルの性能を理解するために、メモリネットワークの注意機構を分析している。Raganato and Tiedemann (2018) は、機械翻訳モデルの注意機構と構文との相関を評価している。Marecek and Rosa (2018) は、注意スコアを構文木に変換するヒューリスティックな方法を提案している。Voita et al. (2018) は、文脈を考慮したニューラル機械翻訳システムの注意機構がアナフォラを捉えることを示している。

Voita et al. (2019) は、機械翻訳モデルにおいて、構文的、位置的、および稀な単語に敏感な注意ヘッドを特定している。Michel et al. (2019) は、BERTの多くの注意ヘッドを削除できることを示している。Jain and Wallace (2019) は、注意機構がモデルの予測を説明しないと主張しているが、本研究では、モデルが学習した情報を理解することに焦点を当てている。

8 Conclusion

本論文では、モデルの注意機構を理解するための分析手法を提案し、BERTに適用した。近年のNLPにおけるモデル分析は、ベクトル表現やモデル出力のプロービングに焦点を当てているが、本研究では、隠れ層だけでなく注意マップにも重要な言語知識が含まれていることを示した。注意マップのプロービングは、他のモデル分析手法を補完し、ニューラルネットワークが言語について何を学習しているかを理解するためのツールキットの一部となるべきであると結論付けた。

Acknowledgements

著者らは、有益なコメントや提案をしてくれた匿名査読者に感謝している。また、ケビンはGoogleの博士課程フェローシップによって支援されている。

References

以下は、論文の参考文献リストの要約です。

  • Yossi Adi et al. (2017): 文埋め込みの微細な分析を補助的な予測タスクを用いて行う研究。
  • Dzmitry Bahdanau et al. (2015): アラインメントと翻訳を同時に学習するニューラル機械翻訳に関する研究。
  • Yonatan Belinkov et al. (2017): ニューラル機械翻訳モデルが形態論について何を学習するかを調査した研究。
  • Terra Blevins et al. (2018): 深層RNNがソフトな階層的構文をエンコードすることを示した研究。
  • Kaylee Burns et al. (2018): 注意機構を利用してメモリモデルの欠点を明らかにした研究。
  • Kehai Chen et al. (2018): ニューラル機械翻訳のための構文指向注意に関する研究。
  • Alexis Conneau et al. (2018): 文埋め込みが言語的特性を捉えるかを調査した研究。
  • Andrew M. Dai and Quoc V. Le (2015): 半教師あり系列学習に関する研究。
  • Jacob Devlin et al. (2019): BERTモデルに関する研究。
  • Akiko Eriguchi et al. (2016): 木構造から系列への注意機構を用いたニューラル機械翻訳に関する研究。
  • Mario Giulianelli et al. (2018): 診断分類器を用いて言語モデルが合意情報を追跡する方法を調査した研究。
  • Yoav Goldberg (2019): BERTの構文能力を評価した研究。
  • Kristina Gulordava et al. (2018): 色のない緑の再帰型ネットワークが階層的に夢を見ることを示した研究。
  • John Hewitt and Christopher D. Manning (2019): 構造プローブを用いて構文を発見した研究。
  • Sarthak Jain and Byron C. Wallace (2019): 注意機構は説明ではないと主張した研究。
  • Urvashi Khandelwal et al. (2018): ニューラル言語モデルがどのように文脈を利用するかを調査した研究。
  • Joseph B. Kruskal (1964): 非計量仮説への適合度を最適化する多次元尺度構成法に関する研究。
  • Heeyoung Lee et al. (2011): Stanfordの複数パス篩いコアファレンス解決システムに関する研究。
  • Tal Linzen et al. (2016): LSTMが構文に敏感な依存関係を学習する能力を評価した研究。
  • Nelson F. Liu et al. (2019): 文脈表現の言語的知識と転移可能性に関する研究。
  • Mitchell P. Marcus et al. (1993): Penn Treebankの構築に関する研究。
  • David Marecek and Rudolf Rosa (2018): Transformerエンコーダの自己注意から構文木を抽出した研究。
  • Rebecca Marvin and Tal Linzen (2018): 言語モデルの構文評価に関する研究。
  • Paul Michel et al. (2019): 16個のヘッドは本当に1つより優れているのかを問いかけた研究。
  • Jeffrey Pennington et al. (2014): GloVeベクトルに関する研究。
  • Matthew E. Peters et al. (2018): 文脈化された単語表現に関する研究。
  • Sameer Pradhan et al. (2012): 多言語非制限コアファレンスモデリングに関する研究。
  • Alec Radford et al. (2018): 生成的な事前学習による言語理解の改善に関する研究。
  • Alessandro Raganato and Jörg Tiedemann (2018): Transformerベースの機械翻訳におけるエンコーダ表現の分析に関する研究。
  • Rico Sennrich et al. (2016): サブワード単位を用いた稀な単語のニューラル機械翻訳に関する研究。
  • Xing Shi et al. (2016): 文字列ベースのニューラル機械翻訳がソース構文を学習するかを問いかけた研究。
  • Emma Strubell et al. (2018): 意味役割ラベリングのための言語的に情報に基づいた自己注意に関する研究。
  • Mukund Sundararajan et al. (2017): 深層ネットワークの公理的な属性に関する研究。
  • Ian Tenney et al. (2019): BERTが古典的なNLPパイプラインを再発見したことを示した研究。
  • Ian Tenney et al. (2018): 文脈から何を学習するかを調査した研究。
  • Zhaopeng Tu et al. (2018): 不一致正則化を用いたマルチヘッド注意に関する研究。
  • Ashish Vaswani et al. (2017): 注意機構がすべてであるという研究。
  • Jesse Vig (2019): Transformerベースの言語モデルにおける注意機構の可視化に関する研究。
  • Elena Voita et al. (2018): 文脈認識ニューラル機械翻訳がアナフォラ解決を学習することを明らかにした研究。
  • Elena Voita et al. (2019): マルチヘッド自己注意の分析に関する研究。
  • Sam Wiseman et al. (2015): コアファレンス解決のための先行詞ランキングの特徴を学習する研究。
  • Kelly W. Zhang and Samuel R. Bowman (2018): 言語モデリングが翻訳よりも多くの構文を教えることを示した研究。