Transformer が発表された有名な論文を Gemini Paper Summarizer で要約しました。

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., … Polosukhin, I. (2017). Attention Is All You Need.

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 Introduction

2 Background

3 Model Architecture

3 モデルアーキテクチャ

3.1 エンコーダとデコーダのスタック

3.2 Attention

3.2.1 Scaled Dot-Product Attention

3.2.2 Multi-Head Attention

3.2.3 モデルにおけるAttentionの応用

3.3 Position-wise Feed-Forward Networks

3.4 埋め込みとソフトマックス

3.5 位置エンコーディング

4 Why Self-Attention

5 Training

5.1 訓練データとバッチ処理

5.2 ハードウェアとスケジュール

5.3 オプティマイザー

5.4 正則化

6 Results

6.1 機械翻訳

6.2 モデルのバリエーション

6.3 英語構文解析

7 Conclusion

Acknowledgements

References

Attention Visualizations

Abstract

支配的な系列変換モデルは、エンコーダとデコーダを含む複雑な再帰型または畳み込みニューラルネットワークに基づいている。最も性能の高いモデルは、Attention機構を通じてエンコーダとデコーダを接続する。我々は、再帰と畳み込みを完全に排除し、Attention機構のみに基づく新しい単純なネットワークアーキテクチャであるTransformerを提案する。 2つの機械翻訳タスクに関する実験では、これらのモデルがより並列化可能であり、トレーニングに必要な時間が大幅に少ないにもかかわらず、品質が優れていることが示されている。我々のモデルは、WMT 2014の英語からドイツ語への翻訳タスクで28.4 BLEUを達成し、アンサンブルを含む既存の最高の結果を2 BLEU以上改善している。 WMT 2014の英語からフランス語への翻訳タスクでは、我々のモデルは8つのGPUで3.5日間トレーニングした後、41.8という新しい単一モデルの最先端のBLEUスコアを確立し、文献の最高のモデルのトレーニングコストのごく一部で済む。 Transformerは、大規模および限定的なトレーニングデータを使用して英語の構成要素解析に適用することで、他のタスクにもうまく一般化できることを示す。

概要

本論文では、Attention機構のみを用いて、再帰型ニューラルネットワークや畳み込みニューラルネットワークを完全に置き換えた新しいネットワークアーキテクチャであるTransformerを提案し、機械翻訳タスクにおいて、並列化を促進しつつ、既存のモデルを上回る性能を達成したことを示す。

問題意識

この論文は、従来の系列変換モデルが抱える課題、特に複雑な再帰型または畳み込みニューラルネットワークに依存している点、およびそれに伴う計算の並列化の制約を解決しようとしている。具体的には、エンコーダとデコーダ間のAttention機構を利用しつつ、再帰処理や畳み込み処理を一切排除した新しいネットワークアーキテクチャであるTransformerを提案している。このTransformerによって、より並列化が可能となり、学習時間の短縮と翻訳品質の向上が期待される。

手法

この論文では、Attention機構のみに基づいた新しいネットワークアーキテクチャであるTransformerを提案する。Transformerは、従来のリカレントニューラルネットワークや畳み込みニューラルネットワークに代わり、Attention機構のみを用いて入力と出力間のグローバルな依存関係を捉える。これにより、並列化が大幅に進み、学習時間を短縮しつつ、翻訳品質を向上させることを目指す。

新規性

この論文の新規性は、以下の点にまとめられる。

Transformerアーキテクチャの導入:
- 従来のリカレントニューラルネットワーク（RNN）や畳み込みニューラルネットワーク（CNN）に依存せず、Attention機構のみを用いた新しいネットワークアーキテクチャであるTransformerを提案した。
- これにより、系列データの処理において、並列計算が可能となり、学習時間を大幅に短縮できるようになった。
Attention機構の活用:
- 入力と出力間のグローバルな依存関係を捉えるために、Attention機構を全面的に活用した。
- 特に、Multi-Head Attentionを導入することで、異なる表現空間からの情報を同時に捉えることを可能にした。
翻訳タスクにおける性能向上:
- 英語からドイツ語への翻訳タスクにおいて、既存の最高性能モデル（アンサンブルを含む）を2 BLEU以上上回る28.4 BLEUを達成した。
- 英語からフランス語への翻訳タスクでは、単一モデルで41.8 BLEUという新たな最高性能を達成し、既存の最高性能モデルの学習コストを大幅に削減した。
他のタスクへの汎用性:
- Transformerが翻訳タスクだけでなく、英語の構文解析タスクにも適用可能であることを示した。
- これにより、Transformerの汎用性の高さを示唆した。
学習コストの削減:
- Transformerは、従来のモデルと比較して、より少ない計算リソースと時間で学習を完了できることを示した。
- これにより、大規模なデータセットを用いた学習がより容易になった。

これらの新規性により、Transformerは系列変換モデルの新たな標準となり、自然言語処理分野に大きな影響を与えた。

章構成

1 Introduction
2 Background
3 Model Architecture
- 3.1 Encoder and Decoder Stacks
- 3.2 Attention
  - 3.2.1 Scaled Dot-Product Attention
  - 3.2.2 Multi-Head Attention
  - 3.2.3 Applications of Attention in our Model
- 3.3 Position-wise Feed-Forward Networks
- 3.4 Embeddings and Softmax
- 3.5 Positional Encoding
4 Why Self-Attention
5 Training
- 5.1 Training Data and Batching
- 5.2 Hardware and Schedule
- 5.3 Optimizer
- 5.4 Regularization
6 Results
- 6.1 Machine Translation
- 6.2 Model Variations
- 6.3 English Constituency Parsing
7 Conclusion
Acknowledgements
References
Attention Visualizations

1 Introduction

本論文では、Transformerという新しいネットワークアーキテクチャを提案する。これはAttention機構のみに基づいており、回帰処理や畳み込み処理を一切必要としない。機械翻訳タスクに関する実験では、提案モデルが既存モデルよりも高品質であり、並列化が容易で、学習時間が大幅に短いことが示されている。 Recurrent Neural Network (RNN)は、言語モデリングや機械翻訳などの系列モデリングおよび変換問題において、最先端の手法として確立されている。しかし、RNNは本質的に逐次的であるため、学習例内での並列化が妨げられ、長い系列長ではメモリ制約が問題となる。Attention機構は、入力や出力系列における距離に関係なく依存関係をモデル化できるため、系列モデリングや変換モデルに不可欠な要素となっているが、ほとんどの場合、回帰型ネットワークと組み合わせて使用されている。本研究では、回帰処理を避け、Attention機構のみに依存して入力と出力間のグローバルな依存関係を捉えるTransformerを提案する。Transformerは並列化が容易であり、わずか12時間の学習で最先端の翻訳品質に到達できる。

2 Background

系列計算の削減は、Extended Neural GPU、ByteNet、ConvS2Sの基礎でもある。これらは畳み込みニューラルネットワークを基本構成要素とし、全ての入力と出力位置に対して並列に隠れ表現を計算する。これらのモデルでは、任意の2つの入力または出力位置からの信号を関連付けるために必要な演算数は、ConvS2Sでは位置間の距離に対して線形に、ByteNetでは対数的に増加する。これにより、遠い位置間の依存関係を学習することがより困難になる。Transformerでは、この演算数は一定数に削減されるが、Attentionの重み付けされた位置を平均化することによる有効解像度の低下という代償を伴う。この影響は、3.2節で説明するMulti-Head Attentionで相殺される。

自己Attention（内部Attentionとも呼ばれる）は、系列の表現を計算するために、単一の系列の異なる位置を関連付けるAttention機構である。自己Attentionは、読解、抽象的な要約、テキストの含意、タスクに依存しない文の表現の学習など、さまざまなタスクで成功裏に使用されている。

エンドツーエンドのメモリネットワークは、系列に沿った回帰の代わりに、回帰的なAttention機構に基づき、単純な言語の質問応答や言語モデリングタスクで優れた性能を発揮することが示されている。

しかし、Transformerは、系列に沿ったRNNや畳み込みを使用せずに、入力と出力の表現を計算するために自己Attentionのみに依存した最初の変換モデルである。次のセクションでは、Transformerを説明し、自己Attentionの動機付けを行い、[17, 18, 9]のようなモデルに対する利点について議論する。

3 Model Architecture

3 モデルアーキテクチャ

本論文で提案するTransformerは、エンコーダ・デコーダ構造に基づいている。エンコーダは入力シンボル列 $(x_1, ..., x_n)$ を連続表現列 $z = (z_1, ..., z_n)$ に変換し、デコーダは $z$ をもとに、出力シンボル列 $(y_1, ..., y_m)$ を1要素ずつ生成する。デコーダは自己回帰的であり、次の要素を生成する際に、それまでに生成されたシンボルを付加的な入力として利用する。

3.1 エンコーダとデコーダのスタック

エンコーダ: $N=6$ 個の同一レイヤのスタックで構成される。各レイヤは、マルチヘッド自己Attention機構と、位置ごとのfeed-forwardネットワークの2つのサブレイヤを持つ。各サブレイヤの出力は、残差接続とレイヤ正規化を経て次のレイヤに渡される。すべてのサブレイヤと埋め込みレイヤの出力は、 $d_{model} = 512$ 次元である。

デコーダ: エンコーダと同様に、 $N=6$ 個の同一レイヤのスタックで構成される。エンコーダのサブレイヤに加えて、デコーダは3番目のサブレイヤを持ち、これはエンコーダスタックの出力に対してマルチヘッドAttentionを行う。デコーダの自己Attentionサブレイヤは、後続の位置へのAttentionを防止するためにマスクされる。これにより、位置 $i$ の予測が、 $i$ より小さい位置の既知の出力のみに依存することが保証される。

3.2 Attention

Attention関数は、クエリとキー・バリューのペアの集合を入力として、出力を生成する関数として記述される。出力は、各バリューに割り当てられた重み付き和として計算され、重みはクエリと対応するキーの適合性関数によって計算される。

3.2.1 Scaled Dot-Product Attention

Scaled Dot-Product Attentionは、クエリとキーのドット積を計算し、各値を $\sqrt{d_k}$ で割って、ソフトマックス関数を適用して値の重みを計算する。実際には、クエリ、キー、値をそれぞれ行列 $Q$ , $K$ , $V$ にパックして計算する。出力行列は以下の式で計算される。

$Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V$

3.2.2 Multi-Head Attention

Multi-Head Attentionでは、 $d_{model}$ 次元のキー、値、クエリに対して単一のAttention関数を実行する代わりに、クエリ、キー、値をそれぞれ $h$ 回線形変換して、 $d_k$ , $d_k$ , $d_v$ 次元に射影する。そして、射影されたクエリ、キー、値に対して並列にAttention関数を実行し、 $d_v$ 次元の出力を得る。これらの出力は連結され、再び線形変換されて最終的な出力となる。この機構により、モデルは異なる表現部分空間からの情報に同時にAttentionを向けることができる。

$MultiHead(Q, K, V) = Concat(head_1, ..., head_h)W^O$

$head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)$

本論文では、 $h=8$ 個の並列Attentionレイヤを使用し、 $d_k = d_v = d_{model}/h = 64$ とする。

3.2.3 モデルにおけるAttentionの応用

Transformerでは、マルチヘッドAttentionを3つの異なる方法で使用する。

エンコーダ・デコーダAttention: クエリは前のデコーダレイヤから、キーと値はエンコーダの出力から得られる。これにより、デコーダの各位置が入力シーケンスのすべての位置にAttentionを向けることができる。
エンコーダの自己Attention: キー、値、クエリはすべて、エンコーダの前のレイヤの出力から得られる。これにより、エンコーダの各位置がエンコーダの前のレイヤのすべての位置にAttentionを向けることができる。
デコーダの自己Attention: デコーダの各位置が、デコーダの前のレイヤのすべての位置（自身を含む）にAttentionを向けることができる。自己回帰性を維持するために、ソフトマックス関数の入力において不正な接続に対応する値をマスクする。

3.3 Position-wise Feed-Forward Networks

各エンコーダとデコーダのレイヤには、Attentionサブレイヤに加えて、位置ごとに独立して適用されるfeed-forwardネットワークが含まれる。このネットワークは、ReLU活性化を挟んだ2つの線形変換で構成される。

$FFN(x) = max(0, xW_1 + b_1)W_2 + b_2$

入力と出力の次元は $d_{model} = 512$ であり、中間層の次元は $d_{ff} = 2048$ である。

3.4 埋め込みとソフトマックス

他のシーケンス変換モデルと同様に、入力トークンと出力トークンを $d_{model}$ 次元のベクトルに変換するために学習された埋め込みを使用する。また、デコーダの出力を次のトークン予測確率に変換するために、通常の線形変換とソフトマックス関数を使用する。モデルでは、2つの埋め込みレイヤとソフトマックス前の線形変換の間で同じ重み行列を共有する。埋め込みレイヤでは、これらの重みに $\sqrt{d_{model}}$ を乗算する。

3.5 位置エンコーディング

モデルには回帰や畳み込みがないため、シーケンスの順序を利用するために、トークンの相対的または絶対的な位置に関する情報を注入する必要がある。このために、エンコーダとデコーダのスタックの底部の入力埋め込みに「位置エンコーディング」を追加する。位置エンコーディングは埋め込みと同じ次元 $d_{model}$ を持ち、加算される。本論文では、異なる周波数の正弦波と余弦波関数を使用する。

$PE_{(pos, 2i)} = sin(pos/10000^{2i/d_{model}})$

$PE_{(pos, 2i+1)} = cos(pos/10000^{2i/d_{model}})$

ここで、 $pos$ は位置、 $i$ は次元を表す。

4 Why Self-Attention

本論文では、自己Attention層と、系列変換モデルで一般的に用いられるRecurrent層およびConvolutional層を比較する。自己Attentionの利用を動機づけるために、以下の3つの望ましい性質を考慮する。

層ごとの計算複雑性
並列化可能な計算量（逐次演算の最小回数で測定）
ネットワークにおける長距離依存関係のパス長

表1に示すように、自己Attention層は、すべての位置を一定回数の逐次演算で接続する。一方、Recurrent層は $O(n)$ 回の逐次演算を必要とする。計算複雑性の観点では、自己Attention層は、系列長 $n$ が表現次元 $d$ よりも小さい場合、Recurrent層よりも高速である。これは、単語ピースやバイトペア表現のような機械翻訳における最先端モデルで一般的に当てはまる。非常に長い系列を扱うタスクの計算パフォーマンスを向上させるために、自己Attentionは、それぞれの出力位置を中心とした入力系列のサイズ $r$ の近傍のみを考慮するように制限できる。これにより、最大パス長は $O(n/r)$ に増加する。

カーネル幅 $k < n$ の単一のConvolutional層は、すべての入力と出力の位置のペアを接続しない。これには、隣接カーネルの場合は $O(n/k)$ 、Dilated Convolutionの場合は $O(log_k(n))$ のConvolutional層のスタックが必要となる。これにより、ネットワーク内の任意の位置間の最長パス長が増加する。Convolutional層は、一般的にRecurrent層よりも高価である（ $k$ 倍）。しかし、Separable Convolutionは、複雑さを $O(k \cdot n \cdot d + n \cdot d^2)$ に大幅に削減する。 $k=n$ の場合でも、Separable Convolutionの複雑さは、自己Attention層とPosition-wise Feed-Forward層の組み合わせと同等である。

自己Attentionは、より解釈可能なモデルをもたらす可能性がある。論文では、モデルからのAttention分布を調査し、例を提示する。個々のAttentionヘッドが異なるタスクを実行することを学習するだけでなく、多くが文の構文および意味構造に関連する動作を示すことがわかる。

5 Training

このセクションでは、モデルの訓練体制について述べる。

5.1 訓練データとバッチ処理

我々は、約450万の文ペアからなる標準的なWMT 2014英語-ドイツ語データセットで訓練を行った。文は、約37000トークンの共有ソース-ターゲット語彙を持つバイトペアエンコーディングを用いてエンコードされた。英語-フランス語については、3600万文からなるより大きなWMT 2014英語-フランス語データセットを使用し、トークンを32000語のワードピース語彙に分割した。文ペアは、おおよその文長によってバッチ処理された。各訓練バッチには、約25000のソーストークンと25000のターゲットトークンを含む文ペアのセットが含まれていた。

5.2 ハードウェアとスケジュール

我々は、8つのNVIDIA P100 GPUを搭載した1台のマシンでモデルを訓練した。論文全体で説明されているハイパーパラメータを使用したベースモデルの場合、各訓練ステップは約0.4秒かかった。ベースモデルは合計100,000ステップ、つまり12時間訓練した。大きなモデル（表3の最下行に記載）の場合、ステップ時間は1.0秒であった。大きなモデルは300,000ステップ（3.5日）訓練した。

5.3 オプティマイザー

我々は、β₁ = 0.9、β₂ = 0.98、およびε = 10⁻⁹のAdamオプティマイザーを使用した。訓練の過程で、学習率は以下の式に従って変化させた。

$lrate = d_{model}^{-0.5} \cdot min(step\_num^{-0.5}, step\_num \cdot warmup\_steps^{-1.5})$

これは、最初の $warmup\_steps$ 訓練ステップの間は学習率を線形に増加させ、その後はステップ数の逆平方根に比例して減少させることに対応する。我々は、 $warmup\_steps = 4000$ を使用した。

5.4 正則化

訓練中に3種類の正則化を採用した。

残差ドロップアウト: 各サブレイヤーの出力にドロップアウトを適用し、サブレイヤー入力と正規化に追加する。また、エンコーダーとデコーダースタックの両方で、埋め込みと位置エンコーディングの合計にもドロップアウトを適用する。ベースモデルの場合、ドロップアウト率は $p_{drop} = 0.1$ を使用する。
ラベルスムージング: 訓練中、値 $\epsilon_{ls} = 0.1$ のラベルスムージングを採用した。これにより、モデルはより不確実になることを学習するため、パープレキシティは低下するが、精度とBLEUスコアが向上する。

6 Results

6.1 機械翻訳

WMT 2014 英語-ドイツ語翻訳タスクにおいて、Transformer (big) モデルは、既存の最高性能モデル（アンサンブルを含む）を2.0 BLEU以上上回り、28.4という新たな最高スコアを達成した。このモデルの学習には8つのP100 GPUで3.5日を要した。ベースモデルでも、既存の競合モデルをすべて上回り、学習コストも大幅に低減された。

WMT 2014 英語-フランス語翻訳タスクでは、Transformer (big) モデルは41.0のBLEUスコアを達成し、既存の単一モデルをすべて上回った。学習コストは、既存の最高性能モデルの1/4未満であった。英語-フランス語翻訳用に学習させたTransformer (big) モデルでは、dropout率を0.1に設定した。

ベースモデルでは、10分間隔で書き出された最後の5つのチェックポイントを平均化した単一モデルを使用した。ビッグモデルでは、最後の20個のチェックポイントを平均化した。ビームサイズ4、長さペナルティα=0.6のビームサーチを使用した。これらのハイパーパラメータは、開発セットでの実験後に選択された。推論中の最大出力長は入力長+50に設定したが、可能な場合は早期に終了させた。

表2は、結果をまとめ、翻訳品質と学習コストを他のモデルアーキテクチャと比較している。モデルの学習に使用された浮動小数点演算回数は、学習時間、使用したGPUの数、および各GPUの持続的な単精度浮動小数点演算能力の推定値を乗算することで推定した。

6.2 モデルのバリエーション

Transformerのさまざまなコンポーネントの重要性を評価するために、ベースモデルをさまざまな方法で変更し、英語-ドイツ語翻訳のパフォーマンスの変化をnewstest2013開発セットで測定した。結果を表3に示す。

表3の行(A)では、セクション3.2.2で説明したように、計算量を一定に保ちながら、Attentionヘッドの数とAttentionキーおよび値の次元数を変化させた。単一ヘッドAttentionは、最適な設定よりも0.9 BLEU悪かったが、ヘッド数が多すぎると品質も低下した。

表3の行(B)では、Attentionキーサイズ $d_k$ を小さくするとモデルの品質が低下することがわかった。これは、互換性を判断することが容易ではなく、ドット積よりも洗練された互換性関数が有益である可能性を示唆している。さらに、行(C)と(D)では、予想どおり、モデルが大きいほど優れており、dropoutは過剰適合を回避するのに非常に役立つことがわかった。行(E)では、正弦波位置エンコーディングを学習した位置エンコーディングに置き換えたが、ベースモデルとほぼ同じ結果が得られた。

6.3 英語構文解析

Transformerが他のタスクに一般化できるかどうかを評価するために、英語構文解析の実験を行った。このタスクは、出力が強い構造的制約を受け、入力よりも大幅に長くなるという具体的な課題を提示する。さらに、RNNシーケンス-シーケンスモデルは、小規模データ体制で最先端の結果を達成できていない。

Penn Treebank [25]のWall Street Journal (WSJ)部分の約40Kのトレーニング文で、 $d_{model}=1024$ の4層Transformerをトレーニングした。また、約17Mの文を含む、より大きな高信頼度およびBerkeleyParserコーパスを使用して、半教師あり設定でトレーニングした。WSJのみの設定では16Kトークンの語彙を使用し、半教師あり設定では32Kトークンの語彙を使用した。

セクション22開発セットでdropout、Attentionと残差（セクション5.4）、学習率、ビームサイズを選択するために少数の実験のみを実施し、他のすべてのパラメータは英語-ドイツ語ベースの翻訳モデルから変更しなかった。推論中は、最大出力長を入力長+300に増やした。ビームサイズ21、α=0.3を使用した。

表4の結果は、タスク固有のチューニングが不足しているにもかかわらず、モデルが驚くほどうまく機能し、Recurrent Neural Network Grammar [8]を除く、以前に報告されたすべてのモデルよりも優れた結果が得られたことを示している。

RNNシーケンス-シーケンスモデル[37]とは対照的に、Transformerは、40K文のWSJトレーニングセットのみでトレーニングした場合でも、Berkeley-Parser [29]を上回っている。

7 Conclusion

本研究では、Transformerという、Attentionのみに基づいた初の系列変換モデルを提案した。このモデルは、エンコーダー・デコーダーアーキテクチャで最も一般的に使用される再帰層を、マルチヘッドAttentionに置き換える。

翻訳タスクにおいて、Transformerは、再帰層または畳み込み層に基づくアーキテクチャよりも大幅に高速に学習できる。WMT 2014の英語-ドイツ語および英語-フランス語の翻訳タスクの両方で、新たな最先端の性能を達成した。特に、英語-ドイツ語タスクでは、最良のモデルでさえも凌駕する性能を達成した。

Attentionベースのモデルの将来に期待しており、他のタスクにも適用する予定である。テキスト以外の入出力モダリティを含む問題にTransformerを拡張し、画像、音声、ビデオなどの大規模な入出力を効率的に処理するために、局所的な制限付きAttention機構を調査する予定である。また、生成をより非連続的にすることも、今後の研究目標である。

Acknowledgements

本研究に対し、有益なコメント、修正、インスピレーションを与えてくれたNal KalchbrennerとStephan Gouwsに感謝する。

References

以下は、参考文献セクションの要約です。

Ba, Kiros, and Hinton (2016) は、レイヤー正規化を提案した。
Bahdanau, Cho, and Bengio (2014) は、Attention機構を用いたニューラル機械翻訳を提案した。
Britz, Goldie, Luong, and Le (2017) は、ニューラル機械翻訳アーキテクチャの大規模な探索を行った。
Cheng, Dong, and Lapata (2016) は、機械読解のためのLSTMネットワークを提案した。
Cho, van Merrienboer, Gulcehre, Bougares, Schwenk, and Bengio (2014) は、統計的機械翻訳のためのRNNエンコーダー・デコーダーを用いた句表現学習を提案した。
Chollet (2016) は、深層分離畳み込みを用いたXceptionを提案した。
Chung, Gulcehre, Cho, and Bengio (2014) は、シーケンスモデリングにおけるゲート付きリカレントニューラルネットワークの経験的評価を行った。
Dyer, Kuncoro, Ballesteros, and Smith (2016) は、リカレントニューラルネットワーク文法を提案した。
Gehring, Auli, Grangier, Yarats, and Dauphin (2017) は、畳み込みシーケンス・ツー・シーケンス学習を提案した。
Graves (2013) は、リカレントニューラルネットワークによるシーケンス生成を提案した。
He, Zhang, Ren, and Sun (2016) は、画像認識のための深層残差学習を提案した。
Hochreiter, Bengio, Frasconi, and Schmidhuber (2001) は、リカレントネットにおける勾配の流れ、すなわち長期依存関係の学習の困難さについて述べた。
Hochreiter and Schmidhuber (1997) は、LSTM（Long Short-Term Memory）を提案した。
Huang and Harper (2009) は、言語間の潜在アノテーションを用いたPCFG文法の自己学習を提案した。
Jozefowicz, Vinyals, Schuster, Shazeer, and Wu (2016) は、言語モデリングの限界を探求した。
Kaiser and Bengio (2016) は、アクティブメモリがAttentionに取って代われるかを検討した。
Kaiser and Sutskever (2016) は、ニューラルGPUがアルゴリズムを学習することを提案した。
Kalchbrenner, Espeholt, Simonyan, van den Oord, Graves, and Kavukcuoglu (2017) は、線形時間でのニューラル機械翻訳を提案した。
Kim, Denton, Hoang, and Rush (2017) は、構造化Attentionネットワークを提案した。
Kingma and Ba (2015) は、確率的最適化のためのAdam法を提案した。
Kuchaiev and Ginsburg (2017) は、LSTMネットワークの因数分解トリックを提案した。
Lin, Feng, dos Santos, Yu, Xiang, Zhou, and Bengio (2017) は、構造化された自己Attention文埋め込みを提案した。
Luong, Le, Sutskever, Vinyals, and Kaiser (2015) は、マルチタスクシーケンス・ツー・シーケンス学習を提案した。
Luong, Pham, and Manning (2015) は、Attentionベースのニューラル機械翻訳への効果的なアプローチを提案した。
Marcus, Marcinkiewicz, and Santorini (1993) は、大規模な英語アノテーション付きコーパスであるペン・ツリーバンクの構築について述べた。
McClosky, Charniak, and Johnson (2006) は、構文解析のための効果的な自己学習を提案した。
Parikh, Täckström, Das, and Uszkoreit (2016) は、分解可能なAttentionモデルを提案した。
Paulus, Xiong, and Socher (2017) は、抽象的要約のための深層強化学習モデルを提案した。
Petrov, Barrett, Thibaux, and Klein (2006) は、正確、コンパクト、かつ解釈可能なツリーアノテーションの学習について述べた。
Press and Wolf (2016) は、言語モデルを改善するために出力埋め込みを使用することを提案した。
Sennrich, Haddow, and Birch (2015) は、サブワード単位を用いた希少語のニューラル機械翻訳を提案した。
Shazeer, Mirhoseini, Maziarz, Davis, Le, Hinton, and Dean (2017) は、非常に大きなニューラルネットワーク、すなわちスパースゲート混合エキスパート層を提案した。
Srivastava, Hinton, Krizhevsky, Sutskever, and Salakhutdinov (2014) は、ニューラルネットワークの過剰適合を防ぐための簡単な方法であるドロップアウトを提案した。
Sukhbaatar, Szlam, Weston, and Fergus (2015) は、エンドツーエンドのメモリネットワークを提案した。
Sutskever, Vinyals, and Le (2014) は、ニューラルネットワークによるシーケンス・ツー・シーケンス学習を提案した。
Szegedy, Vanhoucke, Ioffe, Shlens, and Wojna (2015) は、コンピュータビジョンのためのインセプションアーキテクチャの再考を提案した。
Vinyals & Kaiser, Koo, Petrov, Sutskever, and Hinton (2015) は、文法を外国語として捉えることを提案した。
Wu, Schuster, Chen, Le, Norouzi, Macherey, Krikun, Cao, Gao, Macherey, et al. (2016) は、Googleのニューラル機械翻訳システム、すなわち人間と機械翻訳の間のギャップを埋めることを提案した。
Zhou, Cao, Wang, Li, and Xu (2016) は、ニューラル機械翻訳のための高速順方向接続を備えた深層リカレントモデルを提案した。
Zhu, Zhang, Chen, Zhang, and Zhu (2013) は、高速かつ正確なシフトリデュース構成解析を提案した。

Attention Visualizations

本論文では、Attention機構の可視化について議論している。特に、エンコーダのself-attention層における長距離依存関係の学習例を示している。図3では、動詞"making"が、"making...more difficult"というフレーズを完成させるために、遠く離れた要素に注意を向けている様子を示している。

図4では、層5の2つのAttentionヘッドが、アナフォラ解決に関与している様子を示している。図の上部はヘッド5のすべてのAttentionを示し、下部は単語"its"からのAttentionのみを示している。

図5では、文の構造に関連する挙動を示すAttentionヘッドの例を2つ示している。異なるヘッドが異なるタスクを実行するように学習していることがわかる。これらの可視化は、Attention機構が文の構造や意味を理解する上で重要な役割を果たしていることを示唆している。

七誌の開発日記

AIで論文を読む: Attention Is All You Need