初代 GPT に関する論文を Gemini Paper Summarizer で要約しました。

Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training.

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 Introduction

2 Related Work

3 Framework

3.1 教師なし事前学習

3.2 教師ありファインチューニング

3.3 タスク固有の入力変換

4 Experiments

4.1 セットアップ

4.2 教師ありファインチューニング

5 Analysis

6 Conclusion

References

Abstract

自然言語理解は、テキストによる含意関係の認識、質問応答、意味的類似性評価、文書分類といった多岐にわたるタスクを包含する。大量のラベルなしテキストコーパスは豊富に存在するものの、これらの特定のタスクを学習するためのラベル付きデータは不足しており、識別的に学習されたモデルが適切に機能することを困難にしている。本研究では、多様なラベルなしテキストコーパス上で言語モデルを生成的に事前学習し、その後に各特定のタスクに対して識別的なファインチューニングを行うことで、これらのタスクにおいて大きな改善が得られることを示す。従来のアプローチとは対照的に、ファインチューニング中にタスクを意識した入力変換を利用することで、モデルアーキテクチャへの変更を最小限に抑えつつ、効果的な転移を達成する。自然言語理解のための幅広いベンチマークにおいて、本手法の有効性を示す。本研究のタスク非依存モデルは、各タスクに特化したアーキテクチャを使用する識別的に学習されたモデルを凌駕し、調査対象の12タスクのうち9タスクで最先端技術を大幅に改善した。例えば、常識推論（Stories Cloze Test）で8.9％、質問応答（RACE）で5.7％、テキストによる含意関係の認識（MultiNLI）で1.5％の絶対的な改善を達成した。

概要

本研究では、大規模なテキストコーパスで言語モデルを事前学習し、そのモデルを様々な自然言語理解タスクでファインチューニングすることで、高い性能を達成できることを示した。

問題意識

この論文では、自然言語理解タスクにおける教師あり学習への依存を軽減することを目的としています。具体的には、ラベル付きデータが不足している状況でも、言語モデルを効果的に学習させるための半教師あり学習アプローチを提案しています。このアプローチでは、大量のラベルなしテキストデータを用いて言語モデルを事前学習し、その後、特定のタスクに合わせて教師あり学習で微調整します。この手法により、様々な自然言語理解タスクにおいて、既存のモデルを上回る性能を達成することを目指しています。

手法

本論文では、教師なし事前学習と教師ありファインチューニングを組み合わせた、自然言語理解タスクのための半教師あり学習手法を提案しています。具体的には、まず大規模なラベルなしテキストコーパスを用いて言語モデルを学習し、その後、学習したモデルのパラメータを、特定の教師ありタスクに対応するようにファインチューニングします。この際、タスク固有の入力変換を導入することで、モデルアーキテクチャへの変更を最小限に抑えつつ、効果的な転移学習を実現しています。

新規性

本論文の新規性は、以下の3点に要約される。

汎用的な言語表現の学習: 大量のラベルなしテキストデータを用いて言語モデルを事前学習し、そのモデルを様々な自然言語理解タスクに適用する手法を提案している。従来のアプローチとは異なり、タスク固有のアーキテクチャ変更を最小限に抑え、タスクに応じた入力変換のみを用いることで、効果的な転移学習を実現している。
Transformerアーキテクチャの活用: 言語モデルのアーキテクチャとしてTransformerを採用している。これにより、LSTMなどの従来のモデルと比較して、テキスト内の長距離依存関係をより効果的に捉えることができ、多様なタスクでの性能向上に貢献している。
幅広いタスクでの性能向上: 提案手法を自然言語推論、質問応答、意味類似性、テキスト分類といった幅広いタスクで評価し、その有効性を実証している。特に、9つのタスクで既存の最先端モデルを大幅に上回る性能を達成し、汎用的な言語表現学習の可能性を示唆している。

これらの新規性により、本論文は、自然言語理解における半教師あり学習の分野において、重要な貢献をしていると言える。

章構成

1 Introduction
2 Related Work
3 Framework
- 3.1 Unsupervised pre-training
- 3.2 Supervised fine-tuning
- 3.3 Task-specific input transformations
4 Experiments
- 4.1 Setup
- 4.2 Supervised fine-tuning
5 Analysis
6 Conclusion
References

1 Introduction

自然言語処理（NLP）において、生のテキストから効果的に学習する能力は、教師あり学習への依存を軽減するために重要である。多くの深層学習手法は、手作業でラベル付けされた大量のデータを必要とするため、注釈付きリソースが不足している多くの分野での適用が制限される。このような状況において、ラベルなしデータから言語情報を活用できるモデルは、時間と費用がかかるアノテーションの収集に代わる貴重な手段となる。さらに、十分な教師ありデータが存在する場合でも、教師なし学習で良好な表現を学習することは、パフォーマンスを大幅に向上させる可能性がある。これまでの最も説得力のある証拠は、NLPタスクのパフォーマンスを向上させるための、事前学習済み単語埋め込みの広範な使用である。

しかし、ラベルなしテキストから単語レベル以上の情報を活用することは、2つの主な理由から困難である。第一に、転送に役立つテキスト表現を学習する上で、どのような種類の最適化目標が最も効果的であるかが不明確である。最近の研究では、言語モデリング、機械翻訳、談話の一貫性など、さまざまな目標が検討されているが、それぞれの手法は異なるタスクで他を凌駕している。第二に、学習した表現をターゲットタスクに転送する最も効果的な方法について、コンセンサスがない。既存の手法では、タスク固有のモデルアーキテクチャの変更、複雑な学習スキーム、補助的な学習目標の追加などを組み合わせている。これらの不確実性により、言語処理のための効果的な半教師あり学習アプローチの開発が困難になっている。

本研究は、自然言語処理における半教師あり学習の枠組みに位置づけられる。このパラダイムは、系列ラベリングやテキスト分類などのタスクに応用され、大きな関心を集めている。初期の研究では、単語レベルや句レベルの統計量を計算するためにラベルなしデータを使用し、それを教師ありモデルの特徴として利用していた。近年では、ラベルなしコーパスで学習された単語埋め込みが、様々なタスクの性能向上に寄与することが示されている。しかし、これらのアプローチは主に単語レベルの情報を転送するものであり、本研究ではより高次の意味を捉えることを目指す。

最近のアプローチでは、ラベルなしデータから単語レベル以上の意味を学習し、利用することが研究されている。句レベルや文レベルの埋め込みは、ラベルなしコーパスを用いて学習され、様々なターゲットタスクに適したベクトル表現にテキストを符号化するために使用されている。

教師なし事前学習は、半教師あり学習の特殊なケースであり、教師あり学習の目的関数を修正するのではなく、適切な初期化点を見つけることを目的とする。初期の研究では、画像分類や回帰タスクにおけるこの技術の利用が探求された。その後の研究では、事前学習が深層ニューラルネットワークにおける正則化スキームとして機能し、より良い汎化を可能にすることが示された。最近の研究では、画像分類、音声認識、エンティティ曖昧性解消、機械翻訳など、様々なタスクで深層ニューラルネットワークを訓練するためにこの手法が使用されている。

本研究に最も近いのは、言語モデリングの目的関数を用いてニューラルネットワークを事前学習し、その後、教師ありのターゲットタスクでファインチューニングする研究である。DaiらとHowardらは、この手法を用いてテキスト分類を改善した。しかし、事前学習段階は言語情報を捉えるのに役立つものの、LSTMモデルの使用は予測能力を短距離に制限している。対照的に、本研究ではTransformerネットワークを選択することで、実験で示されるように、より長距離の言語構造を捉えることができる。さらに、自然言語推論、言い換え検出、ストーリー補完など、より広範なタスクでモデルの有効性を示す。他のアプローチでは、事前学習済みの言語モデルや機械翻訳モデルからの隠れ層表現を補助特徴として使用するが、ターゲットタスクごとに大量の新しいパラメータが必要になる。一方、本研究では、転送中にモデルアーキテクチャへの変更を最小限に抑える。

3 Framework

本研究の訓練手順は2段階から構成される。第一段階では、大規模なテキストコーパスを用いて高容量の言語モデルを学習する。第二段階では、ラベル付きデータを用いて、識別タスクにモデルを適応させる。

3.1 教師なし事前学習

トークンの教師なしコーパス $U = \{u_1, ..., u_n\}$ が与えられたとき、標準的な言語モデルの目的関数を用いて、以下の尤度を最大化する。

L_1(U) = \sum_i \log P(u_i | u_{i-k}, ..., u_{i-1}; \Theta)

ここで、 $k$ はコンテキストウィンドウのサイズであり、条件付き確率 $P$ はパラメータ $\Theta$ を持つニューラルネットワークを用いてモデル化される。これらのパラメータは、確率的勾配降下法を用いて訓練される。

本研究では、言語モデルに多層Transformerデコーダーを使用する。このモデルは、入力コンテキストトークンに対して多頭自己注意演算を適用し、その後に位置ごとのフィードフォワード層を適用して、ターゲットトークンに対する出力分布を生成する。

\begin{aligned}
h_0 &= UW_e + W_p \\
h_i &= \text{transformer\_block}(h_{i-1}) \quad \forall i \in [1, n] \\
P(u) &= \text{softmax}(h_nW_T)
\end{aligned}

ここで、 $U=(u_{-k}, ..., u_{-1})$ はトークンのコンテキストベクトル、 $n$ は層の数、 $W_e$ はトークン埋め込み行列、 $W_p$ は位置埋め込み行列である。

3.2 教師ありファインチューニング

式(1)の目的関数でモデルを訓練した後、パラメータを教師ありターゲットタスクに適応させる。ラベル付きデータセット $C$ を仮定し、各インスタンスは入力トークン列 $x^1, ..., x^m$ とラベル $y$ で構成される。入力は、事前学習済みモデルを通過して最終的なTransformerブロックのアクティベーション $h_m$ を取得し、それがパラメータ $W_y$ を持つ追加された線形出力層に供給されて $y$ を予測する。

P(y | x^1, ..., x^m) = \text{softmax}(h_mW_y)

これにより、以下の目的関数を最大化する。

L_2(C) = \sum_{(x, y)} \log P(y | x^1, ..., x^m)

さらに、ファインチューニングに言語モデリングを補助目的関数として含めると、教師ありモデルの一般化が改善され、収束が加速されることがわかった。具体的には、以下の目的関数を最適化する（重み $\lambda$ を使用）。

L_3(C) = L_2(C) + \lambda * L_1(C)

全体として、ファインチューニング中に必要な追加パラメータは、 $W_y$ と区切り文字トークンの埋め込みのみである。

3.3 タスク固有の入力変換

テキスト分類のようなタスクでは、上記のようにモデルを直接ファインチューニングすることができる。質問応答やテキスト含意のような他のタスクでは、順序付けられた文のペアや文書、質問、回答のトリプレットなどの構造化された入力がある。事前学習済みモデルは連続したテキストシーケンスで訓練されているため、これらのタスクに適用するにはいくつかの変更が必要となる。以前の研究では、転送された表現の上にタスク固有のアーキテクチャを学習することが提案されたが、これはタスク固有のカスタマイズを大幅に再導入し、これらの追加のアーキテクチャコンポーネントに転送学習を使用しない。代わりに、構造化された入力を事前学習済みモデルで処理できる順序付けられたシーケンスに変換するトラバーサルスタイルのアプローチを使用する。これらの入力変換により、タスク間でアーキテクチャを大幅に変更することを回避できる。以下にこれらの入力変換の簡単な説明を提供する。

テキスト含意: 含意タスクでは、前提 $p$ と仮説 $h$ のトークンシーケンスを、区切り文字トークン($)を間に挟んで連結する。
類似性: 類似性タスクでは、比較される2つの文に固有の順序がない。これを反映するために、入力シーケンスに両方の文の順序（間に区切り文字を入れる）を含め、それぞれを独立して処理して、線形出力層に供給する前に要素ごとに加算される2つのシーケンス表現 $h_m$ を生成する。
質問応答と常識推論: これらのタスクでは、コンテキスト文書 $z$ 、質問 $q$ 、および可能性のある回答 $\{a_k\}$ が与えられる。各可能性のある回答で文書のコンテキストと質問を連結し、間に区切り文字トークンを追加して $[z; q; $ ; $a_k]$ を取得する。これらのシーケンスはそれぞれモデルで独立して処理され、可能性のある回答に対する出力分布を生成するためにsoftmax層で正規化される。

これらの変換にはすべて、ランダムに初期化された開始および終了トークン（(s), (e)）を追加することが含まれる。

4 Experiments

4.1 セットアップ

教師なし事前学習: 言語モデルの学習には、BooksCorpusデータセットを使用する。このデータセットは、アドベンチャー、ファンタジー、ロマンスなど、さまざまなジャンルの7,000以上の未公開書籍から構成される。重要なのは、連続したテキストが長く含まれているため、生成モデルが長距離の情報に基づいて条件付けを学習できる点である。類似のアプローチで使用される1B Word Benchmarkは、ほぼ同じサイズだが、文レベルでシャッフルされており、長距離構造が失われている。提案モデルは、このコーパスで18.4という非常に低いトークンレベルのパープレキシティを達成する。

モデル仕様: モデルは、オリジナルのTransformerの構造にほぼ従う。マスクされた自己注意ヘッドを持つ12層のデコーダー専用Transformerを学習する（768次元の状態と12の注意ヘッド）。位置ごとのフィードフォワードネットワークには、3072次元の内部状態を使用する。Adam最適化スキームを使用し、最大学習率は2.5e-4。学習率は、最初の2000回の更新で線形に増加し、コサインスケジュールを使用して0にアニールされる。512トークンのランダムにサンプリングされた連続シーケンスのミニバッチで100エポック学習する。レイヤー正規化がモデル全体で広範囲に使用されているため、重みの初期化にはN(0, 0.02)を使用する。正規化には、40,000マージのバイトペアエンコーディング（BPE）語彙、および残差、埋め込み、注意ドロップアウトを0.1のレートで使用する。また、すべての非バイアスまたはゲイン重みでw = 0.01のL2正則化の修正版を使用する。活性化関数には、Gaussian Error Linear Unit（GELU）を使用する。元の論文で提案された正弦波バージョンではなく、学習された位置埋め込みを使用する。BooksCorpusの生のテキストをクリーンアップし、一部の句読点と空白を標準化するために、ftfyライブラリを使用し、spaCyトークナイザーを使用する。

ファインチューニングの詳細: 特に指定がない限り、教師なし事前学習のハイパーパラメータ設定を再利用する。分類器には0.1のレートでドロップアウトを追加する。ほとんどのタスクでは、学習率6.25e-5とバッチサイズ32を使用する。モデルは迅速にファインチューニングされ、ほとんどの場合、3エポックの学習で十分である。学習率の減衰には、トレーニングの0.2％でウォームアップを使用した線形スケジュールを使用する。λは0.5に設定する。

4.2 教師ありファインチューニング

自然言語推論、質問応答、意味類似性、テキスト分類を含む、さまざまな教師ありタスクで実験を行う。これらのタスクの一部は、最近リリースされたGLUEマルチタスクベンチマークの一部として利用可能である。

自然言語推論: 自然言語推論（NLI）は、テキストによる含意認識としても知られ、文のペアを読み、含意、矛盾、または中立のいずれかの関係を判断するタスクである。語彙的な含意、共参照、語彙的および構文的な曖昧さなど、さまざまな現象が存在するため、タスクは依然として難しい。画像キャプション（SNLI）、転写されたスピーチ、人気のあるフィクション、政府報告書（MNLI）、Wikipediaの記事（QNLI）、科学試験（SciTail）、ニュース記事（RTE）など、多様なソースを持つ5つのデータセットで評価する。

表2に、モデルと以前の最先端アプローチのさまざまなNLIタスクの結果を示す。提案手法は、5つのデータセットのうち4つでベースラインを大幅に上回り、MNLIで最大1.5％、SciTailで5％、QNLIで5.8％、SNLIで0.6％の絶対的な改善を達成する。これは、モデルが複数の文にわたってより適切に推論し、言語的な曖昧さの側面を処理できることを示唆する。RTE（2490の例）では、56％の精度を達成し、マルチタスクBiLSTMモデルで報告された61.7％を下回る。

質問応答と常識推論: 単文および複数文の推論を必要とするもう1つのタスクは、質問応答である。最近リリースされたRACEデータセットを使用する。このデータセットは、中学校および高校の試験からの英語のパッセージと関連する質問で構成される。このコーパスには、CNNやSQuaDなどの他のデータセットよりも推論型の質問が多く含まれていることが示されており、長距離のコンテキストを処理するようにトレーニングされたモデルの評価に最適である。さらに、2つのオプションから複数文のストーリーの正しいエンディングを選択するStory Cloze Testで評価する。これらのタスクでは、提案モデルは再び以前の最高の結果を大幅に上回り、Story Clozeで最大8.9％、RACE全体で5.7％向上する。これは、モデルが長距離のコンテキストを効果的に処理できる能力を示唆する。

意味類似性: 意味類似性（または言い換え検出）タスクは、2つの文が意味的に同等であるかどうかを予測するタスクである。課題は、概念の言い換えを認識し、否定を理解し、構文的な曖昧さを処理することにある。このタスクには、Microsoft Paraphrase corpus（MRPC）（ニュースソースから収集）、Quora Question Pairs（QQP）データセット、およびSemantic Textual Similarityベンチマーク（STS-B）の3つのデータセットを使用する。3つの意味類似性タスクのうち2つで最先端の結果が得られ、STS-Bで1ポイントの絶対的なゲインが得られる。QQPのパフォーマンスの差は大きく、Single-task BiLSTM + ELMo + Attnよりも4.2％の絶対的な改善が見られる。

分類: 最後に、2つの異なるテキスト分類タスクで評価する。言語的受容性コーパス（CoLA）には、文が文法的であるかどうかに関する専門家の判断が含まれており、トレーニングされたモデルの生得的な言語的バイアスをテストする。一方、スタンフォードセンチメントツリーバンク（SST-2）は、標準的な二項分類タスクである。提案モデルは、CoLAで45.4のスコアを獲得し、以前の最高の結果である35.0を大幅に上回り、モデルが学習した生得的な言語的バイアスを示す。モデルはSST-2でも91.3％の精度を達成し、最先端の結果と競合する。また、GLUEベンチマークで72.8の全体スコアを達成し、以前の最高値である68.9を大幅に上回る。

5 Analysis

本論文では、教師なし事前学習から教師ありタスクへの層の転送数を変化させた場合の影響を調査している。図2(左)は、転送する層の数を関数として、RACEとMultiNLIにおける本手法の性能を示している。埋め込みを転送することで性能が向上し、MultiNLIでは、各トランスフォーマー層が転送されるにつれて最大9%まで性能が向上することがわかる。これは、事前学習モデルの各層が、ターゲットタスクを解くための有用な機能を含んでいることを示唆している。

また、本論文では、トランスフォーマーの言語モデルの事前学習が効果的な理由を理解するために、ゼロショット性能の変遷を調査している。仮説として、基礎となる生成モデルが、言語モデリング能力を向上させるために、評価対象の多くのタスクを実行することを学習し、構造化されたタスクほど、その言語モデリング能力がより重要になることが挙げられる。図2(右)は、さまざまなタスクにおけるゼロショット性能の進化を示している。これらのヒューリスティックソリューションの性能は安定しており、トレーニングを重ねるごとに着実に向上していることがわかる。これは、生成的な事前学習が、さまざまなタスクに関連する機能の学習をサポートしていることを示唆している。また、LSTMはゼロショット性能のばらつきが大きいことが観察され、トランスフォーマーのアーキテクチャの帰納的バイアスが転送に役立つことが示唆されている。

さらに、アブレーションスタディを実施した（表5）。まず、ファインチューニング中に補助LM目的関数なしで手法の性能を調べた。補助目的関数は、NLIタスクとQQPで役立つことが観察された。全体的な傾向として、大きなデータセットは補助目的関数から恩恵を受けるが、小さなデータセットはそうではないことが示唆されている。次に、トランスフォーマーと、同じフレームワークを使用した単層2048ユニットのLSTMを比較した。LSTMを使用すると、平均スコアが5.6低下することが観察された。LSTMは、MRPCという1つのデータセットでのみトランスフォーマーを上回った。最後に、事前学習なしで教師ありターゲットタスクで直接トレーニングされたトランスフォーマーアーキテクチャと比較した。事前学習がないと、すべてのタスクでパフォーマンスが低下し、完全なモデルと比較して14.8%の低下となった。

6 Conclusion

本論文では、生成的事前学習と識別的微調整を通じて、単一のタスクに依存しないモデルで強力な自然言語理解を達成するためのフレームワークを提示した。連続したテキストの長いストレッチを持つ多様なコーパスで事前学習を行うことで、モデルは重要な世界知識と長距離依存関係を処理する能力を獲得し、それらは質問応答、意味的類似性評価、含意決定、テキスト分類などの識別タスクを解決するためにうまく転送される。この結果、12のデータセットのうち9つで最先端の性能が向上した。識別タスクのパフォーマンスを向上させるために教師なし（事前）学習を使用することは、機械学習研究の長年の重要な目標であった。本研究は、そのようなパフォーマンスの大きな向上が実際に可能であることを示唆しており、どのモデル（Transformer）とデータセット（長距離依存関係を持つテキスト）がこのアプローチに最適であるかについてのヒントを提供している。この成果が、自然言語理解や他の分野の両方で、教師なし学習に関する新たな研究を可能にし、教師なし学習がどのように、そしていつ機能するかについての理解をさらに深めることを期待する。

References

以下に、論文の参考文献をまとめます。

Arora, Liang, & Ma (2016): 文埋め込みのためのシンプルだが強力なベースラインを提案。
Ba, Kiros, & Hinton (2016): レイヤー正規化を提案。
Bengio et al. (2007): 深層ネットワークの貪欲な層ごとの学習法を提案。
Bentivogli et al. (2009): 第5回PASCALテキスト含意認識チャレンジについて述べている。
Bowman et al. (2015): 自然言語推論のための大規模なアノテーション付きコーパスを提案。
Cer et al. (2017): SemEval-2017タスク1：多言語およびクロスリンガルな意味テキスト類似性評価について述べている。
Chaturvedi, Peng, & Roth (2017): 次に何が起こるかを予測するためのストーリー理解について述べている。
Chen & Manning (2014): ニューラルネットワークを用いた高速かつ正確な依存構文解析器を提案。
Chen et al. (2018): Quoraの質問ペアデータセットについて述べている。
Collobert & Weston (2008): 自然言語処理のための統合アーキテクチャを提案。
Collobert et al. (2011): ほぼゼロからの自然言語処理について述べている。
Conneau et al. (2017): 自然言語推論データからの普遍的な文表現の教師あり学習について述べている。
Dai & Le (2015): 半教師あり系列学習を提案。
Dolan & Brockett (2005): 文の言い換えコーパスを自動的に構築する方法を提案。
Erhan et al. (2010): 教師なし事前学習が深層学習を助ける理由について述べている。
Gray, Radford, & Diederik (2017): ブロックスパース重みのためのGPU カーネルを提案。
He et al. (2013): エンティティ曖昧性解消のためのエンティティ表現の学習について述べている。
Hendrycks & Gimpel (2016): ガウス誤差線形ユニットによる非線形性と確率的正規化器の橋渡しを提案。
Hermann et al. (2015): 機械に読解を教えることを述べている。
Hinton, Osindero, & Teh (2006): 深層信念ネットワークのための高速学習アルゴリズムを提案。
Howard & Ruder (2018): テキスト分類のための普遍的な言語モデルの微調整を提案。
Jernite, Bowman, & Sontag (2017): 高速な教師なし文表現学習のための談話ベースの目的関数を提案。
Ji & Eisenstein (2013): 分布的文類似性の差別的な改善を提案。
Jiao et al. (2006): 改良された系列セグメンテーションとラベリングのための半教師あり条件付き確率場を提案。
Khot, Sabharwal, & Clark (2018): 科学的な質問応答からのテキスト含意データセットであるSciTailについて述べている。
Kim (2014): 文分類のための畳み込みニューラルネットワークを提案。
Kingma & Ba (2014): 確率的最適化のためのAdamという手法を提案。
Kiros et al. (2015): Skip-thoughtベクトルを提案。
Kitaev & Klein (2018): 自己注意エンコーダを用いた構成構文解析を提案。
Lai et al. (2017): 試験からの大規模読解データセットであるRACEについて述べている。
Lample, Denoyer, & Ranzato (2018): モノリンガルコーパスのみを用いた教師なし機械翻訳を提案。
Le & Mikolov (2014): 文書と文の分散表現を提案。
Liang (2005): 自然言語のための半教師あり学習について述べている。
Liu et al. (2018): 長い系列を要約することによるWikipediaの生成を提案。
Liu, Duh, & Gao (2018): 自然言語推論のための確率的回答ネットワークを提案。
Logeswaran & Lee (2018): 文表現を学習するための効率的なフレームワークを提案。
Loshchilov & Hutter (2017): Adamにおける重み減衰正則化の修正を提案。
McCann et al. (2017): 翻訳で学習:文脈化された単語ベクトルについて述べている。
Mikolov et al. (2013): 単語とフレーズの分散表現とそれらの構成について述べている。
Mostafazadeh et al. (2017): LSDSem 2017共有タスク：ストーリークローズテストについて述べている。
Nigam, McCallum, & Mitchell (2006): EMを用いた半教師ありテキスト分類を提案。
Pennington, Socher, & Manning (2014): 単語表現のためのグローバルベクトルであるGloVeを提案。
Peters et al. (2017): 双方向言語モデルを用いた半教師あり系列タグ付けを提案。
Peters et al. (2018): 深い文脈化された単語表現を提案。
Qi et al. (2018): なぜ事前学習された単語埋め込みがニューラル機械翻訳に役立つのかを述べている。
Rahman & Ng (2012): 定義代名詞の複雑なケースを解決する：ウィノグラードスキーマチャレンジについて述べている。
Rajpurkar et al. (2016): テキストの機械理解のための100,000以上の質問であるSQuADについて述べている。
Ramachandran, Liu, & Le (2016): 系列から系列への学習のための教師なし事前学習を提案。
Ranzato et al. (2007): エネルギーベースモデルを用いたスパース表現の効率的な学習を提案。
Rei (2017): 系列ラベリングのための半教師ありマルチタスク学習を提案。
Robbins & Monro (1951): 確率的近似法を提案。
Rocktäschel et al. (2015): ニューラル注意を用いた含意についての推論を提案。
Sennrich, Haddow, & Birch (2015): サブワード単位を用いた希少単語のニューラル機械翻訳を提案。
Socher et al. (2013): 感情ツリーバンクにおける意味構成の再帰的深層モデルを提案。
Srinivasan, Arora, & Riedl (2018): ストーリークローズテストへのシンプルで効果的なアプローチを提案。
Subramanian et al. (2018): 大規模なマルチタスク学習による汎用分散文表現の学習を提案。
Suzuki & Isozaki (2008): ギガワードスケールの教師なしデータを用いた半教師あり順次ラベリングとセグメンテーションを提案。
Tay, Tuan, & Hui (2018): 自然言語推論のためのアライメント因数分解を用いた比較伝播アーキテクチャを提案。
Tay, Tuan, & Hui (2018): 機械理解のためのマルチレンジ推論を提案。
Tian et al. (2017): SemEval-2017タスク1におけるECNU：多言語およびクロスリンガルな意味テキスト類似性のためのユニバーサルモデルを構築するために、カーネルベースの伝統的なNLP機能とニューラルネットワークを活用したことを述べている。
Tsvetkov (2017): 低リソース言語での作業における機会と課題について述べている。
Vaswani et al. (2017): 注意がすべてであると述べている。
Vincent et al. (2008): ノイズ除去オートエンコーダを用いたロバストな特徴の抽出と構成を提案。
Wang et al. (2018): GLUE：自然言語理解のためのマルチタスクベンチマークと分析プラットフォームを提案。
Warstadt, Singh, & Bowman (2018): 言語的受容性のコーパスについて述べている。
Williams, Nangia, & Bowman (2018): 推論による文理解のための広範囲なチャレンジコーパスを提案。
Xu et al. (2017): 人間レベルの機械読解に向けて：複数の戦略を用いた推論と推論を提案。
Yu, Deng, & Dahl (2010): 実世界の音声認識における文脈依存DBN-HMMにおける事前学習と微調整の役割について述べている。
Zhang, Isola, & Efros (2017): スプリットブレインオートエンコーダ：クロスチャネル予測による教師なし学習を提案。
Zhu (2005): 半教師あり学習文献調査について述べている。
Zhu et al. (2015): 本と映画を対応させる：映画を見て本を読むことによる物語のような視覚的説明に向けて述べている。