文埋め込みが捉える言語的特性に関する論文を Gemini Paper Summarizer で要約しました。

Conneau, A., Kruszewski, G., Lample, G., Barrault, L., & Baroni, M. (2018). What you can cram into a single vector: Probing sentence embeddings for linguistic properties.

【注意】AI の説明には誤りが含まれる可能性があり、正確さは保証できません。詳細は原論文を確認してください。

目次

Abstract

概要

問題意識

手法

新規性

章構成

1 Introduction

2 Probing tasks

3 Sentence embedding models

3.1 文エンコーダのアーキテクチャ

3.2 訓練タスク

3.3 訓練の詳細

4 Probing task experiments

5 Related work

6 Conclusion

Acknowledgments

References

7 Appendix

Amazon Mechanical Turk survey

Further training details

Probing task training

Logistic regression results

Downstream task results

Abstract

高品質な文埋め込みを学習させることに多くの努力が最近なされてきたが、それらが何を捉えているかについての理解はまだ乏しい。「下流」タスク、多くの場合、文分類に基づくタスクは、文表現の品質を評価するために一般的に使用される。しかし、タスクの複雑さのために、表現にどのような種類の情報が存在するかを推論することは困難である。ここでは、文の単純な言語的特徴を捉えるように設計された10個のプロービングタスクを紹介し、それらを使用して、8つの異なる方法で学習された3つの異なるエンコーダーによって生成された埋め込みを研究し、エンコーダーと学習方法の両方の興味深い特性を明らかにする。

概要

本論文では、文埋め込みが捉える言語的特性を調査するための10個のプロービングタスクを提案し、様々なエンコーダと学習方法を評価し、それらの特性やダウンストリームタスクとの関連性を分析した。

問題意識

本論文は、高品質な文埋め込みの学習に多くの努力が払われているにもかかわらず、それらが何を捉えているのかについての理解が不十分であるという問題に取り組んでいる。特に、文分類に基づく「下流」タスクは文表現の品質を評価するために一般的に使用されるが、タスクの複雑さから、表現にどのような情報が存在するのかを推測することが難しい。この問題に対処するために、本論文では、文の単純な言語的特徴を捉えるように設計された10個のプロービングタスクを導入し、それらを用いて8つの異なる方法で学習された3つの異なるエンコーダによって生成された埋め込みを研究し、エンコーダと学習方法の両方の興味深い特性を明らかにすることを目的としている。

手法

本論文では、文埋め込みが捉えている言語的特性を調査するための10個のプロービングタスクを導入する。これらのタスクは、文の表面的な特徴から、階層構造、意味的な受容性といった、さまざまな言語的側面を捉えるように設計されている。また、異なるエンコーダアーキテクチャと学習方法によって生成された埋め込みを比較し、プロービングタスクと下流タスクの性能との関連性を分析する。さらに、プロービングタスクのデータセットとツールを公開し、文埋め込みの言語的特性の研究における標準的なベンチマークとなることを目指している。

新規性

本論文の新規性は、以下の3点にまとめられる。

多様な言語特性を捉えるためのプロービングタスクの導入: 既存研究では、文の埋め込みが捉えている情報を評価するために、特定のタスクに偏った評価が行われていた。本研究では、文の表面的な特徴から、統語構造、意味的な側面まで、幅広い言語特性を捉えることができる10個のプロービングタスクを新たに導入した。
プロービングタスクの体系化: 既存研究では、プロービングタスクの設計において、ノイズとなる要因が十分に考慮されていなかった。本研究では、入力として単一文の埋め込みのみを使用する、大規模なデータセットを構築する、語彙的な手がかりや文の長さなどのノイズを制御する、といった基準を設けることで、プロービングタスクの体系化を試みた。
最先端のエンコーダと学習手法を用いた評価: 本研究では、BiLSTM、Gated ConvNetといった最先端のエンコーダアーキテクチャと、機械翻訳、自然言語推論など、多様な学習手法を用いて学習された文埋め込みを、プロービングタスクを用いて評価した。これにより、エンコーダのアーキテクチャや学習手法が、文埋め込みにどのような影響を与えるかを詳細に分析した。

これらの新規性により、本研究は、文埋め込みが捉えている言語情報をより深く理解するための新たな枠組みを提供したと言える。

章構成

1 Introduction
2 Probing tasks
3 Sentence embedding models
- 3.1 Sentence encoder architectures
- 3.2 Training tasks
- 3.3 Training details
4 Probing task experiments
5 Related work
6 Conclusion
Acknowledgments
References
7 Appendix
- Amazon Mechanical Turk survey
- Further training details
- Probing task training
- Logistic regression results
- Downstream task results

1 Introduction

近年、高品質な文埋め込みの学習に多くの努力が払われているが、それらが何を捉えているかについての理解は乏しい。文分類に基づく「下流」タスクは、文表現の質を評価するために一般的に用いられるが、タスクの複雑さから、表現にどのような情報が含まれているかを推測することは困難である。本稿では、文の単純な言語的特徴を捉えるために設計された10個のプロービングタスクを紹介し、8つの異なる方法で学習された3つの異なるエンコーダによって生成された埋め込みを研究し、エンコーダと学習方法の両方の興味深い特性を明らかにする。レイ・ムーニーの「文全体の意味を単一のベクトルに詰め込むことはできない」という言葉にもかかわらず、文埋め込み手法は機械翻訳から含意検出まで幅広いタスクで目覚ましい成果を上げており、一度学習すれば様々な応用で使用できる「普遍的な埋め込み」の探求を促している。具体的な問題での肯定的な結果は、埋め込みが文の重要な言語的特性を捉えていることを示唆している。しかし、現実の「下流」タスクは複雑な推論を必要とするため、モデルがどのような情報に依存しているかを特定することは困難である。モデルが「あまり高くを目指していないが、必要もない」という文が主観的な視点を表現していることを識別できたとしても、システムがどのようにこの結論に至ったかを判断することは難しい。複雑なタスクは、モデルが固定してしまう可能性のある隠れたバイアスを抱えている可能性もある。例えば、明示的な否定語をチェックするという単純なヒューリスティックが、SICK文含意タスクで良好な精度につながることを示している。モデルのイントロスペクション技術は、文エンコーダに適用され、入力文のどの特性が埋め込みに保持されているかをより良く理解するために用いられている。しかし、これらの技術はエンコーダアーキテクチャの仕様に依存することが多く、異なる手法を比較するために使用することはできない。そこで、より一般的なアプローチとして、プロービングタスクという概念に依存した手法が導入された。プロービングタスクは、文の単純な言語的特性に焦点を当てた分類問題である。例えば、あるタスクでは、文を主動詞の時制によって分類する必要があるかもしれない。特定のタスク（例えば、機械翻訳）で事前学習されたエンコーダ（例えば、LSTM）が与えられた場合、そのエンコーダが生成する文埋め込みを使用して、時制分類器を学習する（埋め込みの微調整は行わない）。分類器が成功した場合、それは事前学習されたエンコーダが読み取り可能な時制情報を埋め込みに格納していることを意味する。プロービングタスクは、解釈可能性の問題を最小限に抑えた単純な質問を投げかける。その単純さから、下流タスクよりもプロービングタスクにおけるバイアスを制御することが容易である。プロービングタスクの方法論は、文のベクトル表現を生成する限り、エンコーダアーキテクチャに依存しない。本稿では、プロービングタスクに関する先行研究を大幅に拡張する。まず、プロービングする言語的特性の種類によって整理された、より大きなプロービングタスクのセット（合計10個）を紹介する。次に、プロービングタスクの方法論を体系化し、いくつかの可能性のあるノイズ要因を制御し、すべてのタスクを単一の文表現のみを入力とするようにフレーム化し、最大限の一般化と結果の解釈を容易にする。第三に、プロービングタスクを用いて、最先端のエンコーディングアーキテクチャと学習方法の幅広い範囲を調査し、プロービングと下流タスクのパフォーマンスをさらに関連付ける。最後に、プロービングデータセットとツールを公開し、文埋め込みの言語的特性を研究するための標準的な方法になることを期待する。

2 Probing tasks

本論文では、文埋め込みの質を評価するための10個のプロービングタスクを導入する。これらのタスクは、文の様々な言語的特徴を捉えるように設計されている。プロービングタスクの構築にあたっては、以下の基準を採用した。

入力の単純性: タスクは、単一の文埋め込みのみを入力として必要とする。これにより、解釈可能性と一般性が向上する。
大規模データセット: パラメータ豊富な多層分類器を訓練するために、大規模な訓練データセットを構築可能である必要がある。
ノイズの制御: 単語の出現頻度や文の長さなどのノイズ要因を制御する必要がある。
言語的特徴の網羅性: 表面的な特徴から意味的な特徴まで、幅広い言語現象を評価できるタスクを導入する。

これらの基準を満たすタスクとして、以下のようなものが導入された。

表面情報:
- SentLen: 文の単語数を予測する。
- WC: 文に含まれる単語を特定する。
統語情報:
- BShift: 文中の隣接する2つの単語を入れ替えた文を識別する。
- TreeDepth: 文の構文木の深さを分類する。
- TopConst: 文の最上位の構成要素の並びを分類する。
意味情報:
- Tense: 文の主節動詞の時制を分類する。
- SubjNum: 文の主語の数を分類する。
- ObjNum: 文の直接目的語の数を分類する。
- SOMO: 文中の単語を別の単語に置き換えた文を識別する。
- CoordInv: 2つの節からなる文において、節の順序が入れ替わっているかを識別する。

これらのタスクのデータセットは、トロントブックコーパスから抽出された文を使用し、各タスクに対して10万文の訓練データ、1万文の検証データ、1万文のテストデータを作成した。すべてのデータセットは、各クラスのインスタンス数が等しくなるようにバランスが取られている。

3 Sentence embedding models

本稿では、3種類の文エンコーダと、それらを訓練する7つのタスクについて検討する。

3.1 文エンコーダのアーキテクチャ

文を固定サイズの表現に符号化するニューラルネットワークは多種多様である。ここでは、標準的な自然言語処理タスクで優れた性能を示すことが示されている3つのモデルに焦点を当てる。

BiLSTM-last/max: 双方向LSTMは、入力文の各単語に対してベクトルを計算する。これらの可変長のベクトルを固定サイズの文ベクトルに変換するために、最後の隠れ状態ベクトルを選択するか、各次元の最大値を選択する。これらのモデルは、seq2seqや普遍的な文表現学習で効率的であることが示されている。
Gated ConvNet: LSTMの非再帰的な畳み込み版で、ゲート付き時間畳み込みを積み重ねたものである。このエンコーダは、単語埋め込みテーブルと位置エンコーディングで構成され、小さなカーネルサイズの時間畳み込み層が続く。各畳み込み層の出力は、LSTMと同様のゲート機構でフィルタリングされる。最後に、時間次元に沿って最大プーリングが実行される。
単方向LSTMも試したが、結果は一貫して劣っていた。

3.2 訓練タスク

seq2seqシステムは、機械翻訳で優れた結果を示している。これらのシステムは、ソース文を固定サイズの表現に符号化するエンコーダと、条件付き言語モデルとして機能し、ターゲット文を生成するデコーダで構成される。本稿では、Europarlコーパスから約200万文を使用して、3つの言語ペアで機械翻訳システムを訓練する。英語-フランス語、英語-ドイツ語、英語-フィンランド語のペアを選択する。また、ソース英語文で自己符号化器を訓練する。さらに、ソース文から線形化された構文解析木を生成するseq2seqアーキテクチャを訓練する。スキップ思考ベクトルは、トロント・ブック・コーパスの3000万文で、現在の文が与えられた場合に次の文を予測するように訓練する。最後に、自然言語推論タスクで文エンコーダを訓練する。また、訓練されていないランダムな重みを持つエンコーダも含む。

3.3 訓練の詳細

BiLSTMエンコーダは、512隠れユニットの2層を使用し、Gated ConvNetは、512隠れユニットの8つの畳み込み層を使用する。両モデルとも、サイズ300の事前学習済みfastText単語埋め込みを使用し、訓練セット外の単語を処理する。訓練タスクの性能と詳細については、付録を参照のこと。

4 Probing task experiments

本論文では、プロービングタスクの実験結果について述べている。まず、表2の上部にベースラインと人間による性能限界を示す。Lengthは文の長さのみを特徴量とする線形分類器であり、NB-uni-tfidfは単語のtf-idfスコアを特徴量とするナイーブベイズ分類器、NB-bi-tfidfはそのバイグラム版である。BoV-fastTextは、文中の単語のfastText埋め込みを平均して文表現を得る。

SentLenに対するLength、WCに対するNBベースラインを除き、ベースラインの性能と人間の性能限界の間には大きな隔たりがある。NB-uni-tfidfは、訓練文中の単語の分布に関する知識のみでタスクがどの程度解決できるかを評価する。単語はほとんどのタスクで有益であり、Tense、SubjNum、ObjNumで比較的高い性能につながる。Tenseでは、過去形の単語（例： "sensed", "lied", "announced"）が過去クラスに、現在形の単語（例： "uses", "chuckles", "frowns"）が現在クラスに強く関連付けられている。バイグラム特徴（NB-bi-tfidf）は、BShiftを除き、ユニグラムベースラインと比較してほとんど改善をもたらさない。NB-bi-tfidfはSOMOではランダム以下の性能であり、意味的な侵入者が表面的なバイグラムの手がかりで分からないことを確認する。

最初の注目すべき結果は、Bag-of-Vectorsの全体的な性能が良いことであり、単語埋め込みを集合化することで驚くほど多くの文情報が捉えられるという初期の洞察を裏付けている。BoVのWCとSentLenの良好な性能は、Adiらによって既に確立されていた。BoVは、BShiftやより複雑な意味タスクであるSOMOとCoordInvではランダムな性能を示す。興味深いことに、BoVはTense、SubjNum、ObjNum（単語ベースラインよりもはるかに優れている）とTreeDepthで偶然以上の性能を示す。Tense、SubjNum、ObjNumでの良好な性能は、多くの文が自然に冗長である、つまり文中のほとんどの動詞が同じ時制であり、名詞も同様であるという説明がある。BoVのTopConstとTreeDepthの性能はより驚くべきものであり、BoVがターゲットクラスに強く関連する特定の単語を超えた手がかりを利用していることを示している。

エンコーディングアーキテクチャは、BoVよりも明らかに優れた性能を示す。表2の興味深い観察は、同じ目的で訓練され、訓練タスクで同様の性能を達成する異なるエンコーダアーキテクチャが、プロービングタスクで示されるように、言語的に異なる埋め込みにつながる可能性があることである。畳み込みアーキテクチャがseq2seqタスクで再帰的なアーキテクチャと同等であるという最近の証拠を補完し、Gated ConvNetの全体的なプロービングタスクの性能は、最高のLSTMアーキテクチャの性能と同等である（ただし、付録に示すように、LSTMはダウンストリームタスクでわずかに優位性がある）。また、BiLSTM-maxがダウンストリームタスク（付録参照）とプロービングタスク（表2）の両方でBiLSTM-lastよりも優れているというConneauらの発見を再現する。興味深いことに、後者は、文の表面的な側面（文に何語含まれているか）を捉えるSentLenでのみ前者を上回り、より有用な言語知識を誘発する妨げとなる可能性がある。

Adiら（2017）は、bag-of-vectorsベースライン、オートエンコーダ、skip-thought（すべてプロービングタスクに使用されるものと同じデータで学習）に焦点を当て、SentLen、WC、および単語順序テストを導入した。彼らのタスクを、入力として文埋め込みのみを必要とするように再構成し（彼らのタスクの2つは単語埋め込みも必要とし、文レベルの評価を汚染する）、評価をより多くのタスク、エンコーダ、および学習目標に拡張し、プロービングタスクのパフォーマンスをダウンストリームタスクのパフォーマンスに関連付けた。Shiら（2016）も、TenseとTopConstを含む3つのプロービングタスクを使用している。彼らが我々が考慮したのと同じ要因（特に、語彙の重複と文の長さ）を制御したかどうかは不明であり、分類器ベースの評価をロジスティック回帰に限定し、より少ないモデルをテストし、機械翻訳に焦点を当てている。

Belinkovら（2017a）、Belinkovら（2017b）、およびDalviら（2017）も、文および単語埋め込みにエンコードされた言語知識のタイプを理解することに関心があるが、彼らの焦点は単語レベルの形態統語論と語彙意味論、特にNMTエンコーダとデコーダにある。Sennrich（2017）もNMTシステムに焦点を当てており、さまざまな言語現象を処理する方法を評価するための対照的なテストを提案している。他の研究では、可視化、入力/隠れ表現の削除技術、またはネットワークの単語ごとの挙動を調べることによって、リカレントネットワークおよび関連モデルの言語的挙動を調査している（例：Nagamineら、2015; Hupkesら、2017; Liら、2016; Linzenら、2016; Kàdàrら、2017; Liら、2017）。これらの方法は、我々の方法を補完するものであり、エンコーダアーキテクチャに依存せず、汎用的なクロスモデル評価に使用することはできない。

最後に、Conneauら（2017）は、ダウンストリームタスクに完全に焦点を当てた、大規模なマルチタスク文埋め込み評価を提案した。

6 Conclusion

本稿では、文埋め込み手法の言語知識を調査するためのタスク群を導入した。その目的は、それらのタスクで最高の性能を達成するアドホックなモデルの開発を促すことではなく、異なる事前学習済みエンコーダによってどのような情報が捉えられているかを理解するのに役立てることである。

我々は、最新の文エンコーダの広範な言語評価を実施した。その結果、エンコーダは強力なベースラインによって捉えられたものをはるかに超えて、幅広い特性を捉えていることが示唆された。さらに、我々は、プロービングタスクとより複雑な「ダウンストリーム」タスクとの間の興味深い相関パターンを明らかにし、さまざまな埋め込み手法の言語特性に関する興味深い知見を提示した。例えば、Bag-of-Vectorsが、自然言語入力の冗長性のおかげで、驚くほど文レベルの特性を捉えるのに優れていることを発見した。また、同じ目的で同様の性能で訓練された異なるエンコーダアーキテクチャが、異なる埋め込みをもたらす可能性があり、文埋め込みに対するアーキテクチャの事前知識の重要性を示した。特に、BiLSTM-max埋め込みは、訓練前にすでに興味深い言語知識を捉えており、訓練後には、以前に異常な文にさらされたことがなくても、意味的な受容性を検出することを発見した。我々は、公開されているプロービングタスクセットが、新しいエンコーダの言語特性を標準的にベンチマークするツールとなり、エンコーダが何を学習しているかのより良い理解に向けた研究を刺激することを期待している。

今後の研究では、プロービングタスクを他の言語に拡張し（自動的に生成されるため比較的容易であるはず）、マルチタスク学習がプロービングタスクのパフォーマンスにどのように影響するかを調査し、プロービングタスクを活用して、より言語的に意識の高い普遍的なエンコーダを見つけたいと考えている。

Acknowledgments

本研究は、David Lopez-Paz、Holger Schwenk、Hervé Jégou、Marc'Aurelio Ranzato、Douwe Kielaの各氏からの有益なコメントや議論に感謝する。

References

以下に、論文で参照されている文献を日本語で要約します。

Yossi Adi et al. (2017): 文埋め込みの微細な分析を補助的な予測タスクを用いて行う研究。
Sanjeev Arora et al. (2017): 文埋め込みのためのシンプルだが強力なベースラインを提案。
Jimmy Lei Ba et al. (2016): レイヤー正規化に関する研究。
Yonatan Belinkov et al. (2017a): ニューラル機械翻訳モデルが形態論について何を学習するかを分析。
Yonatan Belinkov et al. (2017b): ニューラル機械翻訳における表現層を品詞と意味タグ付けタスクで評価。
Samuel R. Bowman et al. (2015): 自然言語推論学習のための大規模なアノテーション付きコーパスを紹介。
Kyunghyun Cho et al. (2014): 統計的機械翻訳のためのRNNエンコーダ・デコーダを用いた句表現学習。
Ronan Collobert and Jason Weston (2008): 自然言語処理のための統合アーキテクチャを提案し、多タスク学習を行う。
Alexis Conneau and Douwe Kiela (2018): 汎用文表現のための評価ツールキットであるSentevalを紹介。
Alexis Conneau et al. (2017): 自然言語推論データからの汎用文表現の教師あり学習。
Fahim Dalvi et al. (2017): ニューラル機械翻訳デコーダにおける形態素学習の理解と改善。
Yann N Dauphin et al. (2017): ゲート付き畳み込みネットワークを用いた言語モデリング。
Jonas Gehring et al. (2017): 畳み込みシーケンス・ツー・シーケンス学習に関する研究。
Dieuwke Hupkes et al. (2017): 再帰型ニューラルネットワークが階層構造をどのように処理するかを可視化・診断分類器を用いて解明。
Allan Jabri et al. (2016): 視覚的質問応答のベースラインを再検討。
Akos Kàdàr et al. (2017): 再帰型ニューラルネットワークにおける言語形式と機能の表現に関する研究。
Ryan Kiros et al. (2015): Skip-thought vectorsを提案。
Dan Klein and Christopher Manning (2003): 正確な非語彙化構文解析に関する研究。
Philipp Koehn (2005): 統計的機械翻訳のための並列コーパスであるEuroparlを紹介。
Philipp Koehn et al. (2007): 統計的機械翻訳のためのオープンソースツールキットであるMosesを紹介。
Alice Lai and Julia Hockenmaier (2014): 意味論に対する表示的および分布的なアプローチを提案。
Jiwei Li et al. (2016): NLPにおけるニューラルモデルを可視化し理解するための研究。
Jiwei Li et al. (2017): ベクトル空間における単語表現の効率的な推定に関する研究。
Tal Linzen et al. (2016): LSTMが構文に敏感な依存関係を学習する能力を評価。
Marco Marelli et al. (2014): 構成的分布意味モデルの評価のためのSICKコーパスを紹介。
Tomas Mikolov et al. (2018): 分散単語表現の事前学習の進歩に関する研究。
Tomas Mikolov et al. (2013): 連続空間単語表現における言語規則性に関する研究。
Tasha Nagamine et al. (2015): 深層ニューラルネットワークがどのように音素カテゴリを形成するかを探求。
Matthew Nelson et al. (2017): 文処理中の句構造構築の神経生理学的ダイナミクスに関する研究。
Bo Pang and Lillian Lee (2004): 主観性要約に基づく感情分析の研究。
Denis Paperno et al. (2016): LAMBADAデータセットを紹介し、広範な談話コンテキストを必要とする単語予測タスクを提案。
Jeffrey Pennington et al. (2014): 単語表現のためのグローバルベクトルであるGloVeを紹介。
Nghia The Pham et al. (2015): C-PHRASEモデルを用いて語彙および文のタスクのために単語表現を共同で最適化。
Rico Sennrich (2017): 文字レベルのニューラル機械翻訳がどの程度文法的かを評価。
Xing Shi et al. (2016): 文字列ベースのニューラル機械翻訳がソース構文を学習するかどうかを検証。
Richard Socher et al. (2011): パラフレーズ検出のための動的プーリングと再帰的自己符号化器の展開。
Sandeep Subramanian et al. (2018): 大規模な多タスク学習による汎用分散文表現の学習。
Sainbayar Sukhbaatar et al. (2015): エンドツーエンドメモリネットワークに関する研究。
Ilya Sutskever et al. (2014): ニューラルネットワークを用いたシーケンス・ツー・シーケンス学習。
Shuai Tang et al. (2017): Skip-thought vectorsのトリミングと改善。
Dmitry Ulyanov et al. (2017): 深層画像事前分布に関する研究。
Oriol Vinyals et al. (2015): 文法を外国語として捉えるアプローチ。
Adina Williams et al. (2018): 推論による文理解のための広範囲なチャレンジコーパスを紹介。
Jie Zhou et al. (2016): ニューラル機械翻訳のための高速フォワード接続を備えた深層再帰モデル。
Yukun Zhu et al. (2015): 書籍と映画を対応付け、映画を見て本を読むことで物語のような視覚的説明を生成。

7 Appendix

Amazon Mechanical Turk survey

Amazon Mechanical Turk を通して被験者を集め、SOMO、CoordInv、BShift の各タスクに対して個別のアンケートを実施した。被験者には、文が許容可能か、異常または反転しているかを判断させた。参加者は英語を母語とする国に居住している者に限定した。

注釈の質を最大化するために、コントロールセットを作成した。著者2名が各タスクから200のランダムな文を盲検的に注釈し、合意した文をコントロールセットに含めた。

各文につき少なくとも10件の判断を収集し、各タスクから1000件のランダムな文に対して行った。少なくとも10個のコントロール文を90%以上の精度で評価した被験者による判断のみを保持した。フィルタリング後、SOMO、CoordInv、BShift の各タスクについて、それぞれ平均2.5、2.9、12件の判断が残った。最終的な精度を計算する前に、回答を多数決で集計した。

被験者の個人データは記録せず、集計された形式での判断のみを使用して、表に報告された推定された人間の上限を生成した。

Further training details

Seq2seqタスクのエンコーダ学習では、ハイパーパラメータ調整後、2層のLSTMデコーダ（隠れユニット数512）を選択した。NLIでは、隠れユニット数100の多層パーセプトロンを使用。NMTでは、ターゲット文にのみBPEを適用（コード数40k）。ドロップアウト率と入力埋め込みサイズを調整し、BiLSTMで1024、Gated ConvNetで512を選択。BiLSTMにはAdam、Gated ConvNetにはSGD（モメンタム付き）を使用。エンコーダ表現は各タイムステップでデコーダに入力。検証セットでのモデル選択には、NMTとAutoEncoderでBLEUスコア、SkipThoughtでパープレキシティ、Seq2TreeとNLIで精度を使用。表3は、元の学習タスクにおける様々なアーキテクチャのテストセット性能を示しており、3つのエンコーダで結果が類似しているが、埋め込みが捉える言語的特性は異なると述べている。表の最後の行は、注意機構付きのBiLSTMアーキテクチャのBLEUスコアを示しており、注意機構を導入すると現在のNMTモデルと同等になることを示している。

Probing task training

本稿では、プロービングタスクの結果は、シグモイド非線形性を持つ多層パーセプトロン（MLP）を用いて得られた。これは、Tanhよりも優れた性能を示すことが判明したためである。各プロービングタスクの検証セットで、L2正則化パラメータ、隠れ状態数（[50, 100, 200]）、ドロップアウト率（[0, 0.1, 0.2]）を調整した。他のタスクよりも出力クラス数が大幅に多いWCの場合のみ、ロジスティック回帰の結果を報告している。これは、ロジスティック回帰が一貫して優れていたためである。

Logistic regression results

ロジスティック回帰の性能は、MLPの性能に近い（メインテキストの表2と、この表4を比較せよ）。これは、ほとんどの言語的特性が、埋め込みの線形読み出しで抽出できることを示唆している。興味深いことに、フランス語NMTで学習されたBiLSTM-maxのような優れたモデル学習の組み合わせに焦点を当てると、ロジスティック回帰からMLPへの改善が比較的大きい（>3%）タスクは、おそらく最も微妙な言語的知識を必要とするタスク（TreeDepth、SOMO、CoordInv）である。

Downstream task results

本稿では、様々な文エンコーダーアーキテクチャを異なる方法で事前学習させた場合の、様々なダウンストリームタスクにおける性能を評価している。その結果、Conneauらの先行研究と同様に、NLI（自然言語推論）タスクが事前学習のソースとして最も効果的であることが確認された。興味深いことに、NLIで事前学習されたモデルは、NMT（機械翻訳）で事前学習されたモデルよりも、ダウンストリームタスクでは高い性能を示すが、本稿で提案したプロービングタスクでは、NMTで事前学習されたモデルの方が、より多くの言語的特性を捉えていることが示唆された。また、ダウンストリームタスクにおいて、埋め込み次元を増やし、モデルの容量を増やすことが有益であることも示された。さらに、NLIで学習されたモデルの場合、プロービングタスクでも同様の効果が見られたが、NMT En-Frエンコーダーでは、その効果は限定的だった。最後に、本稿で評価したモデルは、最先端の汎用文エンコーダー（SkipThought、InferSent、MultiTask）と比較しても、遜色ない性能を示すことが確認された。

七誌の開発日記

AIで論文を読む: What you can cram into a single vector