【お知らせ】プログラミング記事の投稿はQiitaに移行しました。

百度翻訳のテスト(『神曲』冒頭)

百度翻訳でサポートされる 201 言語での翻訳をテストします。

目次

シリーズの記事です。

  1. 百度翻訳の対応言語
  2. 百度翻訳のテスト(『神曲』冒頭) ← この記事

注意

2023 年 11 月 10 日現在、Firefox では「访问出现异常,请刷新后重试!(Access encountered an exception. Please refresh and try again!)」というエラーでまともに利用できません。リロードしても特に改善しないようです。

Chrome や Edge でもこのエラーが出ることはありますが、リロードすれば普通に利用できるようです。

題材の準備

翻訳テストの題材を準備します。

どの言語にもありそうな基本語彙だけで構成され、構文が単純過ぎない文としてダンテ『神曲』の冒頭を選びました。

Nel mezzo del cammin di nostra vita
mi ritrovai per una selva oscura,
ché la diritta via era smarrita.

言語の調査

多言語のエンジンでは全部の言語間で相互に翻訳することは困難なため、英語を中間言語として挟むことが多いです。

まず英語に翻訳します。

In the middle of our life's journey
I found myself in a dark forest,
for the straight way was lost.

イタリア語からフランス語への直接翻訳と、英語からフランス語への重訳を比較すると、一致しました。

A mi - chemin du voyage de notre vie
Je me suis retrouvé dans une forêt sombre,
Parce que la route directe est perdue.

※ 冒頭の "A mi -" がおかしいです。(後で調整)

この結果から、イタリア語からフランス語へ翻訳を指示すると、裏では英語を経由していると推測できます。

スペイン語でも直接翻訳と重訳が一致しました。

A mitad de nuestro viaje por la vida
Me encontré en un bosque oscuro,
Porque se perdió por el camino recto.

※ 一行目で nuestro が掛かる名詞がおかしいです。(後で調整)

日本語でも一致しました。

私たちの人生の旅の途中で
私は自分が暗い森の中にいることに気づいた。
直路で道に迷った。

他にいくつかの言語(中国語、インテルリングア、エスペラント、イド語)でも試しましたが、やはり一致しました。

※ 中国で開発されたため中国語を中間言語としている可能性を考慮して試しましたが、一致しませんでした。ただし、中国語→日本語の直接翻訳と、中国語→英語→日本語の重訳では結果が変わったため、中国語と日本語との翻訳では中間言語を挟んでいないようです(翻訳精度も良好)。他にも中間言語を挟まない組み合わせがありそうですが、調査対象外とします。

訳文の調整

英語が中間言語として扱われていると仮定して、なるべく直接翻訳されるように、翻訳の題材としては英語を使用します。ただしフランス語とスペイン語の結果に少し問題があったため、英語の側を調整します。改行が入ると並べるときに場所を取るため、散文訳として一行にまとめます。

各種英訳を基に、フランス語とスペイン語での翻訳の問題が解消する文例を探ります。

いくつか試した上で、なるべく問題が解消されるように混ぜ合わせて調整しました。

英語In the middle of the path of our life, I found myself in a dark forest, because the right way was lost.
フランス語Au milieu du chemin de notre vie, je me suis retrouvé dans une forêt sombre parce que le bon chemin avait été perdu.
スペイン語En medio del camino de nuestras vidas, me encontré en un bosque oscuro porque el camino correcto se había perdido.

この英文を題材として使うことにします。

百度翻訳がミスしやすい癖みたいなものに効果があることを期待しています。しかし現実問題として、フランス語とスペイン語に特化した修正が他の言語でどれだけ効果があるかは疑問のため、気休め程度ではあります。

スコア

まず前掲の英文を翻訳します。

In the middle of the path of our life, I found myself in a dark forest, because the right way was lost.

翻訳結果から英語への逆翻訳を行って、原文との類似度でスコア付けをします。必ずしも翻訳精度を正確に反映しているとは限りませんが、目安にはなります。算出方法については以下を参照してください。

※ その言語への翻訳はうまくいっているのに、英語への逆翻訳の際に問題が生じる可能性があります。対象言語の知識がないと正確には判別できませんが、問題が明らかなものについては翻訳結果の表に赤字で示します。(学習した例文がそのまま出ていたり、バグっていたりすると判断されるものなど)

言語数 平均 標準偏差
基準となる英語以外 200 53.0 26.5
問題のある言語以外 137 66.8 18.5

スコア上位(30 位タイまで)に日本語を加えたリストです。

スコア 言語
100 スコットランド
95 イタリア語、オランダ語ギリシア
94 チェコ語、ドイツ語、ハンガリー語ブルガリア語、ポーランド
93 セルビア語(キリル文字)
91 スウェーデン
90 アフリカーンス語ミャオ語
89 スロベニア
88 イド語、ニーノシュク、バスク語、ブークモール
87 インターリングア
86 アイルランド語ウェールズ語エスペラントカタルーニャ語、低地ドイツ語
85 ルーマニア語、西フリジア語
84 ノルウェー
83 アルバニア語、エストニア語、ガリシア語、ポルトガル語
63 日本語

翻訳結果

英語から他の 200 言語への翻訳結果を系統別に整理して示します。

言語の並び順はまず文字で分けて、なるべく近い関係の言語が並ぶように意識しました。翻訳に問題がある言語は後に回して赤字で示します。

インド・ヨーロッパ語族

数が多いため語派ごとに分けます。

ゲルマン語派

ノルウェー語がブークモールやニーノシュクと区別されていますが、詳細不明です。

※ リンブルフ語は無関係なドイツ語の例文で、その逆翻訳もおかしいです。

イタリック語派

アラゴン語は英語が翻訳されずにそのまま出力されています。

人工言語

イタリック語派によく似た人工言語をここに付けておきます。

イド語やインターリングアをサポートする機械翻訳は他にないので貴重です。翻訳はなかなか良いですが、逆翻訳が少し崩れるようです。

スラヴ語派

バルト語派

ヘレニック語派

ケルト語派

インド・イラン語派

※ シンド語への翻訳はできているようですが、逆翻訳が不完全なため赤字にしています。Google 翻訳による逆翻訳を示します。

In the middle of our life, I found myself in the deepest darkness because I had strayed from the straight path.

その他

アフロ・アジア語族

数が多いセム語派とそれ以外を分けます。

セム語派

その他

※ ピリン語は逆翻訳が完全にバグっています。翻訳そのものがどこまでできているかは不明です。

チュルク語族

タタール語への翻訳はある程度できているようですが、逆翻訳が不完全なため赤字にしています。Google 翻訳による逆翻訳を示します。

I saw myself in a dark cloud because I had strayed from the right path.

ウラル語族

オーストロアジア語族

オーストロネシア語族

コーカサス諸語

シナ・チベット語族

漢文への翻訳は簡潔ながら、要点がつかめています。

タイ・カダイ語族

※ ラーオ語は大まかな構文は再現できているようですが、単語の選択ができていないようです。Google 翻訳による逆翻訳を示します。

In the way of our life, I have maintained that I was born in your head, because it is still better.

ドラヴィダ語族

ニジェール・コンゴ語族

※ ガンダ語は逆翻訳は良さそうですが、トルコ語に翻訳されています。ヴェンダ語はベトナム語への翻訳ですが、内容は数学の行列に関するもので逆翻訳もおかしいです。

ナイル・サハラ語族

エスキモー・アレウト語族

アメリカ先住民諸語

クレオール言語

モーリシャスクレオール語は無関係な例文がそのまま表れているようです。よく見るとフランス語の名残があります。

人工言語

既存の言語をベースにしないアプリオリ人工言語です。

その他

ミャオ語の翻訳精度が高いようです。

関連記事

ChatGPT ではイド語やインターリングアからの翻訳はかなりの精度でできます。

ロジバンの語根は使用者の多い 6 つの自然言語(中国語、英語、ヒンディー語スペイン語、ロシア語、アラビア語)の語彙を混ぜ合わせて作られます。