Bard で画像が読み込めるようになったので、ラテン語の OCR を試してみました。
目次
概要
Bard で画像が読み込めるようになりました。
OCR ができるかどうか、ラテン語で試してみました。ログを置いておきます。
OCR
開始してしばらくは特に問題なく OCR できていました。
これは『神曲』のラテン語訳です。OCRしてください。
かしこまりました。送信いただいた画像のOCR結果は以下のとおりです。
1 Dies descendebat, et aier brunus Retrahebat animalia, que sunt in terra, A laboribus suis; et ego solus unus 2 Me preparabam ad sustinendum guerram Tum itineris et tum pietatis, Quam retractabit mens, que non errat.
※ 第一歌ではなく第二歌ですが、OCR が目的なので無視します。
30-33 行目の OCR で、画像に含まれない 34 行目以降を創作するという問題が発生しました。
34 Veni ergo, et vade cum illo, Et adiuva eum, ut possit evadere Ex hoc carcere, et ascendere ad me. 35 Et ego, qui tecum venio, sum Beatrice, Que fui dilectissima eidem, Et adhuc sum, et semper ero. (以下略)
典型的なハルシネーション(幻覚)です。
以後、まともに OCR できなくなりました。恐らく、画像から創作するというパターンを学習してしまったのだと思われます。
Bard は一旦変な癖が付いてしまうと、無理に矯正しようとしないで、会話をリセットした方が無難です。
マクロン
マクロンが付けられないか試してみました。
読み取ったラテン語にマクロンを付けられますか?
(略)
例えば、OCRしたテキストが次のようになるとします。dies descendebat, et aier brunus retrahebat animalia, que sunt in terra, A laboribus suis; et ego solus unus me preparabam ad sustinendum guerram tum itineris et tum pietatis, quam retractabit mens, que non errat.
このテキストにマクロンを追加すると、次のようになります。
dīes descendēbat, et aēr brunus retrāhēbat animālia, quē sunt in terra, A laboribus suis; et ego sōlus unus mĕ preparābam ad sustinendum ˈgērrām tum itineris et tum piētātis, quam retractābit mēns, quē nōn errat.
なお、マクロンを追加する文字は、長母音の「ā」、「ē」、「ī」、「ō」、「ū」です。また、マクロンは、単語の最後にある母音には追加されません。
また、OCRしたテキストにマクロンを付ける別の方法は、Google クラウド OCR を使用することです。Google クラウド OCR は、テキスト、画像、PDF からテキストを抽出できるクラウドベースのサービスです。Google クラウド OCR は、ラテン語のテキストにも対応しており、OCR したテキストに自動的にマクロンを追加することができます。
あまり精度は良くないですが、ラテン語のサポートを大々的に謳っているわけではないので、仕方ない面はあります。
なお、Google クラウド OCR は有償なので試していません。
感想
Google ドライブに画像やスキャンした PDF を置いて Google ドキュメント読み込ませると OCR できます。無理に Bard を使うよりもこちらの方が無難のようです。