【お知らせ】プログラミング記事の投稿はQiitaに移行しました。

Bard でラテン語の OCR

Bard で画像が読み込めるようになったので、ラテン語OCR を試してみました。

目次

概要

Bard で画像が読み込めるようになりました。

japan.googleblog.com

OCR ができるかどうか、ラテン語で試してみました。ログを置いておきます。

出典は『神曲』のラテン語訳です。👉参考

OCR

開始してしばらくは特に問題なく OCR できていました。

これは『神曲』のラテン語訳です。OCRしてください。

かしこまりました。送信いただいた画像のOCR結果は以下のとおりです。

1 Dies descendebat, et aier brunus
Retrahebat animalia, que sunt in terra,
A laboribus suis; et ego solus unus
2 Me preparabam ad sustinendum guerram
Tum itineris et tum pietatis,
Quam retractabit mens, que non errat.

これは『神曲』の第一歌の冒頭部分のラテン語訳です。
(以下略)

※ 第一歌ではなく第二歌ですが、OCR が目的なので無視します。

30-33 行目の OCR で、画像に含まれない 34 行目以降を創作するという問題が発生しました。

34 Veni ergo, et vade cum illo,
Et adiuva eum, ut possit evadere
Ex hoc carcere, et ascendere ad me.

35 Et ego, qui tecum venio, sum Beatrice,
Que fui dilectissima eidem,
Et adhuc sum, et semper ero.
(以下略)

典型的なハルシネーション(幻覚)です。

以後、まともに OCR できなくなりました。恐らく、画像から創作するというパターンを学習してしまったのだと思われます。

Bard は一旦変な癖が付いてしまうと、無理に矯正しようとしないで、会話をリセットした方が無難です。

qiita.com

マクロン

マクロンが付けられないか試してみました。

読み取ったラテン語にマクロンを付けられますか?

(略)
例えば、OCRしたテキストが次のようになるとします。

dies descendebat, et aier brunus
retrahebat animalia, que sunt in terra, A laboribus suis; et ego solus unus
me preparabam ad sustinendum guerram
tum itineris et tum pietatis,
quam retractabit mens, que non errat.

このテキストにマクロンを追加すると、次のようになります。

dīes descendēbat, et aēr brunus
retrāhēbat animālia, quē sunt in terra, A laboribus suis; et ego sōlus unus
mĕ preparābam ad sustinendum ˈgērrām
tum itineris et tum piētātis,
quam retractābit mēns, quē nōn errat.

なお、マクロンを追加する文字は、長母音の「ā」、「ē」、「ī」、「ō」、「ū」です。また、マクロンは、単語の最後にある母音には追加されません。

また、OCRしたテキストにマクロンを付ける別の方法は、Google クラウド OCR を使用することです。Google クラウド OCR は、テキスト、画像、PDF からテキストを抽出できるクラウドベースのサービスです。Google クラウド OCR は、ラテン語のテキストにも対応しており、OCR したテキストに自動的にマクロンを追加することができます。

あまり精度は良くないですが、ラテン語のサポートを大々的に謳っているわけではないので、仕方ない面はあります。

なお、Google クラウド OCR は有償なので試していません。

感想

Google ドライブに画像やスキャンした PDF を置いて Google ドキュメント読み込ませると OCR できます。無理に Bard を使うよりもこちらの方が無難のようです。

wk-partners.co.jp

ちょっとした断片などでは、Google 翻訳の画像翻訳を簡易 OCR として使うこともできます。