古文翻訳も、ついにここまできたか。

コトバ

この度は、日本語研究者である、Tarin Clanuwat氏のサイトより引用する。
引用:https://tkasasagi.github.io/

光学式文字認識(OCR)を利用した、古文の自動翻訳が想像以上の出来だった。なお厳密には、くずし字(Kuzushiji)のテキスト化となる。

日本語資料とデータ解析、この2つの相性は、抜群によいようだ・・・。

以下、共著の論文PDFも参考されたし。人文学研究データリポジトリよりダウンロード可能。
引用:人文学研究データリポジトリ

電子情報通信学会誌,2019/6
北本朝展,宮崎智,山本和明,Tarin Clanuwat
「文字データの分析── 機械学習によるくずし字認識の可能性とそのインパクト──」

ところで、人文学研究データリポジトリの本気度がすごい。

アーカイブ化、大変にありがたい。だが・・・これらを活用できる層が、いったいどれだけいるものだろうか? なんにせよ、とっつきにくいこの分野へ、接近するための足掛かりとなるのは間違いないだろう。そして勿論、研究者たちにとっても大きなメリットであることは、言わずもがなである。

コメント