5丁目通信(仮称)

とある5丁目で活動する還暦を過ぎたWebプログラマーの覚え書きです。それとかかってくる迷惑電話や、家業のアパート経営について。

画像をOCRでテキストを抽出するのは、Adobe Acrobatが簡単だった話し


Webサイトのテキストの更新で、なぜかお客さんから画像のテキストが送られて来ました。お客さんにあらためてテキストで送ってもらえばいいのですが、更新元の担当者に連絡してもらうのは大変そうなので、画像からテキストをOCRのサービスでテキストを抽出してしまうことにします。

Googleさんに「画像 テキスト 抽出」で聞くといろいろと教えてくれます。OCRのWebサービスなんてありますけど、お客さんからもらったデータですので、外部のサービスに渡したくありません。Googleドライブに一旦保存して、Googleドキュメントで開くという方法もあります。

今回、手元のアプリケーションでサクッと変換するのに行った方法は、AdobeのAcrobatで変換することです。ただし、無料のAcrobatではなくて有料のAcrobat Proが必要です。私の場合、Acrobat Proは、Creative Cloudのサブスクで利用できました。

Acrobatで画像ファイル(今回はPNGファイル)を開きます。ファイルの種類を「PDF」から「すべてのファイル」にすれば画像ファイルを開くことができます。

右のメニューから「スキャンとOCR」を選択します。上のメニューから「テキスト認識」から「このファイル内」を選択して「テキスト認識」ボタンと押せば、これでテキストに変換されています。

あとは、必要なテキストを選んでコピーするだけです。

AdobeのAcrobat Proを持っていれば、とても簡単に画像からテキストを抽出できます。

ブログランキング・にほんブログ村へ 人気ブログランキング