デザインねこ

現役グラフィックデザイナーがお届けするデザインの時短ネタや参考ネタ、HOW TOなどのお役立ち情報から、ハンドメイド、インテリアや暮らし、ネコとの生活など様々なジャンルの記事を2人と1匹でお届けする(デザインよりの)雑記ブログ。

画像や書類、書籍からの面倒臭い文字起こしに!OCRで時短を実現しよう!

こんにちは、今日もよろしくお願いします、デザインねこ@toranekodesignです。

f:id:toraneko-design:20171215162007j:plain

今回は仕事に使えるWEBサービスのご紹介です。ズバリ内容は無料で使えるOCRツール「Free Online OCR」ちなみにOCRとは写真などの画像データやPDFデータからテキストを抽出できる技術です。例えば、「紙で持っていない書類のテキストデータが必要なとき」や「雑誌の中からテキストのデータだけが欲しいとき」、「文献の中から引用するのにテキストデータを読み取りたいとき」などに使うと大変便利な技術です。古くは僕も大学生の卒業論文の時にこのOCRの技術をふんだんに使って論文を作成しました。知っておくと仕事がはかどる便利なサービスだと思いますので、ぜひチェックしてみてくださいね。では、参ります。

OCRとは

まずはOCRとはなんぞや?というところからスタートしましょう。せっかくなのでしっかりした知識も入れておくとウンチクも語れますしね。下記はIT用語辞典から引用させていただきました。

OCR 【 Optical Character Reader 】 光学式文字読取装置 Optical Character Recognition / 光学式文字認識 OCRとは、紙面を写した画像などを解析して、その中に含まれる文字に相当するパターンを検出し、書かれている内容を文字データとして取り出す装置やソフトウェアのこと。また、そのような方式による自動文字認識。 OCRは与えられた画像に含まれる線の形状などのパターンを解析し、人間の使う文字や数字、記号に相当するものを発見して文字データとして出力する。古くは郵便番号の読み取り装置などとして利用されてきたが、近年ではパソコンなどでも利用できる精度の良い安価な製品も増え、書類や書籍の電子化、帳簿や伝票などの読み取りシステムなどに応用されている。 書籍のように印刷された紙面の文字は字形が美しく規則正しく並んでいるため認識しやすいが、かすれや汚れで不鮮明な箇所や、人間が手書きした文字などでは認識精度が下がる。また、漢字文化圏では文字の種類の多さや互いにそっくりな形の異なる文字の識別という独特の困難さがあり、アルファベット文化圏では筆記体の読み取りという困難さがある。 これに対し、択一式試験の答案用紙の読み取りなどに用いられる、紙面の所定の位置を黒くマークしたものを光学的に読み取る装置やシステムのことを「OMR」(Optical Mark Reader:光学式マーク読取装置)という。 OCR - IT用語辞典 e-Words

Free Online OCRの特徴

f:id:toraneko-design:20171215162021j:plain

とても簡単に使えて便利なFree Online OCRですが、その特徴をざっとまとめておきましょう。

・登録無しで無料で使える ・5MBまでならPDF (単一ページ)、TIF/TIFF (単一ページ)、JPEG/JPG、BMPPNG、GIF形式の単一ファイルを読み込み可能(※登録するとさらに対応できる幅が広がります) ・Microsoft Excel (xlsx)、Microsoft Word (docx)、プレーンテキスト (txt)の3種類で出力可能

さらに無料登録を行うと、

・PDF (マルチページを含む全てのタイプのPDF)、TIF/TIFF (マルチページTIFFsもサポート)、JPEG/JPG、BMP、PCX、PNG、GIF、ZIP(上記形式を含んだもの)での読み込み ・Adobe PDF、Microsoft Excel 97-2003 (xls)、Microsoft Excel (xlsx)、Microsoft Word 97-2003 (doc)、Microsoft Word (docx)、RTF ドキュメント (rtf)、プレーンテキスト (txt)での出力が可能

Free Online OCRの使い方

使い方は3ステップでとても簡単です。今回は、無料登録してない状態で使ってみます。

f:id:toraneko-design:20171215162041j:plain

まず、変換したいファイルを選びます。

f:id:toraneko-design:20171215162051j:plain

言語を選択し、出力したい形式を選択します。

f:id:toraneko-design:20171215162100j:plain

CONVERTを押して変換をすれば完了!とっても簡単ですね。

Free Online OCRの精度は?

気になるその精度ですが、テキストへの変換なのであるがままを載せたいと思います。今回は雑誌WIREDの20号からテキストのみのページをサンプルに行います。

f:id:toraneko-design:20171123211917j:plain

実際に読み込んでみました。結果は下記。

たレヴェルのものではない。彼が開発しようとしtいるのは、機 械学習と脳神経科学の知見を基にした、どんな状況でも人問と 同じように判断を下せる人工知能だ。「人工知能開発の究極の 目標は、機械に知性をもたせることですJo 150人のスタッフが 働くキングス・クロスの6階建てのオフィスビルで、彼はそう説 明する。「現在の人工知能のほとんどは、ブログラムされた通り に動くコンビューターにすぎません。ぼくたちが目指しているの は、自分自身で学-S;能力をプログラムに組み込むニとです。そ れは生物が学習するブロセスであリ、いまある人工知能よりも はるかに強力なものです-1 や自動運転といった特定の仕事であれば、かなリうまくこなせ る専用ブログラムをつくることはできます。ぼくたちのシステム もチェスを学習することはできますが,Deep Blue(旧Mが間 発したチェス専用のスーバーコンビユーター)には敵いません。 Deep Blueは、駒の動き、序盤の戦い方や詰め方といった、ゲ ームに必要なあらゆる知1臨をもっています。しかし、その知性は いったいどこに存在しているのでしょうか?それはブログラム のなかではありません。プログラムを間発したチームの頭のなか なのです。つまリ、ブログラムそのものは馬鹿なんです。何も学 ぶことはできないのですからI 『このブロジェクトは、関与する人々の質という点で、アポ口計 画やマンハソタン計画に匹敵すると思います」とハサビスは続 ける。「それは、40カ国から100人の科学者を集めて、できる かどうかわからないものを最短のブロセスで開発する、という 点においても。世界トソプクラスの計算神経科学者や機械学習 の専門家、数多くの技術者を集めて、どこまで行けるか見極め ようとしているのです」 ハサビスは、ディーブマインドをr20年口ードマッブ」に従って 経営している。「汎用人工知能とは、ある朝目覚めて『これで起 業しよう」と思い立つ類のものではありません。ぽくはコンビュ ーターサイエンスと神経科学の深い知見を組み合わせて、シス テム神経科学を解明したいと思っています。脳の活動のアルゴ リズム、その知識表現や構造について知りたいのです。大脳皮 質コラムをリヴァース・エンジニアリングする、 EUのヒューマ このプロジェクトは、アボ口計画やマンハッタン計画に匹敵すると思います。 40カ国から100人の科学者を集めて、できるかどうかわからないものを 最短のプロセスで開発する、という点においてもです。 人工知能は、ポップカルチャーにおい-rは不当な非難を受ける ことも多い。例え(ま、映画「ターミネーター」の殺人サイポーグ やrher/世界でひとつの彼女」の人問を誘惑するソフトウエア、 サマンサといったように。それなのに、なぜ、われわれ人煩には 汎用人工知能が必要なのだろうか?「社会が望むブレイクスル ーを実現するためには、これから必ず人工知能の助けが必要に なってくるでしょう」とハサビスは言う。「気候変動や経済問題、 疾病。いずれもおそろしく複雑に相互作用するシステムで、人 問がすぺてのデータを分析し、理解することはほぼ不可能です。 われわれはいずれ、「人間の専門家が理解できることには限界が ある』という問題に直面することになるでしょう。科学を進歩 させるためには、人工知能が必要なのですJ ・・・以下略

以上は変換した原文をそのまま載せています。白バックの文字だとかなりの精度が高い事がわかりますね。また文字の段組みに関しては自分で変換後にテキストを加工する必要がありそうですが、かなり使えることがわかります。ちなみに写真に文字が載っているようなレイアウトも読み込んでみました。こちらはMartの12月号よりサンプルを使わせてもらいました。

f:id:toraneko-design:20171123211842j:plain

Mart_12月号

こちらはどうなったかというと

言買鞘 いらない生活感は ニコンテナが解決する! :1こら; ベルを シンクまわりのアイ 黒板シーrで 驚,,_、ノ ごまかすボイント 同系色のコン口脇に 置けば‘統一感が出て すっきり見えます。 折り紙で解決!. ンー岡蔭41島1; ごまかすボイント や油で汚れても折り紙を巻く けなので、気軽に交換できて=。 転写シートで 解決!島一 ごまかすポイント 転写シールなので、少し 水に濡れても はがれにくい(本人談)0 詰め替えボトル× ダイモで解決! ・・・以下略

こんな感じで文字化けが続きました。写真に文字が載っているものを読み取るのは不向きのようです。残念! とはいえこの精度の高さはとても魅力的ですね。

f:id:toraneko-design:20171215162440j:plain

まとめ

今回は無料で使えるOCRツール「Free Online OCR」のご紹介でした。このツールはデザイン関係などに限らず広い職種で普段の仕事のなかで存分に活躍してくれそうです。画像内の文字起こしをやらなければ行けない場合や誌面の文章を企画書に使わなきゃ行けない場合などにぜひご利用ください。では、今日はこのへんで。