PDFから文字や表を抽出しよう!無料アプリだけで!!

文字列や表を抽出できるのは、Office Lens
Microsoft社が無料で提供してて、アカウント登録しとけばOneDriveと連携して使える。

文字や表を抽出したい!

テキスト抽出はけっこう簡単にできる。
PDFのドキュメント化はGoogleドライブからドキュメントに落とし込めばいい。

これに引っかからないやつがある。
そいつらは、いったん画像ファイル化して、Office Lensで処理する。
ちょっと手間だけど、無料アプリだから。

Windows 10 のパソコンと、Androidスマホを使ったよ。

Office Lens を知ろう!

マイクロソフトが提供してる画像処理用のアプリ。
iOS版とAndroid版がある。

Windows版はないっ!

OneDriveのOffice Lens
OneDriveにも機能がある

かつてはWindows 10 Mobile向けに提供されてたんだけど。
プロダクトが終わっちまったからな。
いずれにしても、スマホカメラを賢く使いたいって意図なんだろう。

けっこういろんなことができる。

  • 歪み補正(ホワイトボードとかを斜めに撮影してもきれいにしてくれるやつ)
  • 文書撮影(長い文書でも1ページずつ撮影して取り込んでくれる)
  • テキスト抽出(特定の部分んからテキスト情報を抜き出してデータ化してくれる)
  • テーブル抽出(← 今回使うやつ)
  • 名刺撮影
  • とかとか

こいつらは、スマホカメラの拡張機能として提供される。
取得したデータは、ローカル保存かクラウドストレージか。OneDriveだけじゃなく、連携済みのアカウントのストレージサービスにはアップできる。Google Driveもおっけー。

カメラ画像だけじゃなく、既存の画像も処理できる。
ここが今回のポイント!

PDFから表を抽出

今回やりたいことは、PDFに書かれてる表をデータ化してExcelで編集したい!ってこと。PDFはパソコンで見てるの。
他人のデータを拝借するなって?
固いこと言いなさんな。手元資料に使うだけさね。
どーせ転記するんだから、ミスなくいこーぜって話だよ。

Excel

準備。
以下のアプリを使うから、あらかじめ入れとく。いずれも無料。あと、マイクロソフトアカウントで連携しとく。

  • Office Lens
  • OneDrive
  • Microsoft Excel

パソコンからもスマホからも、同じOneDriveの場所を参照できることが前提。

表だけの画像ファイルを作る

Google Drive + ドキュメント では処理してくれなかった表を、Adobe Readerの範囲指定でコピーして、ペイントに貼り付けて画像にしたよ。

やり方は他にもいくらでもあろう。
画面コピーを取得しちゃうとか。
他のツールを使うとか。
とにかく、抽出したいものの画像ファイル(.jpgとか.pngとか)を作ろう。

アップロード

そしてファイルはOneDrive経由でスマホへ。
スマホではローカルにダウンロードしとく。

すでにあるならここからスタートでもよき。

ちなみに、紙媒体なら次のステップからで。
そこで写真を直接撮っちゃいなよ。

Office Lens に処理してもらう

メインイベント。
Office Lensを起動したら、「アクション」へ。

Office Lens Android版
アクション

続いて「テーブル」を選択。

テーブル
テーブルを選択

対象ファイルは撮影してもいーんだけど、前段階で準備しといた画像ファイルで。

左下にある写真参照アイコンから、ローカルの既存ファイルを選択できる。
どこにあるか次第で。
ちなみに、ダウンロードしてなにもしてなければ「ダウンロード」フォルダーにあります。

ファイル参照
画面左下のアイコンを選択

Office Lensの処理後に表範囲を手動選択したら、チェックマークをタップして表を抽出してもらいましょう。
すると、なんということでしょう。
日本語も英語も数字も、しっかり表形式で抽出してくれるではありませんか!!

精度は、、、まぁ。
ぜんぶ転記するよりかはマシだろ。

血まみれ

必要に応じて値は編集しておくこと!
たぶんスマホでやったほうが楽。

整形が終わったら、コピー

Excel に貼り付ける

コピーしてあるから、スマホのクリップボードに表形式で入ってる。
Excelを起動したらワークシートを新規作成して、貼り付けましょう。

長押しすればメニューが出てくるよ。

コンピューター

貼り付けたら、再度データを確認。
セルの結合とかが厄介なんだよね。。
結合解除とかはスマホのオペレーションもいい感じだぞ。
右下の上向き矢印マークから使ってみよう!

編集が終わったら、名前を付けて保存。
OneDriveを使ってパソコンへ連携する。

パソコンで処理する

ここまでくればあとはどーとでも。

OneDriveのExcelには、ちゃんと表形式でデータが保存されてるんだから。
書式設定の細かいところが微妙だから、別のシートに値貼り付けして利用することをお勧めします。

画像ファイルならなんとかなる

てなわけで、画像ファイルならどーとでもなるんだよ。

画像ってのは、写真撮影してもいーし、スキャンしてもいーし、画面コピーからもらってきてもいーし。
ゆがみのないキレイな表のかたちになってれば、それなりに読んでくれる!

特に、PDFでもらっちゃったファイルだからって諦めてないで、画面コピーなりAdobe Readerとかのコピー機能なりを使って、きれいな画像ファイルを作り出すんだっ!!

コンピューター

Office Lensの解析能力は、無料アプリとして考えれば許容範囲内といえる精度でしょ?

写真撮影する場合は、特にゆがみのなきように。
日本語はまだまだうまく読み取れないみたいで、まっすぐでも怪しい日本語になっちゃうから。。
フォントの愛称とかもあるんだろうなぁ~

ご意見やご感想などお聞かせください! コメント機能です。

タイトルとURLをコピーしました