PDFの文字列を無料でテキスト抽出したい!(Googleドキュメントなら簡単)

PDFで資料もらいました。
URLのリンクが書かれていますがクリックできません。。

Blog Admin
Blog Admin

Googleを使っているなら、ドキュメントPDFのOCR機能がありますよ。

PDFからテキスト抽出

Googleドライブをパソコンでも使われている方には、PDFからの文字列抽出に、Googleドキュメントを活用されることをおすすめします。
これだけでピンとくる方は、そのまま作業をすすめていただいて。

詳しいやり方を書き残しておきます。
今回実施した内容の備忘録です。
特に、アプリのインストールなどはありません。無料サービスを使うので、お金もかかりません。

PDFからの文字列抽出

PDFからテキストデータを取り出すのは、案外難しいものです。
そもそも、簡単に改ざんできないようになっていることに意味があるわけですから。

ただ、URLやメールアドレスなどの、間違えると困るのに入力が面倒なものまでデータでいただけないとなると、ちょっと心が折れそうになりますよね。

キーボード

以下の手順でテキストデータとして文字列を抽出します。

  1. PDFから画像切り出し
  2. JPEG画像をGoogleドライブに保存
  3. 保存した画像をドキュメントで開く

若干乱暴に書いていきます。
ご不明部分はご指摘ください。

手順1: PDFから画像切り出し

Adobe Acrobat Reader DC を使います。無料アプリですね。
その他、PDFが表示できれば何でも構わない考え方です。
ここでは上記のアプリ前提で操作を書いておきます。

PDF

何かしらの方法で画像を切り出します。
たとえば、「クリックしてスナップショットの領域を選択」(カメラマークのアイコン)や「テキストと画像の選択ツール」(矢印マークのアイコン)などで範囲指定した部分をクリップボードに書き出します。
ほかには、画面コピーの取得でもよいと思います。

手順2: JPEG画像をGoogleドライブに保存

クリップボードに書き出した画像データは、「ペイント」アプリなどを使ってJPEGなどの画像ファイルにします。

「ペイント」はWindowsに付属している無料アプリです。
アプリ一覧を検索すると出てきます。
画像貼り付けの時に状態が分からなければ、Windows + V を試してみてください。クリップボードに入っている画像も確認できます。

GoogleドライブはWeb版を使いますので、ChromeかEdgeでドライブに行き、好きなフォルダーにアップロードしてください。

手順3: 保存した画像をドキュメントで開く

検索

GoogleドライブのWeb版で画像が表示されている状態だと思います。
ブラウザーはChromeかEdgeで。

右クリックすると、「アプリで開く」から「Google ドキュメント」と選択できます。

Googleドキュメントで文字列のJPEGファイルを開くと、テキストが抽出された状態になっていますね。
あとは上手に料理してください。

以上です。

念のために目視確認を

テキストからPDFにされたものは、そこまで大きな間違いに繋がらないとおもうのですが。
一応というか、念のためというか、万が一に備えてというか、目視確認しておきましょう。

COOL JAPAN

今回はファイルストレージサービスのURLだったということで、確認はめんどうだったようですw
ただ、キーボードで打ち込むよりかはよかったでしょう。
意味のないアルファベットを打ちまくるのは、けっこう辛いですよね。

間違えていたときの影響度合いなdも勘案しつつ、よい具合にチェックしてみてください。

ご意見やご感想などお聞かせください! コメント機能です。

タイトルとURLをコピーしました