PDF形式の文書をテキスト化する方法:PCとスマホで活用する

PDF(Portable Document Format)は、Adobe Systemsが開発した文書形式です。文書などを異なるプラットフォームやデバイスで開いても、見た目は変わらない表示が可能です。

その利便性の高さから、ビジネス文書、電子書籍、報告書、マニュアル、プレゼンテーションなど、さまざまな目的で広く使用されています。

当ウェブサイトでも、PDF形式の文書などの作成方法をご紹介していますが、今回は、PDFファイルからテキスト データを抽出して、編集可能なテキスト文書を作成する方法をご紹介いたします。

解説に使用したOSは「Windows 11 Pro 23H2」、スマートフォンは「OPPO Reno3 A Android 11」です。

PDFの概要と文書などのPDF化については、以下の関連記事をご参照ください。

関連記事

作成した書類や雑誌などに掲載されている気になる記事、届いた手紙などをどのように管理しているでしょうか?紙による保管も一つの方法ですが、コンテンツが多くなると保管場所を必要とし、整理するのもおっくうになったりします。そもそも紙は劣化して汚く[…]

関連記事

更新履歴2024年10月28日:見出し2の記述内容を修正2024年10月20日:見出し3-2の記述内容を補備修正 PDF (Portable Document Format) は、Adobe社が開発した文書を表示するためのファイル形[…]

スポンサーリンク

1 PDFをテキスト化するとは?

公文書の申請書や製品の取扱説明書などは、PDFファイルとして配布されていることが多くなりました。

自分で書類などをスキャンしてPDFとして保存したり、作成したPDFファイルをメールなどに添付することもあるでしょう。

このPDFファイルは、見た目を画像として保存しているだけなので文字情報はなく、このままでは文書などの編集は不可能です。

しかし、OCR(Optical Character Reader/Recognition:光学的文字認識)処理をすれば、画像データの文字などを抽出してテキスト データを作成することが可能です。

具体的には、PDFファイルをWordやExel、PowerPointなどのデータに変換し、編集も手軽に行えるようになります。

本記事では、これらのことをPDFファイルのテキスト化と呼んでいます。

PDFファイルをテキスト化するにあたり、操作手順に利用するためのPDFファイルを準備してください。

上述した関連記事を参照してPDFファイルを作成するか、製品の取扱説明書、公文書などのPDFをダウンロードしましょう。

今回は、製品の取扱説明書をスキャンして作成したPDFファイルを使用しました。

2 PDFファイルをWordでテキスト化する

PDFファイルをWord アプリで開くことで文字認識(OCR)処理が行われ、通常のWord文書と同じように文字列の編集ができます。

  1. Word アプリを起動して、左ペインのタブにある「開く」と、右ペインの「参照」を順番にクリックします。




  2. 目的のPDFファイルを選択します。

    ファイルの形式は「すべてのWord文書」のままでよろしいです。

    「開く」をクリックします。




  3. 確認画面が表示されたら「OK」ボタンをクリックします。




  4. OCR機能により文字が認識され、編集可能はWord文書として開かれます。

    誤認識があるので入念にチェックしてください。

3 Google ドライブでテキスト化する

Word アプリがインストールされていなくても、クラウドサービスのGoogle ドライブを使えばテキスト データの抽出は可能です。

Google ドライブに保存したPDFファイルを「Google ドキュメント」で開くだけという簡単な操作で完了です。

  1. テキスト化したいPDFファイルをGoogle ドライブにアップロードします。

    一例として、スマホのGoogleドライブでスキャンした製品の取扱説明書をアップロードしました。




  2. アップロードされたPDFファイルを右クリックして「アプリで開く」と「Googleドキュメント」を順番にクリックします。




  3. PDFファイルがテキスト化されます。




  4. テキスト化されたファイルは、さまざまな形でデータを編集できます。

    一例として、警告の文字を強調して文字色を赤にしました。




  5. 編集後は、Word文書やPDFファイルとしてダウンロードしたり印刷なども可能です。

なお、文字中心のモノクロ文書は概ね正確に文字は認識されますが、一部、誤認識されることもあるので確実なチェックが必要です。

4 Microsoft Lensでテキスト化する

出先などでスマホしかないなら、スキャナー アプリを使うことで、スキャンした文書などをテキスト化にできます。

そのアプリ名は「Microsoft Lens」で、MicrosoftのアカウントがあればAndroid、Iphoneともに無料で利用できます。

スマホのカメラで文書などを撮影すると、ゆがみが自動補正される優れものです。以下のリンクからダウンロードしましょう。

Google Play

App Store

  1. インストールしたMicrosoft Lensアプリを起動します。

    初めて使う場合は、アクセス許可や、同意画面、撮影の許可などが表示されますが、表示される画面の指示に従って操作を進めます。

  2. カメラの撮影画面が表示されたら、文書の場合は「ドキュメント」を選択します。

    フレームを書類に合わせて撮影します。




  3. ゆがみ補正が自動で行われたら、右下の「確認」ボタンをタップします。




  4. 画面下の「完了」ボタンをタップします。




  5. 保存先を指定して「保存」ボタンをタップします。(保存先は複数選択可)




    自動的にマイ スキャンが開き、スキャンしたファイルが表示されます。




    このファイルをタップすると、編集可能なWord文書として開きます。




  6. 保存先に「Word(OCR文書)」を選ぶと、自動的に画像内の文字列がテキスト化され、Word文書としてOneDriveのDocumentsに保存されます。

    このファイルをタップすると、word文書として開かれます。

以上で「PDF形式の文書をテキスト化する方法:PCとスマホで活用する」に関する解説を終わります。

以下の関連記事も合わせてご覧ください。

関連記事

作成した書類や雑誌などに掲載されている気になる記事、届いた手紙などをどのように管理しているでしょうか?紙による保管も一つの方法ですが、コンテンツが多くなると保管場所を必要とし、整理するのもおっくうになったりします。そもそも紙は劣化して汚く[…]

関連記事

更新履歴2024年10月28日:見出し2の記述内容を修正2024年10月20日:見出し3-2の記述内容を補備修正 PDF (Portable Document Format) は、Adobe社が開発した文書を表示するためのファイル形[…]

広告
最新情報をチェックしよう!