PDF形式の文書をテキスト化する方法:PCとスマホで活用する

アイキャッチ画像

PDF(Portable Document Format)は、Adobe Systemsが開発した文書形式です。文書などを異なるプラットフォームやデバイスで開いても、見た目は変わらない表示が可能です。

その利便性の高さから、ビジネス文書、電子書籍、報告書、マニュアル、プレゼンテーションなど、さまざまな目的で広く使用されています。

当ウェブサイトでも、PDF形式の文書などの作成方法をご紹介していますが、今回は、PDFファイルからテキスト データを抽出して、編集可能なテキスト文書を作成する方法をご紹介いたします。

解説に使用したOSは「Windows 11 Pro 23H2」、スマートフォンは「OPPO Reno3 A Android 11」です。

PDFの概要と文書などのPDF化については、以下の関連記事をご参照ください。

関連記事

作成した書類や雑誌などに掲載されている気になる記事、届いた手紙などをどのように管理しているでしょうか?紙による保管も一つの方法ですが、コンテンツが多くなると保管場所を必要とし、整理するのもおっくうになったりします。そもそも紙は劣化して汚く[…]

アイキャッチ画像
関連記事

PDFは「Portable Document Format」の頭文字をとったもので、アドビシステムによって開発された文書フォーマットです。紙に印刷したときの状態をそのまま電子的に保存できるファイル形式であり、どのような環境でも同じように表[…]

アイキャッチ画像
スポンサーリンク

1 PDFをテキスト化するとは?

公文書の申請書や製品の取扱説明書などは、PDFファイルとして配布されていることが多くなりました。

自分で書類などをスキャンしてPDFとして保存したり、作成したPDFファイルをメールなどに添付することもあるでしょう。

このPDFファイルは、見た目を画像として保存しているだけなので文字情報はなく、このままでは文書などの編集は不可能です。

しかし、OCR(Optical Character Reader/Recognition:光学的文字認識)処理をすれば、画像データの文字などを抽出してテキスト データを作成することが可能です。

具体的には、PDFファイルをWordやExel、PowerPointなどのデータに変換し、編集も手軽に行えるようになります。

本記事では、これらのことをPDFファイルのテキスト化と呼んでいます。

PDFファイルをテキスト化するにあたり、操作手順に利用するためのPDFファイルを準備してください。

上述した関連記事を参照してPDFファイルを作成するか、製品の取扱説明書、公文書などのPDFをダウンロードしましょう。

今回は、製品の取扱説明書をスキャンして作成したPDFファイルを使用しました。

2 PDFファイルをWordでテキスト化する

PDFファイルをWord アプリで開くことで文字認識(OCR)処理が行われ、通常のWord文書と同じように文字列の編集ができます。

  1. Word アプリを起動して、左ペインのタブにある「開く」と、右ペインの「参照」を順番にクリックします。

    WordによるPDFのテキスト化画面


  2. 目的のPDFファイルを選択します。

    ファイルの形式は「すべてのWord文書」のままでよろしいです。

    「開く」をクリックします。

    WordによるPDFのテキスト化画面


  3. 確認画面が表示されたら「OK」ボタンをクリックします。

    WordによるPDFのテキスト化画面


  4. OCR機能により文字が認識され、編集可能はWord文書として開かれます。

    誤認識があるので入念にチェックしてください。

    WordによるPDFのテキスト化画面

3 Google ドライブでテキスト化する

Word アプリがインストールされていなくても、クラウドサービスのGoogle ドライブを使えばテキスト データの抽出は可能です。

Google ドライブに保存したPDFファイルを「Google ドキュメント」で開くだけという簡単な操作で完了です。

  1. テキスト化したいPDFファイルをGoogle ドライブにアップロードします。

    一例として、スマホのGoogleドライブでスキャンした製品の取扱説明書をアップロードしました。

    GoogleドライブによるPDFファイルのテキスト化の画面


  2. アップロードされたPDFファイルを右クリックして「アプリで開く」と「Googleドキュメント」を順番にクリックします。

    GoogleドライブによるPDFファイルのテキスト化の画面


  3. PDFファイルがテキスト化されます。

    GoogleドライブによるPDFファイルのテキスト化の画面


  4. テキスト化されたファイルは、さまざまな形でデータを編集できます。

    一例として、警告の文字を強調して文字色を赤にしました。

    GoogleドライブによるPDFファイルのテキスト化の画面


  5. 編集後は、Word文書やPDFファイルとしてダウンロードしたり印刷なども可能です。

なお、文字中心のモノクロ文書は概ね正確に文字は認識されますが、一部、誤認識されることもあるので確実なチェックが必要です。

4 Microsoft Lensでテキスト化する

出先などでスマホしかないなら、スキャナー アプリを使うことで、スキャンした文書などをテキスト化にできます。

そのアプリ名は「Microsoft Lens」で、MicrosoftのアカウントがあればAndroid、Iphoneともに無料で利用できます。

スマホのカメラで文書などを撮影すると、ゆがみが自動補正される優れものです。以下のリンクからダウンロードしましょう。

Google Play

App Store

  1. インストールしたMicrosoft Lensアプリを起動します。

    初めて使う場合は、アクセス許可や、同意画面、撮影の許可などが表示されますが、表示される画面の指示に従って操作を進めます。

  2. カメラの撮影画面が表示されたら、文書の場合は「ドキュメント」を選択します。

    フレームを書類に合わせて撮影します。

    Microsoft Lensの使い方画面


  3. ゆがみ補正が自動で行われたら、右下の「確認」ボタンをタップします。

    Microsoft Lensの使い方画面


  4. 画面下の「完了」ボタンをタップします。

    Microsoft Lensの使い方画面


  5. 保存先を指定して「保存」ボタンをタップします。(保存先は複数選択可)

    Microsoft Lensの使い方画面


    自動的にマイ スキャンが開き、スキャンしたファイルが表示されます。

    Microsoft Lensの使い方画面


    このファイルをタップすると、編集可能なWord文書として開きます。

    Microsoft Lensの使い方画面


  6. 保存先に「Word(OCR文書)」を選ぶと、自動的に画像内の文字列がテキスト化され、Word文書としてOneDriveのDocumentsに保存されます。

    このファイルをタップすると、word文書として開かれます。

    Microsoft Lensの使い方画面

以上で「PDF形式の文書をテキスト化する方法:PCとスマホで活用する」に関する解説を終わります。

以下の関連記事も合わせてご覧ください。

関連記事

作成した書類や雑誌などに掲載されている気になる記事、届いた手紙などをどのように管理しているでしょうか?紙による保管も一つの方法ですが、コンテンツが多くなると保管場所を必要とし、整理するのもおっくうになったりします。そもそも紙は劣化して汚く[…]

アイキャッチ画像
関連記事

PDFは「Portable Document Format」の頭文字をとったもので、アドビシステムによって開発された文書フォーマットです。紙に印刷したときの状態をそのまま電子的に保存できるファイル形式であり、どのような環境でも同じように表[…]

アイキャッチ画像
スポンサーリンク
アイキャッチ画像
最新情報をチェックしよう!