Batch Printer Logo
blog.category.tutorial

スキャンPDFからテキスト抽出 — 無料オンラインOCR

Batch Printer Team6分で読めます
スキャンPDFからテキスト抽出 — 無料オンラインOCR

スキャンPDFからテキスト抽出 — 無料オンラインOCR

契約書をスキャンしました。領収書をスキャンしました。何年も前の議事録をスキャンしました。結果はPDF — でも使えるPDFではありません。検索できず、コピーできず、どこにもペーストできません。テキストが画像の中に閉じ込められているからです。OCR(光学文字認識)がそれを取り出す技術です。この記事では、ファイルをサーバーにアップロードしない無料ブラウザツールを使った手順をご案内します。

このツールを今すぐ使う

ボタンを押して関連ツールへすぐ移動できます。

PDF OCRが必要なケース

すべてのPDFにOCRが必要なわけではありません。PDFからテキストをハイライトしてコピーできるなら、すでに実際のテキストデータが含まれています — OCRは不要です。しかし、テキスト選択ができない、または「すべて選択」がページ全体を一つの塊として掴む場合、それは画像がPDFに偽装しているのです。よくあるケースはこちらです:

  • スキャンした契約書・法的文書 — 特にFAXや郵送で届いた古いもの
  • 経費報告や確定申告用にスキャンした紙の領収書・請求書
  • 図書館のスキャナで取り込んだ学術論文、特に2010年以前の出版物
  • 窓口でスキャンされた官公庁の書類(出入国、許可証、確定申告書)
  • 手書きの議事録やホワイトボードの写真をPDF化したもの

テキスト抽出の手順:ステップバイステップ

全工程は2分以内で完了します。アカウント作成も、メールも、ソフトウェアのインストールも不要です。

  • 任意のブラウザでbatch-printer.com/tools/pdf/ocrを開きます — Chrome、Safari、Firefox、Edgeいずれも対応。スマートフォンやタブレットでも動作します。
  • スキャンしたPDFをアップロードエリアにドラッグ&ドロップします。OCRエンジンを選択:Standard(PP-OCR、高速、印刷テキスト向き)またはPremium(Florence-2、223MBダウンロード、複雑なレイアウトや混合コンテンツに強い)。
  • 「OCR実行」をクリック。ツールがブラウザ内で書類を処理します。完了後、抽出されたテキストをコピーするか、検索可能なPDFをダウンロードしてください。

複数ページの書類にも対応しています — すべてのページが順番に処理されます。一般的な10ページのスキャン書類なら、Standardエンジンで15〜30秒、Premiumはやや長めです。

スキャンPDFからテキストを今すぐ抽出したいですか?無料OCRツールを開きましょう — 登録不要、サーバーアップロードなし。batch-printer.com/tools/pdf/ocrでお試しください

OCR精度を上げるコツ

OCRの精度は入力品質に大きく左右されます。きれいな300 DPIスキャンのタイプ文書ならほぼ完璧な結果が得られます。くしゃくしゃのレシートのぼやけたスマホ写真ではそうはいきません。最良の結果を得る方法は以下の通りです:

  • 300 DPI以上でスキャンしましょう。200 DPI以下ではカンマやピリオドなどの小さな文字がエンジンにとって曖昧になります。
  • 書類を平らに置き、均一な照明で撮影しましょう。テキスト上の影はOCRエンジンに存在しない文字を認識させます。
  • 書類をまっすぐに揃えましょう。5度の傾きでも精度が10〜15%低下することがあります。特に密集した表で顕著です。
  • 表と段落が混在する書類、テキスト上にスタンプや署名が重なる書類、手書きと印刷が混在する書類にはPremiumエンジン(Florence-2)を使いましょう。
  • 日本語・韓国語・アラビア語・タイ語など非ラテン文字には、多言語データセットで学習されたStandard PP-OCRエンジンの方が高性能な場合が多いです。

Standard vs Premium OCRエンジン

2つのエンジンを提供しているのは、単一のアプローチがすべてに最適ではないからです。それぞれの使い分けをご紹介します:

Standard(PP-OCR):高速・軽量で、あらゆる言語のきれいな印刷文書に優れています。即座にロード。最適な用途:タイプされた契約書、印刷領収書、書籍スキャン、テキストが鮮明な官公庁の書類。18言語に標準対応。

Premium(Florence-2):223MBのAIモデルで、一度ダウンロードするとローカルで実行されます。初期化は遅いですが、ドキュメントレイアウトの理解能力が格段に優れています — 列の終わり、見出しの始まり、画像を回り込むテキストの処理を把握します。最適な用途:表やグラフを含む複雑なレポート、テキスト上にスタンプや署名が重なる書類、脚注や多段レイアウトの学術論文。

両エンジンともブラウザ内で完全に実行されます。どちらも書類をサーバーに送信しません。Premiumモデルは初回ダウンロード後にキャッシュされるため、次回の使用時はより速くロードされます。

プライバシー:クライアントサイドOCRが重要な理由

ほとんどのオンラインOCRツールは、書類をリモートサーバーにアップロードし、そこで処理して、テキストを返す仕組みです。つまり、スキャンした契約書、医療記録、財務書類が他者のインフラを経由するということです。「処理後に削除します」というポリシーがあっても、データは一時的にせよサーバーに存在していたのです。

クライアントサイドOCRはこれを完全に排除します。OCRエンジンはブラウザタブ内で実行されます。PDFがデバイスを離れることはありません — 私たちのサーバーにも、クラウドにも、どこにも。個人情報を含む書類(確定申告書、医療記録、機密条項のある契約書)において、これは「あれば嬉しい機能」ではありません。唯一の責任あるアプローチです。

ご自身で確認できます:ブラウザの開発者ツールのネットワークタブ(F12→Network)を開き、OCRを実行してみてください。書類データを送信する外部リクエストはゼロです。

OCRにできないこと

完璧なOCRツールは存在しません。限界を正直にお伝えすることで時間を節約できます:

  • 著しく損傷した書類 — 水染み、破れた端、インクのにじみは、どのエンジンでも文字を認識できません。
  • 非常に低解像度のスキャン — 150 DPI以下では類似文字の区別ができません(0 vs O、1 vs l、5 vs S)。
  • 複雑な手書き — OCRはきれいなブロック体にはそこそこ機能しますが、筆記体や個性の強い筆跡には苦戦します。
  • 装飾フォントやアート文字 — 招待状、書道入りの証明書、ロゴのアートタイプは確実に認識されません。
  • 数式や化学式 — これらには専門のOCRツールが存在し、汎用OCRは文字化けとして処理します。

これらのエッジケースに該当する書類でも、OCR可能な部分を先に処理し、問題のあるセクションだけ手動で修正するのが最善です。部分的なOCRだけでも相当な再入力時間を節約できます。

テキスト抽出後、結果のPDFを圧縮したり他の書類と結合したいですか?Batch PrinterはOCR・圧縮・結合まで全ワークフローをブラウザで処理します。OCRから始めましょう — batch-printer.com/tools/pdf/ocr

よくある質問

OCRは手書きも認識しますか?部分的に可能です。きれいなブロック体はPremiumエンジンでそこそこ認識できます。つながった筆記体や個性の強い筆跡は、私たちのツールだけでなく、すべてのOCRツールで信頼性が低いです。

対応言語は?Standardエンジンは日本語・英語・韓国語・中国語(簡体字・繁体字)・タイ語・ベトナム語・アラビア語・ヒンディー語・ドイツ語・フランス語・スペイン語・ポルトガル語・イタリア語・オランダ語・ポーランド語・ルーマニア語など18言語をサポートしています。Premiumエンジンは英語と主要な欧州言語に最適化されています。

本当に無料ですか?はい。アカウントも、試用期間も、ページ単位の制限もありません。このツールはデバイスの処理能力を使ってブラウザで実行されるため、サーバーコストがなく、利用者に転嫁する費用もありません。

複数ページの書類もOCRできますか?はい。すべてのページが順番に処理されます。50ページのスキャン書類も対応可能です — ただし比例して時間がかかります。非常に大きな書類(100ページ以上)は、先にPDFを分割してから各パートをOCRすることをお勧めします。

出力形式は?2つのオプションがあります:プレーンテキスト(コピー&ペースト用)と検索可能なPDF。検索可能なPDFは認識されたテキストを元のスキャン画像の上に透明レイヤーとして重ね、見た目を保持しながらCtrl+Fで内容を検索できるようにします。

このツールを今すぐ使う

ボタンを押して関連ツールへすぐ移動できます。

スキャンPDFからテキスト抽出 — 無料オンラインOCR