Batch Printer Logo
blog.category.tutorial

스캔 PDF에서 텍스트 추출하는 법 — 무료 온라인 OCR

Batch Printer Team6분 읽기
스캔 PDF에서 텍스트 추출하는 법 — 무료 온라인 OCR

스캔 PDF에서 텍스트 추출하는 법 — 무료 온라인 OCR

계약서를 스캔했습니다. 영수증을 스캔했습니다. 몇 년 전 회의록을 스캔했습니다. 결과물은 PDF인데, 쓸모있는 종류가 아닙니다. 검색도 안 되고, 복사도 안 되고, 어디에 붙여넣을 수도 없습니다. 텍스트가 이미지 안에 갇혀 있으니까요. OCR(광학 문자 인식)이 그걸 꺼내는 기술입니다. 이 글에서는 파일을 서버에 업로드하지 않는 무료 브라우저 도구로 그 과정을 안내합니다.

이 도구 바로 사용하기

지금 버튼을 눌러 관련 도구로 바로 이동하세요.

PDF OCR이 필요한 경우

모든 PDF에 OCR이 필요한 건 아닙니다. PDF에서 텍스트를 드래그해서 복사할 수 있다면 이미 실제 텍스트 데이터가 들어있는 겁니다 — OCR은 필요 없습니다. 하지만 텍스트 선택이 안 되거나 "전체 선택"이 페이지 전체를 하나의 덩어리로 잡는다면, 이미지가 PDF로 위장한 겁니다. 흔한 경우는 이렇습니다:

  • 스캔한 계약서와 법률 문서 — 특히 팩스나 우편으로 받은 오래된 것들
  • 경비 보고서나 세금 신고용으로 스캔한 종이 영수증과 청구서
  • 도서관 스캐너로 스캔한 학술 논문, 특히 2010년 이전 출판물
  • 관공서에서 스캔한 정부 서류 (출입국, 허가서, 세금 신고서)
  • 수기 회의록이나 화이트보드 사진을 PDF로 저장한 것

텍스트 추출 방법: 단계별 안내

전체 과정은 2분이면 충분합니다. 계정 생성도, 이메일도, 소프트웨어 설치도 필요 없습니다.

  • 아무 브라우저에서 batch-printer.com/tools/pdf/ocr을 열어주세요 — 크롬, 사파리, 파이어폭스, 엣지 모두 됩니다. 스마트폰이나 태블릿에서도 작동합니다.
  • 스캔한 PDF를 업로드 영역에 끌어다 놓으세요. OCR 엔진을 선택합니다: Standard(PP-OCR, 빠름, 인쇄된 텍스트에 적합) 또는 Premium(Florence-2, 223MB 다운로드, 복잡한 레이아웃과 혼합 콘텐츠에 강함).
  • "OCR 실행"을 클릭하세요. 도구가 브라우저 안에서 문서를 처리합니다. 완료되면 추출된 텍스트를 복사하거나 검색 가능한 PDF를 다운로드하세요.

여러 페이지 문서도 됩니다 — 모든 페이지가 순서대로 처리됩니다. 일반적인 10페이지 스캔 문서의 경우 Standard 엔진으로 15~30초, Premium은 조금 더 걸립니다.

스캔 PDF에서 지금 바로 텍스트를 추출해야 하나요? 무료 OCR 도구를 열어보세요 — 회원가입 없음, 서버 업로드 없음. batch-printer.com/tools/pdf/ocr에서 사용하기

OCR 결과를 높이는 팁

OCR 정확도는 입력 품질에 크게 좌우됩니다. 깨끗한 300 DPI 스캔 문서는 거의 완벽한 결과를 돌려줍니다. 구겨진 영수증의 흐릿한 폰 사진은 그렇지 않습니다. 최선의 결과를 얻는 방법은 다음과 같습니다:

  • 300 DPI 이상으로 스캔하세요. 200 DPI 이하에서는 쉼표나 마침표 같은 작은 문자가 엔진에게 모호해집니다.
  • 문서를 평평하게 놓고 조명을 고르게 하세요. 텍스트 위의 그림자는 OCR 엔진이 없는 문자를 인식하게 만듭니다.
  • 문서를 똑바로 정렬하세요. 5도만 기울어져도 정확도가 10~15% 떨어질 수 있습니다. 특히 빽빽한 표에서 그렇습니다.
  • 표와 문단이 섞인 문서, 도장이 텍스트 위에 찍힌 문서, 수기와 인쇄가 혼합된 문서에는 Premium 엔진(Florence-2)을 사용하세요.
  • 한국어, 일본어, 아랍어, 태국어 등 비라틴 문자에는 다국어 데이터셋으로 학습된 Standard PP-OCR 엔진이 더 좋은 성능을 보이는 경우가 많습니다.

Standard vs Premium OCR 엔진

이 도구가 두 가지 엔진을 제공하는 이유는 하나의 방식이 모든 경우에 최적이 아니기 때문입니다. 각각 언제 사용할지 알려드립니다:

Standard (PP-OCR): 빠르고 가볍습니다. 모든 언어의 깨끗한 인쇄 문서에 탁월합니다. 즉시 로드됩니다. 적합한 경우: 타이핑된 계약서, 인쇄 영수증, 책 스캔, 텍스트가 선명한 정부 서류. 18개 언어를 기본 지원합니다.

Premium (Florence-2): 223MB AI 모델로, 한 번 다운로드하면 로컬에서 실행됩니다. 초기화는 느리지만 문서 레이아웃 이해 능력이 훨씬 뛰어납니다 — 열이 어디서 끝나는지, 제목이 어디서 시작하는지, 이미지를 감싸는 텍스트를 어떻게 처리할지 파악합니다. 적합한 경우: 표와 차트가 있는 복잡한 보고서, 도장이나 서명이 텍스트 위에 겹친 문서, 각주와 다단 레이아웃의 학술 논문.

두 엔진 모두 브라우저 안에서 완전히 실행됩니다. 어느 쪽도 문서를 서버로 전송하지 않습니다. Premium 모델은 첫 다운로드 후 캐시되므로 다음 사용 시 더 빨리 로드됩니다.

프라이버시: 클라이언트 사이드 OCR이 중요한 이유

대부분의 온라인 OCR 도구는 문서를 원격 서버에 업로드하고, 거기서 처리한 뒤, 텍스트를 다시 보내주는 방식입니다. 스캔한 계약서, 의료 기록, 재무 서류가 다른 사람의 인프라를 거쳐간다는 뜻입니다. "처리 후 삭제합니다"라는 정책이 있어도 여러분의 데이터는 이미 그들의 서버에 있었던 겁니다.

클라이언트 사이드 OCR은 이걸 완전히 없앱니다. OCR 엔진이 브라우저 탭 안에서 실행됩니다. PDF가 여러분의 기기를 떠나지 않습니다 — 우리 서버로도, 어떤 클라우드로도, 어디로도. 개인정보가 담긴 문서(세금 신고서, 의료 기록, 기밀 조항이 있는 계약서)에 이것은 있으면 좋은 기능이 아닙니다. 유일하게 책임있는 접근 방식입니다.

직접 확인할 수 있습니다: 브라우저의 네트워크 탭(F12 → Network)을 열고 OCR을 실행해 보세요. 문서 데이터를 전송하는 외부 요청이 단 하나도 없습니다.

OCR이 못하는 것

어떤 OCR 도구도 완벽하지 않습니다. 한계를 솔직히 알려드리면 시간을 아낄 수 있습니다:

  • 심하게 손상된 문서 — 물얼룩, 찢어진 가장자리, 잉크 번짐은 어떤 엔진으로도 문자를 인식할 수 없습니다.
  • 매우 낮은 해상도 스캔 — 150 DPI 이하에서는 비슷한 문자를 구분하지 못합니다 (0 vs O, 1 vs l, 5 vs S).
  • 복잡한 필기체 — OCR은 깔끔한 정자체에는 적당히 작동하지만 흘림체나 개성 강한 필체에는 어려움을 겪습니다.
  • 장식 서체와 예술적 텍스트 — 청첩장, 서예가 들어간 증명서, 로고의 아트 타입은 안정적으로 인식되지 않습니다.
  • 수학 공식과 화학식 — 이들을 위한 전문 OCR 도구가 따로 있으며, 범용 OCR은 이를 깨진 텍스트로 처리합니다.

이런 어려운 경우에도 OCR 가능한 부분은 먼저 처리하고, 문제가 되는 부분만 수동으로 수정하는 게 최선입니다. 부분적인 OCR만으로도 상당한 재입력 시간을 절약할 수 있습니다.

텍스트를 추출한 후 결과 PDF를 압축하거나 다른 문서와 합치고 싶으신가요? Batch Printer는 OCR, 압축, 합치기까지 전체 워크플로우를 브라우저에서 처리합니다. OCR부터 시작하세요 — batch-printer.com/tools/pdf/ocr

자주 묻는 질문

OCR이 손글씨도 인식하나요? 부분적으로 가능합니다. 깔끔한 정자체(블록 레터)는 Premium 엔진으로 적당히 잘 됩니다. 이어진 흘림체나 강하게 개성적인 필체는 우리 도구뿐 아니라 모든 OCR 도구에서 신뢰하기 어렵습니다.

어떤 언어를 지원하나요? Standard 엔진은 한국어, 영어, 일본어, 중국어(간체/번체), 태국어, 베트남어, 아랍어, 힌디어, 독일어, 프랑스어, 스페인어, 포르투갈어, 이탈리아어, 네덜란드어, 폴란드어, 루마니아어 등 18개 언어를 지원합니다. Premium 엔진은 영어와 주요 유럽 언어에 최적화되어 있습니다.

정말 무료인가요? 네. 계정도, 체험 기간도, 페이지당 제한도 없습니다. 이 도구는 여러분 기기의 처리 능력을 사용해 브라우저에서 실행되므로 서버 비용이 없고, 따라서 여러분에게 전가할 비용도 없습니다.

여러 페이지 문서도 OCR 할 수 있나요? 네. 모든 페이지가 순서대로 처리됩니다. 50페이지 스캔 문서도 됩니다 — 다만 비례해서 더 오래 걸립니다. 아주 큰 문서(100페이지 이상)는 PDF를 먼저 분할한 뒤 각 부분을 OCR하는 것을 권장합니다.

어떤 출력 형식을 제공하나요? 두 가지 옵션이 있습니다: 일반 텍스트(복사-붙여넣기 가능)와 검색 가능한 PDF입니다. 검색 가능한 PDF는 인식된 텍스트를 원본 스캔 위에 보이지 않게 겹쳐서, 시각적 외관을 유지하면서 Ctrl+F로 내용을 찾을 수 있게 합니다.

이 도구 바로 사용하기

지금 버튼을 눌러 관련 도구로 바로 이동하세요.

스캔 PDF에서 텍스트 추출하는 법 — 무료 온라인 OCR