스캔 PDF에서 텍스트 추출하는 법 — 무료 온라인 OCR
계약서를 스캔했습니다. 영수증을 스캔했습니다. 몇 년 전 회의록을 스캔했습니다. 결과물은 PDF인데, 쓸모있는 종류가 아닙니다. 검색도 안 되고, 복사도 안 되고, 어디에 붙여넣을 수도 없습니다. 텍스트가 이미지 안에 갇혀 있으니까요. OCR(광학 문자 인식)이 그걸 꺼내는 기술입니다. 이 글에서는 파일을 서버에 업로드하지 않는 무료 브라우저 도구로 그 과정을 안내합니다.

계약서를 스캔했습니다. 영수증을 스캔했습니다. 몇 년 전 회의록을 스캔했습니다. 결과물은 PDF인데, 쓸모있는 종류가 아닙니다. 검색도 안 되고, 복사도 안 되고, 어디에 붙여넣을 수도 없습니다. 텍스트가 이미지 안에 갇혀 있으니까요. OCR(광학 문자 인식)이 그걸 꺼내는 기술입니다. 이 글에서는 파일을 서버에 업로드하지 않는 무료 브라우저 도구로 그 과정을 안내합니다.
모든 PDF에 OCR이 필요한 건 아닙니다. PDF에서 텍스트를 드래그해서 복사할 수 있다면 이미 실제 텍스트 데이터가 들어있는 겁니다 — OCR은 필요 없습니다. 하지만 텍스트 선택이 안 되거나 "전체 선택"이 페이지 전체를 하나의 덩어리로 잡는다면, 이미지가 PDF로 위장한 겁니다. 흔한 경우는 이렇습니다:
전체 과정은 2분이면 충분합니다. 계정 생성도, 이메일도, 소프트웨어 설치도 필요 없습니다.
여러 페이지 문서도 됩니다 — 모든 페이지가 순서대로 처리됩니다. 일반적인 10페이지 스캔 문서의 경우 Standard 엔진으로 15~30초, Premium은 조금 더 걸립니다.
OCR 정확도는 입력 품질에 크게 좌우됩니다. 깨끗한 300 DPI 스캔 문서는 거의 완벽한 결과를 돌려줍니다. 구겨진 영수증의 흐릿한 폰 사진은 그렇지 않습니다. 최선의 결과를 얻는 방법은 다음과 같습니다:
이 도구가 두 가지 엔진을 제공하는 이유는 하나의 방식이 모든 경우에 최적이 아니기 때문입니다. 각각 언제 사용할지 알려드립니다:
Standard (PP-OCR): 빠르고 가볍습니다. 모든 언어의 깨끗한 인쇄 문서에 탁월합니다. 즉시 로드됩니다. 적합한 경우: 타이핑된 계약서, 인쇄 영수증, 책 스캔, 텍스트가 선명한 정부 서류. 18개 언어를 기본 지원합니다.
Premium (Florence-2): 223MB AI 모델로, 한 번 다운로드하면 로컬에서 실행됩니다. 초기화는 느리지만 문서 레이아웃 이해 능력이 훨씬 뛰어납니다 — 열이 어디서 끝나는지, 제목이 어디서 시작하는지, 이미지를 감싸는 텍스트를 어떻게 처리할지 파악합니다. 적합한 경우: 표와 차트가 있는 복잡한 보고서, 도장이나 서명이 텍스트 위에 겹친 문서, 각주와 다단 레이아웃의 학술 논문.
두 엔진 모두 브라우저 안에서 완전히 실행됩니다. 어느 쪽도 문서를 서버로 전송하지 않습니다. Premium 모델은 첫 다운로드 후 캐시되므로 다음 사용 시 더 빨리 로드됩니다.
대부분의 온라인 OCR 도구는 문서를 원격 서버에 업로드하고, 거기서 처리한 뒤, 텍스트를 다시 보내주는 방식입니다. 스캔한 계약서, 의료 기록, 재무 서류가 다른 사람의 인프라를 거쳐간다는 뜻입니다. "처리 후 삭제합니다"라는 정책이 있어도 여러분의 데이터는 이미 그들의 서버에 있었던 겁니다.
클라이언트 사이드 OCR은 이걸 완전히 없앱니다. OCR 엔진이 브라우저 탭 안에서 실행됩니다. PDF가 여러분의 기기를 떠나지 않습니다 — 우리 서버로도, 어떤 클라우드로도, 어디로도. 개인정보가 담긴 문서(세금 신고서, 의료 기록, 기밀 조항이 있는 계약서)에 이것은 있으면 좋은 기능이 아닙니다. 유일하게 책임있는 접근 방식입니다.
직접 확인할 수 있습니다: 브라우저의 네트워크 탭(F12 → Network)을 열고 OCR을 실행해 보세요. 문서 데이터를 전송하는 외부 요청이 단 하나도 없습니다.
어떤 OCR 도구도 완벽하지 않습니다. 한계를 솔직히 알려드리면 시간을 아낄 수 있습니다:
이런 어려운 경우에도 OCR 가능한 부분은 먼저 처리하고, 문제가 되는 부분만 수동으로 수정하는 게 최선입니다. 부분적인 OCR만으로도 상당한 재입력 시간을 절약할 수 있습니다.
OCR이 손글씨도 인식하나요? 부분적으로 가능합니다. 깔끔한 정자체(블록 레터)는 Premium 엔진으로 적당히 잘 됩니다. 이어진 흘림체나 강하게 개성적인 필체는 우리 도구뿐 아니라 모든 OCR 도구에서 신뢰하기 어렵습니다.
어떤 언어를 지원하나요? Standard 엔진은 한국어, 영어, 일본어, 중국어(간체/번체), 태국어, 베트남어, 아랍어, 힌디어, 독일어, 프랑스어, 스페인어, 포르투갈어, 이탈리아어, 네덜란드어, 폴란드어, 루마니아어 등 18개 언어를 지원합니다. Premium 엔진은 영어와 주요 유럽 언어에 최적화되어 있습니다.
정말 무료인가요? 네. 계정도, 체험 기간도, 페이지당 제한도 없습니다. 이 도구는 여러분 기기의 처리 능력을 사용해 브라우저에서 실행되므로 서버 비용이 없고, 따라서 여러분에게 전가할 비용도 없습니다.
여러 페이지 문서도 OCR 할 수 있나요? 네. 모든 페이지가 순서대로 처리됩니다. 50페이지 스캔 문서도 됩니다 — 다만 비례해서 더 오래 걸립니다. 아주 큰 문서(100페이지 이상)는 PDF를 먼저 분할한 뒤 각 부분을 OCR하는 것을 권장합니다.
어떤 출력 형식을 제공하나요? 두 가지 옵션이 있습니다: 일반 텍스트(복사-붙여넣기 가능)와 검색 가능한 PDF입니다. 검색 가능한 PDF는 인식된 텍스트를 원본 스캔 위에 보이지 않게 겹쳐서, 시각적 외관을 유지하면서 Ctrl+F로 내용을 찾을 수 있게 합니다.