从扫描PDF中提取文字 — 免费在线OCR工具
你扫描了一份合同、一张收据或一叠多年前的会议记录。结果是一个PDF——但不是有用的那种。你无法搜索、无法复制、无法粘贴到任何地方。文字被锁在图片里了。OCR(光学字符识别)就是把它们释放出来的技术。本文将指导你使用一个免费的浏览器工具完成整个过程,而且文件永远不会被上传到任何服务器。

你扫描了一份合同、一张收据或一叠多年前的会议记录。结果是一个PDF——但不是有用的那种。你无法搜索、无法复制、无法粘贴到任何地方。文字被锁在图片里了。OCR(光学字符识别)就是把它们释放出来的技术。本文将指导你使用一个免费的浏览器工具完成整个过程,而且文件永远不会被上传到任何服务器。
不是每个PDF都需要OCR。如果你能在PDF中选中并复制文字,说明它已经包含真实的文本数据——不需要OCR。但如果选择文字没有反应,或者"全选"把整页当作一个块来抓取,那你看到的是一个伪装成PDF的扫描图片。常见的情况包括:
整个过程不到两分钟。不需要创建账户,不需要邮箱,不需要安装软件。
多页文档同样支持——每一页按顺序处理。一份典型的10页扫描文档,Standard引擎大约需要15到30秒,Premium稍长一些。
OCR准确率在很大程度上取决于输入质量。干净的300 DPI打字文档扫描件几乎能获得完美结果。皱巴巴收据的模糊手机照片则不行。以下是获得最佳结果的方法:
我们提供两个引擎,因为没有任何单一方法对所有情况都最优。以下是各自的适用场景:
Standard(PP-OCR):快速、轻量,对任何语言的清晰印刷文档表现出色。即时加载。适合:打字的合同、印刷收据、书籍扫描、文字清晰的政府文件。开箱支持18种语言。
Premium(Florence-2):一个223MB的AI模型,下载一次后在本地运行。初始化较慢但文档版面理解能力显著更强——它知道列在哪里结束、标题在哪里开始、以及如何处理环绕图片的文字。适合:包含表格和图表的复杂报告、印章或签名覆盖文字的文档、有脚注和多栏排版的学术论文。
两个引擎都完全在浏览器中运行。都不会将你的文档发送到任何服务器。Premium模型在首次下载后会被缓存,后续使用加载更快。
大多数在线OCR工具的工作方式是将你的文档上传到远程服务器,在那里处理,然后把文字发回来。这意味着你扫描的合同、医疗记录或财务报表要经过别人的基础设施。即使有"处理后删除"的政策,你的数据也已经在他们的服务器上存在过了。
客户端OCR完全消除了这个问题。OCR引擎在你的浏览器标签页中运行。你的PDF永远不会离开你的设备——不会到我们的服务器,不会到任何云端,哪里都不会去。对于包含个人数据的文档(纳税申报表、医疗记录、含有保密条款的合同),这不是一个"有更好"的功能,而是唯一负责任的做法。
你可以自己验证:打开浏览器的网络标签页(F12→Network),运行一次OCR,然后观察。不会有任何携带文档数据的外部请求。
没有完美的OCR工具。坦诚地告诉你局限性可以帮你节省时间:
对于这些边缘情况,最好的做法是先OCR能处理的部分,再手动修正有问题的段落。即使是部分OCR也能节省大量重新输入的时间。
OCR能识别手写文字吗?部分可以。工整的正楷(印刷体手写)用Premium引擎效果还不错。连笔草书或极具个人风格的笔迹,不仅我们的工具,所有OCR工具都难以可靠识别。
支持哪些语言?Standard引擎支持18种语言,包括中文(简体和繁体)、英语、日语、韩语、泰语、越南语、阿拉伯语、印地语、德语、法语、西班牙语、葡萄牙语、意大利语、荷兰语、波兰语、罗马尼亚语等。Premium引擎针对英语和主要欧洲语言进行了优化。
真的免费吗?是的。没有账户要求,没有试用期,没有按页收费。这个工具利用你设备的处理能力在浏览器中运行,没有服务器成本,因此也没有需要转嫁给你的费用。
能OCR多页文档吗?可以。每一页按顺序处理。50页的扫描文档也能处理——只是按比例需要更长时间。对于非常大的文档(100页以上),建议先拆分PDF,再分别OCR每个部分。
有哪些输出格式?两个选项:纯文本(可直接复制粘贴)和可搜索PDF。可搜索PDF将识别出的文字作为透明图层覆盖在原始扫描图像上,保留视觉外观的同时可以用Ctrl+F搜索内容。