Batch Printer Logo
blog.category.tutorial

ดึงข้อความจาก PDF สแกน — OCR ออนไลน์ฟรี

Batch Printer Teamอ่าน 6 นาที
ดึงข้อความจาก PDF สแกน — OCR ออนไลน์ฟรี

ดึงข้อความจาก PDF สแกน — OCR ออนไลน์ฟรี

คุณสแกนสัญญา ใบเสร็จ หรือบันทึกการประชุมเก่าๆ ได้ PDF มา แต่ไม่ใช่แบบที่ใช้งานได้จริง ค้นหาไม่ได้ คัดลอกไม่ได้ วางที่ไหนก็ไม่ได้ เพราะข้อความถูกขังอยู่ในรูปภาพ OCR (Optical Character Recognition) คือเทคโนโลยีที่ปลดปล่อยมันออกมา บทความนี้จะพาคุณผ่านขั้นตอนทั้งหมดด้วยเครื่องมือฟรีบนเบราว์เซอร์ที่ไม่เคยอัปโหลดไฟล์ของคุณไปยังเซิร์ฟเวอร์ใดๆ

เริ่มใช้เครื่องมือทันที

กดปุ่มเพื่อไปยังหน้าเครื่องมือที่เกี่ยวข้องได้ทันที

เมื่อไหร่ที่ต้องใช้ PDF OCR

ไม่ใช่ทุก PDF ที่ต้องการ OCR ถ้าคุณไฮไลท์และคัดลอกข้อความจาก PDF ได้ แสดงว่ามีข้อมูลข้อความจริงอยู่แล้ว แต่ถ้าเลือกข้อความไม่ได้ หรือ "เลือกทั้งหมด" จับทั้งหน้าเป็นก้อนเดียว นั่นคือรูปภาพที่ปลอมตัวเป็น PDF กรณีที่พบบ่อย:

  • สัญญาและเอกสารกฎหมายที่สแกน โดยเฉพาะเอกสารเก่าที่ส่งทางแฟกซ์หรือไปรษณีย์
  • ใบเสร็จและใบแจ้งหนี้กระดาษที่สแกนเพื่อเบิกค่าใช้จ่ายหรือยื่นภาษี
  • บทความวิชาการจากเครื่องสแกนห้องสมุด โดยเฉพาะสิ่งพิมพ์ก่อนปี 2010
  • เอกสารราชการที่สแกนที่เคาน์เตอร์บริการ (ตม. ใบอนุญาต แบบแสดงรายการภาษี)
  • บันทึกการประชุมลายมือหรือภาพถ่ายไวท์บอร์ดที่บันทึกเป็น PDF

วิธีดึงข้อความ: ทีละขั้นตอน

ทั้งหมดใช้เวลาไม่ถึง 2 นาที ไม่ต้องสร้างบัญชี ไม่ต้องใช้อีเมล ไม่ต้องติดตั้งซอฟต์แวร์

  • เปิด batch-printer.com/tools/pdf/ocr ในเบราว์เซอร์ใดก็ได้ — Chrome, Safari, Firefox หรือ Edge ใช้ได้ทั้งมือถือและแท็บเล็ต
  • ลาก PDF สแกนมาวางที่พื้นที่อัปโหลด เลือกเอนจิน OCR: Standard (PP-OCR เร็ว เหมาะกับข้อความพิมพ์) หรือ Premium (Florence-2 ดาวน์โหลด 223MB เก่งเรื่องเลย์เอาต์ซับซ้อน)
  • คลิก "เรียกใช้ OCR" เครื่องมือประมวลผลในเบราว์เซอร์ เสร็จแล้วคัดลอกข้อความหรือดาวน์โหลด PDF ที่ค้นหาได้

เอกสารหลายหน้าก็ใช้ได้ ทุกหน้าจะถูกประมวลผลตามลำดับ เอกสารสแกน 10 หน้าทั่วไปใช้เวลาประมาณ 15-30 วินาทีกับ Standard และนานกว่าเล็กน้อยกับ Premium

ต้องการดึงข้อความจาก PDF สแกนตอนนี้เลย? เปิดเครื่องมือ OCR ฟรี — ไม่ต้องสมัคร ไม่อัปโหลดไปเซิร์ฟเวอร์ ลองที่ batch-printer.com/tools/pdf/ocr

เคล็ดลับให้ OCR แม่นยำขึ้น

ความแม่นยำของ OCR ขึ้นอยู่กับคุณภาพอินพุตเป็นหลัก สแกน 300 DPI ที่สะอาดของเอกสารพิมพ์จะให้ผลลัพธ์เกือบสมบูรณ์แบบ ภาพถ่ายมือถือเบลอๆ ของใบเสร็จยับๆ จะไม่ดีเท่า วิธีให้ได้ผลลัพธ์ดีที่สุด:

  • สแกนที่ 300 DPI ขึ้นไป ต่ำกว่า 200 DPI ตัวอักษรเล็กๆ อย่างจุลภาคและมหัพภาคจะคลุมเครือสำหรับเอนจิน
  • วางเอกสารให้แบนและมีแสงสม่ำเสมอ เงาบนข้อความทำให้เอนจินเห็นตัวอักษรที่ไม่มีอยู่จริง
  • จัดเอกสารให้ตรง เอียงแค่ 5 องศาก็ลดความแม่นยำ 10-15% ได้ โดยเฉพาะตารางที่แน่นๆ
  • เอกสารที่มีตารางปนย่อหน้า ตราประทับทับข้อความ หรือลายมือปนตัวพิมพ์ ใช้ Premium (Florence-2)
  • ตัวอักษรที่ไม่ใช่ละติน เช่น ไทย ญี่ปุ่น เกาหลี อาหรับ Standard PP-OCR มักทำได้ดีกว่าเพราะฝึกกับชุดข้อมูลหลายภาษา

เอนจิน Standard กับ Premium

เรามี 2 เอนจินเพราะไม่มีวิธีเดียวที่ดีที่สุดสำหรับทุกกรณี Standard (PP-OCR) เร็ว เบา เหมาะกับเอกสารพิมพ์สะอาดทุกภาษา โหลดทันที รองรับ 18 ภาษา Premium (Florence-2) โมเดล AI 223MB ดาวน์โหลดครั้งเดียวแล้วทำงานในเครื่อง เริ่มต้นช้ากว่าแต่เข้าใจเลย์เอาต์ดีกว่ามาก รู้ว่าคอลัมน์จบตรงไหน หัวข้อเริ่มตรงไหน ข้อความล้อมรูปยังไง ทั้งสองทำงานในเบราว์เซอร์ทั้งหมด ไม่ส่งเอกสารไปเซิร์ฟเวอร์ใดๆ

ความเป็นส่วนตัว: ทำไม OCR ฝั่งไคลเอนต์ถึงสำคัญ

เครื่องมือ OCR ออนไลน์ส่วนใหญ่ทำงานโดยอัปโหลดเอกสารไปเซิร์ฟเวอร์ ประมวลผลที่นั่น แล้วส่งข้อความกลับมา สัญญา บันทึกทางการแพทย์ หรือรายงานการเงินของคุณต้องผ่านโครงสร้างพื้นฐานของคนอื่น OCR ฝั่งไคลเอนต์ขจัดปัญหานี้ทั้งหมด เอนจิน OCR ทำงานในแท็บเบราว์เซอร์ PDF ไม่เคยออกจากอุปกรณ์ของคุณ สำหรับเอกสารที่มีข้อมูลส่วนบุคคล นี่คือวิธีเดียวที่รับผิดชอบ

ตรวจสอบเองได้: เปิดแท็บ Network ในเครื่องมือนักพัฒนา (F12→Network) เรียกใช้ OCR แล้วดู ไม่มีคำขอภายนอกที่ส่งข้อมูลเอกสารเลย

สิ่งที่ OCR ทำไม่ได้

ไม่มี OCR ที่สมบูรณ์แบบ บอกข้อจำกัดตรงๆ จะช่วยประหยัดเวลา:

  • เอกสารที่เสียหายมาก — คราบน้ำ ขอบฉีก หมึกซึม ไม่มีเอนจินไหนจำตัวอักษรได้
  • สแกนความละเอียดต่ำมาก — ต่ำกว่า 150 DPI แยกตัวอักษรคล้ายกันไม่ออก (0 กับ O, 1 กับ l)
  • ลายมือซับซ้อน — ตัวบรรจงพอใช้ได้ แต่เขียนหวัดหรือลายมือเฉพาะตัวยังยากสำหรับทุกเครื่องมือ
  • ฟอนต์ตกแต่งและข้อความอาร์ต — การ์ดเชิญ ใบประกาศลายมือ โลโก้อาร์ตไม่สามารถจดจำได้อย่างน่าเชื่อถือ
  • สูตรคณิตศาสตร์และสัญลักษณ์เคมี — มีเครื่องมือ OCR เฉพาะทางสำหรับสิ่งเหล่านี้
หลังดึงข้อความแล้ว อาจต้องการบีบอัด PDF หรือรวมกับเอกสารอื่น Batch Printer จัดการเวิร์กโฟลว์ทั้งหมดในเบราว์เซอร์ — OCR บีบอัด รวมไฟล์ เริ่มที่ batch-printer.com/tools/pdf/ocr

คำถามที่พบบ่อย

OCR อ่านลายมือได้ไหม? ได้บางส่วน ลายมือบรรจง Premium ทำได้พอใช้ ลายมือหวัดหรือเฉพาะตัวมากยังไม่น่าเชื่อถือในทุกเครื่องมือ OCR

รองรับภาษาอะไรบ้าง? Standard รองรับ 18 ภาษารวมถึงไทย อังกฤษ จีน ญี่ปุ่น เกาหลี อาหรับ และอีกมาก Premium เหมาะกับอังกฤษและภาษายุโรปหลัก

ฟรีจริงหรือ? ใช่ ไม่ต้องสร้างบัญชี ไม่มีช่วงทดลอง ไม่จำกัดจำนวนหน้า เครื่องมือทำงานในเบราว์เซอร์ใช้พลังประมวลผลของอุปกรณ์คุณ จึงไม่มีต้นทุนเซิร์ฟเวอร์

OCR เอกสารหลายหน้าได้ไหม? ได้ ทุกหน้าประมวลผลตามลำดับ 50 หน้าก็ทำได้ แค่ใช้เวลามากขึ้นตามสัดส่วน เอกสารใหญ่มาก (100+ หน้า) แนะนำให้แยก PDF ก่อนแล้ว OCR ทีละส่วน

มีรูปแบบเอาต์พุตอะไรบ้าง? สองตัวเลือก: ข้อความธรรมดา (คัดลอก-วางได้เลย) และ PDF ที่ค้นหาได้ซึ่งซ้อนข้อความที่จดจำได้แบบมองไม่เห็นบนสแกนต้นฉบับ ทำให้ค้นหาด้วย Ctrl+F ได้โดยยังคงหน้าตาเดิม

เริ่มใช้เครื่องมือทันที

กดปุ่มเพื่อไปยังหน้าเครื่องมือที่เกี่ยวข้องได้ทันที

ดึงข้อความจาก PDF สแกน — OCR ออนไลน์ฟรี