วิธี ocr เอกสาร การลดเวลาในการพิมพ์เอกสารได้รวดเร็วด้วย

ocr เอกสาร  สัปดาห์นี้เราจะให้บทความแรกเกี่ยวกับ Optical Character Recognition ซึ่งเป็นคุณลักษณะหลักในโดเมนการสร้างภาพเอกสาร (แต่ไม่ จำกัด เพียง) และ ในภายหลังเราจะให้รายละเอียดเกี่ยวกับประเด็นที่สำคัญโดยเฉพาะ และ แนวทางปฏิบัติที่ดีที่สุดใน OCR ต่อไป .
แต่สำหรับตอนนี้ขอแนะนำเบื้องต้น

คำจำกัดความ
แม้จะมีคำจำกัดความที่หลากหลายของ OCR แต่คำจำกัดความที่ง่ายและแม่นยำที่สุดก็คือ: Optical Character Recognition หมายถึงการระบุข้อความจากข้อความ ที่ไม่ใช่ข้อความภายในภาพดิจิทัล

ประวัติ OCR
ประวัติความเป็นมาของ OCR นั้นค่อนข้างน่าสนใจไม่เพียงเพราะความซับซ้อนที่เติบโตอย่างรวดเร็ว แต่ยังรวมถึงจุดเริ่มต้นที่ไม่น่าเชื่อด้วย
OCR เป็นเทคโนโลยีล้ำหน้าในยุคสาธารณะโดยเริ่มจากการวิจัยทางทหารแบบแยกส่วน (เช่นเดียวกับคอมพิวเตอร์อินเทอร์เน็ต และ เทคโนโลยีขั้นสูงอื่น ๆ ทั้งหมดบนโลก)
แต่คุณเชื่อไหมว่าการพัฒนาครั้งแรกเริ่มต้นเมื่อประมาณปี 2457หรือในช่วงทศวรรษที่ 1960 (ช่วงเวลาที่ประชาชนทั่วไปแทบไม่ได้สื่อสารกันโดยใช้โทรศัพท์แบบมีสาย) บริษัท ไปรษณีย์แห่งชาติบางแห่งเช่น US Postal Service หรือ British General Post Office ใช้ OCR เพื่อจัดเรียงจดหมายที่เขียนด้วยลายมือของ ปู่ย่าตายายของเราโดยอัตโนมัติหรือไม่?

มันทำงานอย่างไร?
เหตุผลที่เราต้องแยกข้อความจากรูปภาพ ก็คือซอฟต์แวร์ไม่สามารถจัดการข้อความได้เว้นแต่จะถูกเข้ารหัสเป็นข้อความชิ้นส่วนของข้อมูล
เราต้องการข้อความที่จะ:

แก้ไข
จัดทำดัชนี (เพื่อให้เราสามารถเรียกดูได้ในภายหลังโดยใช้การค้นหาตามข้อความของเรา)
ประมวลผล – เพื่อใช้สำหรับการปรับแต่ง ที่ซับซ้อนที่เหนือกว่า (เช่นการขุดข้อความ )
เรายังต้องการข้อความเช่นนี้เพื่อให้เราสามารถ แสดงกลับมาเป็นข้อมูลที่เป็นคำพูดได้ (ขอบคุณเทคโนโลยี Text To Speech และแอปพลิเคชัน)!
กล่าวอีกนัยหนึ่ง “ข้อความ” จากมุมมองด้านไอที หมายถึงมาตรฐานการเข้ารหัสอักขระเช่นASCII , UNICODEเป็นต้น
ข้อความภายในไฟล์รูปภาพ (เช่นบิตแมปที่เกิดเมื่อสแกนเอกสาร) หมายถึง “ข้อความ” เท่านั้นสำหรับ มนุษย์เราที่สามารถรับรู้ได้
แต่สำหรับซอฟต์แวร์คอมพิวเตอร์เกือบทั้งหมดบิตแมปที่มีข้อความไม่ได้เป็นเพียงชุดของค่าพิกเซลเช่นเดียวกับบิตแมปอื่น ๆ ที่ไม่มีข้อความ
ยกเว้นซอฟต์แวร์ OCR ซึ่งสามารถวิเคราะห์ค่าพิกเซลทั้งหมดดำเนินการประมวลผลที่ซับซ้อนสูงและพิจารณาว่า “รูปแบบ” สามารถพบตรงกับรูปแบบที่สอดคล้องกับ “ข้อความ” หรือไม่

โดยทั่วไปสิ่งที่เกิดขึ้นเป็นความพยายามที่ดีที่สุดในการคาดเดาและผลลัพธ์จะออกมาเป็นข้อมูลประเภทเข้ารหัสข้อความ

การปรับปรุงผลลัพธ์
นี่คือเหตุผลที่ความแม่นยำของ OCR ขึ้นอยู่กับหลาย ๆ ด้าน:

ข้อความที่พิมพ์นั้นง่ายต่อการจดจำได้ง่ายกว่าข้อความที่เขียนด้วยลายมือ ocr เอกสาร
หากทราบชุดภาษา / อักขระของข้อความที่ต้องจดจำไว้ก่อนหน้านี้และการตั้งค่าเสร็จสมบูรณ์ผลลัพธ์ OCR จะดีกว่าอย่างมาก ตัวอย่างเช่นหน้าควรมีการวางแนวที่ถูกต้อง(หรือมิฉะนั้นจะใช้ส่วนประกอบการตรวจจับการวางแนวอัตโนมัติของซอฟต์แวร์ OCR หากมี) คุณภาพของภาพ อาจต้องได้รับการปรับปรุงเพื่อให้ปรับให้เหมาะสมก่อนที่จะส่งไปยัง OCR และอื่น ๆ
ในบทความที่กำลังจะมีขึ้นเกี่ยวกับเรื่อง OCR เราจะอธิบายเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดสำหรับ OCR และปัจจัยต่างๆที่ต้องพิจารณาเมื่อเลือกเครื่องมือ OCR (เช่นคุณภาพเทียบกับค่าลิขสิทธิ์เวลาเทียบกับทรัพยากรฮาร์ดแวร์จำนวนภาษาที่รองรับ ฯลฯ )

หากเราไปดาวน์โหลดเอกสาร PDF ซึ่งมีการเข้ารหัสล็อคไว้ ทำให้ไม่สามารถคัดลอกข้อความจาก PDF มาใช้งานต่อได้ ให้ Capture หรือ Print Screen หน้าจอแล้วบันทึกเป็นไฟล์รูปภาพ จากนั้นนำมาเข้าโปรแกรม ABBYY FineReader ข้อความที่ต้องการก็จะปรากฏขึ้น สามารถคัดลอกไปแก้ไขต่อใน Word ได้ และที่สำคัญ รองรับการทำงานกับภาษาไทยได้ถึง 90%

การทำ OCR นั้น เป็นเพียงวิธีที่่วยลดระยะเวลาในการพิมพ์เอกสารเท่านั้น ดังนั้นเมื่อเรามีการนำข้อความที่แต่งโดยผู้อื่นมาใช้ในงานของเรา เราต้องอ้างอิงที่มาตามหลักการอ้างอิงให้ชัดเจน เช่น การอ้างอิงแบบตัวเลข หรือการอ้างอิงแบบ APA เป็นต้น ซึ่งการทำงานเอกสารที่ดีนั้นจะต้องนำข้อความจากเอกสารที่ได้มาสังเคราะห์และเรียบเรียงใหม่ โดยยังคงความหมายเดิมจากต้นฉบับ เพื่อป้องกันการโจรกรรมทางผลงานวิชาการ (Plagiarism)

THAI-PDPA ให้คำปรึกษาและบริการปกป้องข้อมูลส่วนบุคคลตาม พ.ร.บ.ฯ แบบครบวงจร

เพื่อให้องค์กรและบริษัท ทั้งภาครัฐและเอกชน จัดเตรียมบุคลากร กระบวนการ และเครื่องมือในการดำเนินการสอดคล้องกับ พ.ร.บ. คุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562

แม้ว่ากฎหมายอาจจะยังไม่ได้ประกาศใช้ในขณะนี้ แต่เราเปิดให้คำปรึกษาและบริการปกป้องข้อมูลตาม พ.ร.บ.ฯ แบบครบวงจร เพราะควรเตรียมพร้อมในกระบวนการ การเก็บข้อมูลส่วนบุคคลให้เป็นไปอย่างถูกต้องและสอดคล้องกับ กฎหมายใหม่อีกจะประกาศใช้อย่างเป็นทางการในเดือน พฤษภาคม พ.ศ. 2564 เพื่อสิทธิในการเข้าถึงข้อมูลของสมาชิกในองค์กรและการจัดการข้อมูลของฝ่ายบริหารในองค์กรของคุณ

สำหรับบริษัทและองค์กรที่กำลังเป็นกังวลว่าจะเตรียมบุคลากร กระบวนการ และเทคโนโลยีอย่างไรให้พร้อมรองรับการบังคับใช้ พ.ร.บ. คุ้มครองข้อมูลส่วนบุคคล พ.ศ. 2562 ในเดือนพฤษภาคมนี้

THAI-PDPA เปิดให้คำปรึกษาโดยผู้เชี่ยวชาญแบบครบวงจร ด้วยเทคโนโลยี Data Protection Services ที่แนะนำให้ไปประยุกต์ใช้เพื่อปกป้องข้อมูลพนักงานและลูกค้า

ผู้ที่สนใจใช้บริการ Data Protection Services ของ THAI-PDPA สามารถติดต่อฝ่ายขายที่ดูแลคุณหรือฝ่ายการตลาดได้ที่เบอร์ 0-2860-6659 หรืออีเมล dcs@ko.in.th

Leave A Comment?