ความรู้สำหรับ การ ocr เอกสาร กับแนวทางปฏิบัติที่ดีที่สุด

การ ocr เอกสาร สัปดาห์นี้เราจะให้บทความแรกเกี่ยวกับ OCR  เราจะอธิบายเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดสำหรับ OCR และปัจจัยต่างๆที่ต้องพิจารณาเมื่อเลือกเครื่องมือ OCR ซึ่งเป็นคุณลักษณะหลักในโดเมนการสร้างภาพเอกสาร (แต่ไม่ จำกัด เพียง) และในภายหลังเราจะให้รายละเอียดเกี่ยวกับประเด็นที่สำคัญโดยเฉพาะและแนวทางปฏิบัติที่ดีที่สุดใน OCR ต่อไป .
แต่สำหรับตอนนี้ขอแนะนำเบื้องต้น

คำจำกัดความ
แม้จะมีคำจำกัดความที่หลากหลายของ OCR แต่คำจำกัดความที่ง่ายและแม่นยำที่สุดก็คือ: Optical Character Recognition หมายถึงการระบุข้อความจากข้อความที่ไม่ใช่ข้อความภายในภาพดิจิทัล

ประวัติ OCR
ประวัติความเป็นมาของ OCR นั้นค่อนข้างน่าสนใจไม่เพียงเพราะความซับซ้อนที่เติบโตอย่างรวดเร็ว แต่ยังรวมถึงจุดเริ่มต้นที่ไม่น่าเชื่อด้วย
OCR เป็นเทคโนโลยีล้ำหน้าในยุคสาธารณะโดยเริ่มจากการวิจัยทางทหารแบบแยกส่วน (เช่นเดียวกับคอมพิวเตอร์อินเทอร์เน็ตและเทคโนโลยีขั้นสูงอื่น ๆ ทั้งหมดบนโลก)
แต่คุณเชื่อไหมว่าการพัฒนาครั้งแรกเริ่มต้นเมื่อประมาณปี 2457หรือในช่วงทศวรรษที่ 1960 (ช่วงเวลาที่ประชาชนทั่วไปแทบไม่ได้สื่อสารกันโดยใช้โทรศัพท์แบบมีสาย) บริษัท ไปรษณีย์แห่งชาติบางแห่งเช่น US Postal Service หรือ British General Post Office ใช้ OCR เพื่อจัดเรียงจดหมายที่เขียนด้วยลายมือของปู่ย่าตายายของเราโดยอัตโนมัติหรือไม่?

มันทำงานอย่างไร?
เหตุผลที่เราต้องแยกข้อความจากรูปภาพก็คือซอฟต์แวร์ไม่สามารถจัดการข้อความได้เว้นแต่จะถูกเข้ารหัสเป็นข้อความชิ้นส่วนของข้อมูล
เราต้องการข้อความที่จะ:

แก้ไข
จัดทำดัชนี (เพื่อให้เราสามารถเรียกดูได้ในภายหลังโดยใช้การค้นหาตามข้อความของเรา)
ประมวลผล – เพื่อใช้สำหรับการปรับแต่งที่ซับซ้อนที่เหนือกว่า (เช่นการขุดข้อความ )
เรายังต้องการข้อความเช่นนี้เพื่อให้เราสามารถแสดงกลับมาเป็นข้อมูลที่เป็นคำพูดได้ (ขอบคุณเทคโนโลยี Text To Speech และแอปพลิเคชัน)!
กล่าวอีกนัยหนึ่ง “ข้อความ” จากมุมมองด้านไอทีหมายถึงมาตรฐานการเข้ารหัสอักขระเช่นASCII , UNICODEเป็นต้น
ข้อความภายในไฟล์รูปภาพ (เช่นบิตแมปที่เกิดเมื่อสแกนเอกสาร) หมายถึง “ข้อความ” เท่านั้นสำหรับ มนุษย์เราที่สามารถรับรู้ได้
แต่สำหรับซอฟต์แวร์คอมพิวเตอร์เกือบทั้งหมดบิตแมปที่มีข้อความไม่ได้เป็นเพียงชุดของค่าพิกเซลเช่นเดียวกับบิตแมปอื่น ๆ ที่ไม่มีข้อความ
ยกเว้นซอฟต์แวร์ OCR ซึ่งสามารถวิเคราะห์ค่าพิกเซลทั้งหมดดำเนินการประมวลผลที่ซับซ้อนสูงและพิจารณาว่า “รูปแบบ” สามารถพบตรงกับรูปแบบที่สอดคล้องกับ “ข้อความ” หรือไม่

โดยทั่วไปสิ่งที่เกิดขึ้นเป็นความพยายามที่ดีที่สุดในการคาดเดาและผลลัพธ์จะออกมาเป็นข้อมูลประเภทเข้ารหัสข้อความ การ ocr เอกสาร

การปรับปรุงผลลัพธ์
นี่คือเหตุผลที่ความแม่นยำของ OCR ขึ้นอยู่กับหลาย ๆ ด้าน:

ข้อความที่พิมพ์นั้นง่ายต่อการจดจำได้ง่ายกว่าข้อความที่เขียนด้วยลายมือ
หากทราบชุดภาษา / อักขระของข้อความที่ต้องจดจำไว้ก่อนหน้านี้และการตั้งค่าเสร็จสมบูรณ์ผลลัพธ์ OCR จะดีกว่าอย่างมาก ตัวอย่างเช่นหน้าควรมีการวางแนวที่ถูกต้อง(หรือมิฉะนั้นจะใช้ส่วนประกอบการตรวจจับการวางแนวอัตโนมัติของซอฟต์แวร์ OCR หากมี) คุณภาพของภาพ อาจต้องได้รับการปรับปรุงเพื่อให้ปรับให้เหมาะสมก่อนที่จะส่งไปยัง OCR และอื่น ๆ
ในบทความที่กำลังจะมีขึ้นเกี่ยวกับเรื่อง OCR เราจะอธิบายเพิ่มเติมเกี่ยวกับแนวทางปฏิบัติที่ดีที่สุดสำหรับ OCR และปัจจัยต่างๆที่ต้องพิจารณาเมื่อเลือกเครื่องมือ OCR (เช่นคุณภาพเทียบกับค่าลิขสิทธิ์เวลาเทียบกับทรัพยากรฮาร์ดแวร์จำนวนภาษาที่รองรับ ฯลฯ )
สัปดาห์นี้เราดำเนินการต่อในหัวข้อOptical Character Recognitionโดยให้คำแนะนำแก่สาธารณชนทั่วไปเกี่ยวกับขั้นตอนการจัดเก็บเอกสารล่วงหน้าและหลังการสแกน
งาน OCR ที่ทำอย่างถูกต้องไม่ใช่แค่การแยกข้อความ นอกจากนี้ยังมีความหมายถึงชุดปฏิบัติการเพื่อเพิ่มประสิทธิภาพกระบวนการ OCRและเพิ่มประสิทธิภาพในแนวทางปฏิบัติในการจัดการเอกสารโดยรวม
หากต้องการกล่าวอีกนัยหนึ่งการดำเนินการที่เรียกกันทั่วไปว่า “ติดกัน” สามารถปรับปรุงหรือทำลายการจดจำข้อความโดยสิ้นเชิงทำให้ชีวิตของคุณสะดวกสบายหรือเป็นนรก
สิ่งที่ควรทราบมีดังนี้

การเพิ่มประสิทธิภาพ OCR ก่อนการสแกน
เมื่อมีการวางกระดาษในเครื่องสแกนเนอร์ให้แน่ใจว่าหน้าเว็บที่มีการวางแนวทางแก้ไขข้อความ ด้วยวิธีนี้คุณจะไม่ต้องเสียเวลาในภายหลังโดยต้องรอให้ซอฟต์แวร์ OCR กำหนดทิศทางโดยอัตโนมัติหรือที่แย่กว่านั้นคือต้องดำเนินการนี้ด้วยตนเองผ่านการตรวจสอบไฟล์ทีละไฟล์
ปรับการตั้งค่าการสแกนที่เหมาะสมเพื่อให้แน่ใจว่า OCR มีคุณภาพดีที่สุด ตัวอย่างเช่นความละเอียด 300 dpi หรือสูงกว่าถือว่าเหมาะสมที่สุดสำหรับเอกสารส่วนใหญ่
ทดสอบเอาต์พุต OCR สำหรับสองสามหน้าก่อนเริ่มดำเนินการสแกนเป็นกลุ่มเพื่อให้แน่ใจว่าการตั้งค่าของคุณได้รับการปรับแต่งอย่างเหมาะสมที่สุด
เลือกรูปแบบไฟล์ที่ไม่สูญเสีย (เช่นTIFF ) และอย่ากลัวว่าจะมีขนาดใหญ่หากเอกสารมีความสำคัญสำหรับคุณ: พื้นที่จัดเก็บไม่ใช่ปัญหาในปัจจุบันและคุณสามารถแปลงไฟล์เป็นรูปแบบอื่นเพื่อจัดการ (หรือแบ่งปันได้ในภายหลัง ) วัตถุประสงค์

ที่จริงแล้วพื้นที่ (โดยเฉพาะออนไลน์) จัดเก็บข้อมูลที่ไม่สำคัญในขณะนี้ สำหรับเหตุผลด้านสิ่งแวดล้อมเช่นเรากล่าวถึงในนี้บทความ
แต่ตั้งแต่สัปดาห์ที่แล้วและประชากรจำนวนมากทั่วโลกที่ทำงานจากที่บ้านโดยมีการเชื่อมต่ออินเทอร์เน็ตที่ไม่สมบูรณ์ในบางครั้งมันก็สมเหตุสมผลที่จะไม่อัปโหลด / ดาวน์โหลด / จัดเก็บไฟล์ขนาดใหญ่หากเรามีความเป็นไปได้ที่จะทำให้ไฟล์เล็กลง … Netflix, YouTube และตอนนี้ Facebook มีการลดคุณภาพของวิดีโอของพวกเขาในยุโรปสำหรับ 30 วันถัดไปเพื่อหลีกเลี่ยงการรัดอินเทอร์เน็ต

ที่จริงแล้วสำหรับการจัดเก็บเอกสารที่สำคัญความคิดที่ดีที่สุดคือการจัดเก็บไฟล์ต้นฉบับในรูปแบบ TIFF จากนั้นย้ายไปยังอุปกรณ์จัดเก็บข้อมูลภายนอกหรือสื่อ (ฮาร์ดดิสก์ภายนอกหรือดีวีดีเป็นต้น) และใช้สำหรับงานปัจจุบันที่เก็บถาวรที่ซ้ำกัน ที่มีไฟล์ที่แปลงเป็นรูปแบบที่คุณคิดว่าเหมาะสมกับความต้องการของคุณ ( JBIG2 , PDF ฯลฯ )
ในระดับหนึ่งแนวทางนี้จะคล้ายกับรูปแบบ RAW ของกล้องสำหรับมืออาชีพในโดเมนการถ่ายภาพดิจิทัล

การเพิ่มประสิทธิภาพ OCR หลังจากการสแกน
ใช้ชื่อไฟล์ที่เกี่ยวข้องกับไฟล์ผลลัพธ์และไม่ต้องกังวลว่าชื่อไฟล์จะยาว ทำได้ง่ายโดยใช้เครื่องมือตั้งชื่อไฟล์อัตโนมัติและแม้ว่าจะใช้เวลาในขั้นตอนการสร้างไฟล์นานกว่าเล็กน้อย แต่ก็สามารถช่วยชีวิตจริงได้ในภายหลัง และตรวจสอบให้แน่ใจว่าชื่อไฟล์มีข้อมูลสำคัญเช่นภาษาของข้อความเพื่อตั้งชื่อรายละเอียดที่สำคัญเพียงรายการเดียวสำหรับ OCR
อย่าลังเลที่จะใช้เทคนิคการเพิ่มประสิทธิภาพของภาพ ไม่สามารถควบคุมคุณภาพของเอกสารกระดาษได้และรายละเอียดเฉพาะของสแกนเนอร์ของคุณอาจส่งผลต่อคุณภาพของงานพิมพ์ (ตัวอย่างเช่นรอยขีดข่วนเล็ก ๆ บนกระจกของสแกนเนอร์)
เพื่อเอาชนะพวกเขาผู้จำหน่ายซอฟต์แวร์สร้างภาพเอกสารระดับมืออาชีพได้จัดหาคุณสมบัติการแก้ไขภาพที่หลากหลายให้กับผู้ใช้
ในการโพสต์เหล่านี้คุณจะได้พบกับคำอธิบายบางอย่างเกี่ยวกับความสว่างคมชัด / / แกมมา , กรองมัธยฐานและอัตโนมัติ deskew

THAI-PDPA ให้คำปรึกษาและบริการปกป้องข้อมูลส่วนบุคคลตาม พ.ร.บ.ฯ แบบครบวงจร

ผู้ที่สนใจใช้บริการ Data Protection Services ของ THAI-PDPA สามารถติดต่อฝ่ายขายที่ดูแลคุณหรือฝ่ายการตลาดได้ที่เบอร์ 0-2860-6659 หรืออีเมล dcs@ko.in.th

Leave A Comment?