เอกสารที่จัดเก็บแบบอิเล็กทรอนิกส์ วิธีลดขนาดเอกสาร

วิธีลดขนาดเอกสาร ในบทความนี้เราจะอธิบายให้คนทั่วไปเข้าใจว่าการตรวจจับสีเป็นอย่างไรและจะนำมาใช้เพื่อลดขนาดเอกสารที่จัดเก็บแบบอิเล็กทรอนิกส์ของคุณได้อย่างไร

ในบทความก่อนหน้านี้เราได้แสดงให้เห็นว่าบิตแมป (หรือภาพแรสเตอร์) นั้นสร้างขึ้นจากพิกเซล (เรียงลำดับเป็นอาร์เรย์หรือเมทริกซ์โดยแต่ละพิกเซลจะมีพิกัดและสีของตัวเอง) ในลักษณะเดียวกับการทำโมเสคจากชิ้นแก้วสี .
เนื่องจากบิต (“ 0” และ“ 1”) ถูกใช้ในการจัดเก็บข้อมูลเกี่ยวกับสีจึงค่อนข้างมีเหตุผลที่ยิ่งต้องเข้ารหัสสีในรูปภาพมากเท่าใดก็ยิ่งจำเป็นต้องมีบิตต่อพิกเซล (หรือ“ bpp”) มากขึ้น เก็บข้อมูลนั้นไว้ดังนั้นขนาดของไฟล์ภาพบิตแมปก็จะยิ่งใหญ่ขึ้น

จากมุมมองสีบิตแมปอาจเป็น:

– สีดำและสีขาว
มีเพียง 2 สีเท่านั้นจึงถูกเข้ารหัสเป็น 1 bpp (“0” หรือ “1” สำหรับสีดำหรือสีขาว) ดังนั้นบิตแมปเหล่านี้จึงใช้ขนาดน้อยกว่าขนาดที่เป็นไปได้สำหรับข้อมูลสี

– โทนสีเทา

ภาพดังกล่าวเป็นสีดำสีขาวและชุดสีเทาตัวกลางต่างๆ
โดยทั่วไปแล้วการเข้ารหัสสี 8 bpp ถือเป็นสิ่งที่ยอมรับได้ แต่คุณจะทราบว่าแต่ละสีของพิกเซลนั้นต้องการข้อมูลมากกว่าภาพขาวดำถึง 8 เท่า

– สี

ภาพมีสีแตกต่างกันเล็กน้อย (การไล่ระดับสี) จานสีหลายขนาด แต่การเข้ารหัสสี 24 bpp ถือว่าเป็นที่น่าพอใจเนื่องจากสามารถจัดเก็บสีได้มากกว่า 16,7 ล้านสีในขณะที่สายตาของมนุษย์สามารถมองเห็นได้เพียงประมาณ 10 ล้านสี
แน่นอนว่าแต่ละสีของพิกเซลสำหรับภาพดังกล่าวใช้ข้อมูลมากกว่า 8 bpp 3 เท่าและมากกว่าข้อมูล 1 bpp ถึง 24 เท่า

ตอนนี้ทำไมทั้งหมดนี้จึงสำคัญมาก?

ในชีวิตจริงไม่เพียง แต่ผู้เชี่ยวชาญด้านการจัดเก็บเอกสาร แต่พวกเราส่วนใหญ่ยังถูกบังคับให้ประนีประนอมระหว่างความต้องการในการจัดเก็บเอกสารที่มีคุณภาพสูงที่สุดเท่าที่จะเป็นไปได้ แต่ในขนาดที่เล็กที่สุดเท่าที่จะเป็นไปได้ (ส่วนใหญ่ใช้เพื่อวัตถุประสงค์ในการแบ่งปัน)
เพื่อให้บรรลุเป้าหมายดังกล่าวตัวดำเนินการสแกนจะต้องแยกหน้า B / W จากระดับสีเทาและจากสีและสแกนแต่ละชุดที่ 1 bpp, 8 bpp และ 24 bpp ตามลำดับ
นี่เป็นงานที่ช้ามากเจ็บปวดและอยู่ภายใต้ความผิดพลาดของมนุษย์

จะเกิดอะไรขึ้นถ้าทุกอย่างสามารถทำได้ทันทีโดยอัตโนมัติและไม่มีข้อ จำกัด ในการสแกน

พวกเราที่ ได้พัฒนาเทคโนโลยีที่เป็นกรรมสิทธิ์ของการตรวจจับสีอัตโนมัติที่อยู่ระหว่างการพิจารณาสิทธิบัตร
สิ่งที่คุณต้องทำคือใส่เอกสารทั้งหมดของคุณในชุดเดียวไม่ว่าจะเป็นประเภทสีใดก็ตามให้สแกนเอกสารทั้งหมดในโหมดสีจากนั้นซอฟต์แวร์ของเราจะกำหนดประเภทสีของแต่ละหน้าโดยอัตโนมัติ
จากนั้นขึ้นอยู่กับชนิดสีที่ตรวจพบตัวกรองจะเข้ารหัสภาพโดยอัตโนมัติด้วยการเข้ารหัสบิตต่อพิกเซลที่เหมาะสมที่สุด / เหมาะสมที่สุด
กล่าวอีกนัยหนึ่งคือให้คุณภาพที่ดีที่สุดสำหรับขนาดที่เล็กที่สุด

คุณลักษณะนี้มีใช้งานแล้วในPaperScan Pro โดยเริ่มต้นด้วยเวอร์ชัน 1.6 และจะพร้อมใช้งานทางโปรแกรมอย่างสมบูรณ์ใน GdPicture.NET รุ่นถัดไป

ดูแลการทดสอบในทางปฏิบัติหรือไม่?

ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้งPaperScan Pro ล่าสุด (แม้กระทั่งรุ่นทดลอง)
เพื่อความสะดวกของคุณเรามีไฟล์ทดสอบ TIFF 3 ไฟล์ในโฟลเดอร์ซิปเพื่อใช้สำหรับการนำเข้าแบทช์ แต่คุณสามารถทดสอบโดยใช้ภาพของคุณเองไม่ว่าจะได้มาจากเครื่องสแกนหรือนำเข้าไฟล์ภาพที่มีอยู่
ไฟล์ TIFF แต่ละไฟล์มีขนาดใหญ่กว่า 1 MB ดังนั้นทั้ง 3 จะมีขนาดรวมกันมากกว่า 3 MB
ตอนนี้บันทึกในรูปแบบ PDF หลายหน้า วิธีลดขนาดเอกสาร
ไฟล์ PDF ที่ได้ (PaperScan สร้างโดยใช้การเพิ่มประสิทธิภาพ JPEG และเทคโนโลยีแพ็ค PDF) จะมีขนาดประมาณ 800 กิโลไบต์
ไม่เลว แต่ถ้าคุณคิดว่าเราไม่สามารถทำได้ดีกว่านี้คุณจะต้องคิดใหม่!

ความสว่างและคอนทราสต์เป็นการปรับภาพที่รู้จักกันดี แต่ขอกล่าวถึงอย่างไรก็ตาม:

– ความสว่างหมายถึงค่าสัมบูรณ์ของสี (โทน) ความสว่าง / ความมืด
การเพิ่มความสว่างของภาพจะทำให้สีทั้งหมดสว่างขึ้นดังนั้นแสงต้นฉบับจะกลายเป็นสีขาว
ในทางกลับกันการลดความสว่างจะทำให้สีทั้งหมดมืดลงดังนั้นสีที่แรเงาดั้งเดิมจะกลายเป็นสีดำ

– คอนทราสต์คือความแตกต่างระหว่างบริเวณที่สว่างและมืดกว่าของภาพและหมายถึงการทำให้วัตถุหรือรายละเอียดภายในภาพชัดเจนยิ่งขึ้น
การเพิ่มคอนทราสต์บนรูปภาพจะเพิ่มความแตกต่างระหว่างพื้นที่สว่างและพื้นที่มืดดังนั้นพื้นที่สว่างจะจางลงและพื้นที่มืดจะมืดลง
สลับ, การลดความคมชัดจะทำให้มีน้ำหนักเบาและพื้นที่สีเข้มอยู่ประมาณเดียวกัน แต่ภาพโดยรวมจะมากขึ้น“แบน” และเริ่มต้นมองราวกับว่ามันเป็น“ล้างออก”

– การแก้ไขแกมมาไม่เพียง แต่เข้าใจง่ายเท่านั้นและนี่คือเหตุผล: มีความแตกต่างที่สำคัญระหว่างการที่ดวงตาของมนุษย์รับรู้แสงเมื่อเทียบกับอุปกรณ์จับภาพ (กล้องสแกนเนอร์ ฯลฯ )
อุปกรณ์จับภาพดิจิทัลทำงานตามกฎง่ายๆคือหากโฟตอนชนเซ็นเซอร์สองครั้งสัญญาณจะถูกสร้างขึ้นสองครั้ง
ดวงตาไม่ได้ทำงานในลักษณะเดียวกันเนื่องจากชีววิทยาแทบจะไม่ถูกควบคุมโดยความเรียบง่ายเชิงเส้น: เรามีความเข้าใจในการรับรู้การเปลี่ยนแปลงที่เกิดขึ้นในโทนสีเข้มมากกว่าการเปลี่ยนแปลงที่คล้ายกันที่เกิดขึ้นในโทนแสง
เมื่อดวงตาของเราได้รับโฟตอนเป็นสองเท่าความรู้สึกทางสายตาจะไม่เท่ากับความสว่างสองเท่า แต่ขึ้นอยู่กับบริบทดังนั้นความเป็นเส้นตรงจึงเป็นข้อยกเว้นแทนที่จะเป็นกฎ
แกมมาเป็นเรื่องเกี่ยวกับการแปลระหว่างความไวทางดิจิทัลและความไวต่อสายตาของมนุษย์ซึ่งมีข้อดีหลายประการในมือข้างหนึ่ง แต่จะเพิ่มความซับซ้อนในทางกลับกัน
ดังนั้นเราจะไม่นำเสนอรายละเอียดทางเทคนิคเพิ่มเติมหรือแง่มุมอื่น ๆ เช่นการเข้ารหัสแกมมาในการสร้างไฟล์การแก้ไขแกมมาบนการแสดงภาพความแตกต่างระหว่างจอภาพ CRT และ LCD เป็นต้น
แต่เราจะใช้วิธีที่เรียบง่ายแทนนั่นคือgammaจะปรับเสียงกลางจากระดับวรรณยุกต์ แต่คงความขาวและดำไว้
กล่าวอีกนัยหนึ่งแกมม่าจะปรับความเปรียบต่างและความสว่างในเสียงกลางให้เหมาะสม
นี่เป็นสิ่งสำคัญอย่างยิ่งสำหรับเอกสารที่สแกนเนื่องจากสามารถปรับปรุงการอ่านหน้าได้อย่างมาก
ตัวอย่างเช่นการเปลี่ยนการตั้งค่าแกมมาในภาพเอกสารที่มีน้ำหนักเบามากจะทำให้สามารถอ่านได้โดยไม่ต้องทำให้มืดลงโดยรวม

THAI-PDPA ให้คำปรึกษาและบริการปกป้องข้อมูลส่วนบุคคลตาม พ.ร.บ.ฯ แบบครบวงจร

ผู้ที่สนใจใช้บริการ Data Protection Services ของ THAI-PDPA สามารถติดต่อฝ่ายขายที่ดูแลคุณหรือฝ่ายการตลาดได้ที่เบอร์ 0-2860-6659 หรืออีเมล dcs@ko.in.th

Leave A Comment?