คุณภาพของข้อมูล หรือData Qualityเกี่ยวข้องกับคุณภาพของข้อมูลที่จัดเก็บไว้ในองค์กรของคุณ กล่าวคือ ยิ่งข้อมูลมีความสมบูรณ์ ถูกต้อง และสอดคล้องกันมากเท่าใด คุณภาพของข้อมูลก็จะยิ่งสูงขึ้นเท่านั้น
การรับประกันคุณภาพข้อมูลส่งผลกระทบโดยตรงต่อธุรกิจขององค์กร โดยใช้ประโยชน์จากข้อมูลที่มีอยู่ทั้งหมดเพื่อรับข้อมูลเชิงลึก ใหม่ๆ นอกเหนือจากการสนับสนุนการตัดสินใจและประโยชน์อื่นๆ ที่เครื่องมือต่างๆ เช่นBusiness IntelligenceและMachine Learningนำมาสู่ธุรกิจ
วิธีการใช้และรักษาคุณภาพข้อมูล ?
มีหลายวิธีในการปรับใช้นโยบายคุณภาพข้อมูล หนึ่งในนั้นคือการใช้Data Quality Lifecycleซึ่งเราจะให้รายละเอียดเพิ่มเติมอีกเล็กน้อยในบทความนี้
วงจรชีวิตคุณภาพข้อมูลคือลำดับของกระบวนการที่โครงการคุณภาพข้อมูลดำเนินไปตั้งแต่เริ่มต้นจนถึงสิ้นสุด ดังแสดงในรูปที่ 1 มี 6 ขั้นตอนและเราจะอธิบายแต่ละขั้นตอนด้านล่าง
การค้นหา ข้อมูล:หมายถึงการรวบรวมข้อกำหนด การระบุแหล่งที่มาของแอปพลิเคชัน การรวบรวมข้อมูล การจัดองค์กรและการจัดประเภทของรายงานคุณภาพข้อมูล
การทำโปรไฟล์ข้อมูล:หมายถึงการตรวจสอบเบื้องต้น การตรวจสอบคุณภาพข้อมูลตัวอย่าง คำแนะนำกฎ และการอนุมัติกฎคุณภาพข้อมูลขั้นสุดท้าย
กฎของข้อมูล:สิ่งนี้เกี่ยวข้องกับการดำเนินการตามกฎทางธุรกิจขั้นสุดท้ายเพื่อตรวจสอบความถูกต้องของข้อมูลและความเหมาะสมสำหรับวัตถุประสงค์
การกระจายและการแก้ไขข้อมูล:หมายถึงกระบวนการแจกจ่ายรายงานคุณภาพข้อมูลให้กับฝ่ายที่รับผิดชอบและเริ่มกระบวนการแก้ไข
การตรวจสอบข้อมูล:หมายถึงการตรวจสอบอย่างต่อเนื่องของกระบวนการแก้ไขและการสร้างแดชบอร์ดและดัชนีชี้วัดคุณภาพข้อมูล
เครื่องมือPyDeequ
มีเครื่องมือที่สามารถช่วยในกระบวนการนี้ และเราจะแสดงความคิดเห็นเกี่ยวกับDeequ Deequเป็นไลบรารีที่สร้างขึ้นบนApache Sparkเพื่อกำหนด “การทดสอบหน่วยสำหรับข้อมูล” ซึ่งจะวัดคุณภาพของข้อมูลในชุดข้อมูลขนาดใหญ่
ผู้ผลิตชุดข้อมูลและ/หรือผู้ดูแลข้อมูลสามารถเพิ่มและแก้ไขข้อจำกัดด้านคุณภาพข้อมูลได้ ระบบจะคำนวณมาตรวัดคุณภาพอย่างสม่ำเสมอ (ด้วยชุดข้อมูลเวอร์ชันใหม่แต่ละชุด) ตรวจสอบข้อจำกัดที่กำหนดโดยผู้ผลิตชุดข้อมูล และเผยแพร่ชุดดังกล่าวแก่ผู้บริโภคเมื่อประสบความสำเร็จ ในกรณีที่เกิดข้อผิดพลาด สามารถหยุดการเผยแพร่ชุดข้อมูลและแจ้งให้ผู้ผลิตและ/หรือผู้ดูแลข้อมูลทราบเพื่อดำเนินการ ปัญหาด้านคุณภาพของข้อมูลจะไม่แพร่กระจายไปยังท่อส่ง ข้อมูลของผู้บริโภค ทำให้รัศมีการระเบิดลดลง
Deequยังใช้ใน Amazon SageMaker Model Monitor อีกด้วย ขณะนี้ ด้วยความพร้อมใช้งานของPyDeequคุณจึงใช้งานได้ในชุดสภาพแวดล้อมที่กว้างขึ้น — สมุดบันทึก Amazon SageMaker, AWS Glue, Amazon EMR และอื่นๆ
มาดูองค์ประกอบหลักของPyDeequและความเกี่ยวข้องของDeequ :
– การคำนวณเมตริก — Deequคำนวณเมตริกคุณภาพข้อมูล ซึ่งก็คือสถิติ เช่น ความสมบูรณ์ ค่าสูงสุด หรือความสัมพันธ์ Deequใช้Sparkเพื่ออ่านแหล่งที่มา เช่น Amazon Simple Storage Service (Amazon S3) และคำนวณเมตริกผ่านชุดการสืบค้นรวมที่ปรับให้เหมาะสม คุณมีสิทธิ์เข้าถึงเมตริกดิบที่คำนวณจากข้อมูลได้โดยตรง
– การตรวจสอบข้อจำกัด — ในฐานะผู้ใช้ คุณมุ่งเน้นที่การกำหนดชุดข้อจำกัดด้านคุณภาพข้อมูลที่จะตรวจสอบ Deequดูแลในการรับชุดเมตริกที่จำเป็นสำหรับการคำนวณจากข้อมูล Deequสร้างรายงานคุณภาพข้อมูลที่มีผลการตรวจสอบข้อจำกัด
– คำแนะนำข้อจำกัด — คุณสามารถเลือกที่จะกำหนดข้อจำกัดด้านคุณภาพข้อมูลของคุณเองหรือใช้วิธีการแนะนำข้อจำกัดอัตโนมัติที่ทำโปรไฟล์ข้อมูลเพื่ออนุมานข้อจำกัดที่มีประโยชน์
– Python wrappers — คุณสามารถเรียกใช้แต่ละ ฟังก์ชัน Deequโดยใช้ไวยากรณ์ของ Python ตัวห่อจะแปลคำสั่งเป็นการ เรียก Deequ ที่แฝงอยู่ และส่งคืนการตอบกลับ
ตัวอย่างตามวงจรคุณภาพข้อมูล
ลองนึกถึงบริษัทข้ามชาติที่ให้บริการเงินกู้ และบริษัทนี้อยู่ในขั้นตอนของการดำเนินการ Lakehouse ซึ่งมีวัตถุประสงค์หลักคือการรวมศูนย์ คุณภาพ และการวิเคราะห์ข้อมูล เราจะมุ่งเน้นไปที่คุณภาพของข้อมูล โดยใช้Data Qality Lifecycle
การค้นพบข้อมูล — เราจะเริ่มต้นด้วยขั้นตอนการค้นหาข้อมูล
- หนึ่งในแหล่งข้อมูลที่สำคัญที่สุดและจะเป็นแหล่งข้อมูลแรกที่ถูกนำเข้าโดยLakehouseคือเอนทิตี: สินเชื่อลูกค้าทั่วโลกจากฐานข้อมูล ERP ของบริษัท ซึ่งประกอบด้วย:
- ชื่อเต็มของลูกค้า;
ประเภทลูกค้าที่มีค่าที่เป็นไปได้ 2 ค่า: บุคคลธรรมดาหรือเชิงพาณิชย์; - หมายเลขประกันสังคมสี่หลักสุดท้ายของลูกค้า
- ยอดสินเชื่อคงค้างของลูกค้า
- รายได้ดอกเบี้ยเงินกู้ของลูกค้า
- รายได้จากค่าธรรมเนียมสินเชื่อลูกค้า
- สินเชื่อลูกค้าค้ำประกันตามประเภททรัพย์สิน
- ประเทศที่อยู่อาศัยของลูกค้า
การทำโปรไฟล์ข้อมูล — เมื่อระบุแหล่งข้อมูล ฯลฯ แล้วสจ๊วตข้อมูลจะดำเนินการจัดทำโปรไฟล์ข้อมูล ซึ่งรวมถึงการตรวจสอบข้อมูลเบื้องต้น การตรวจสอบคุณภาพข้อมูลตัวอย่าง คำแนะนำกฎ และการอนุมัติกฎการทำโปรไฟล์ข้อมูลขั้นสุดท้าย คุณภาพของข้อมูล ดูรูป ตัวอย่าง:
- สจ๊วตข้อมูลจะเลือกเมตริกคุณภาพข้อมูลชุดเริ่มต้นเพื่อเรียกใช้บนไฟล์อินพุตใหม่ทั้งหมด ในตัวอย่างนี้ เราจะใช้ส่วนย่อยของเอนทิตี สินเชื่อลูกค้าทั่วโลก และจัดทำโปรไฟล์ข้อมูลโดยใช้ชุดเมตริกต่อไปนี้:
- ความครบถ้วนสมบูรณ์ของข้อมูล (เช่น มีช่องที่มีข้อมูลขาดหายไป)
- จำนวนที่แตกต่างกันในประเภทของลูกค้า
- จำนวนที่แตกต่างกันในประเทศที่พำนัก
- จำนวนเงินกู้ค้ำประกันที่แตกต่างกันตามประเภททรัพย์สิน
- ประเภทข้อมูลในสี่หลักสุดท้ายของ SSN;
- ประเภทข้อมูลยอดคงค้าง ดอกเบี้ยรับ และรายได้ค่าธรรมเนียม
- เครื่องมือเช่นPyDeequมีโมดูลสำหรับแนะนำการตรวจสอบคุณภาพข้อมูล เช่น การตรวจสอบประเภทข้อมูลและค่าที่ยอมรับได้
กฎข้อมูล — เมื่อกฎการทำโปรไฟล์คุณภาพข้อมูลเสร็จสิ้น (ขั้นตอนก่อนหน้า) กฎเหล่านี้จะถูกป้อนเข้าสู่ขั้นตอนการตรวจสอบ ซึ่งการตรวจสอบคุณภาพข้อมูลจริงจะดำเนินการในไฟล์อินพุตเพื่อตรวจสอบความถูกต้องของข้อมูลและดูว่าข้อมูลเหมาะสมหรือไม่ เพื่อวัตถุประสงค์ ต้องสร้างรายงานข้อยกเว้นด้านคุณภาพข้อมูล คุณภาพของข้อมูล
การกระจายข้อมูล & การแก้ไข — จากรายงานที่สร้างขึ้นในขั้นตอนที่แล้วสจ๊วตข้อมูลจะแจกจ่ายรายงานไปยังบุคคลหรือภาคส่วนที่รับผิดชอบ และพวกเขาจะให้การปรับเปลี่ยน (การแก้ไข) ซึ่งอาจเป็นได้ เช่น การสร้างกฎใน ระบบ ERP ในเอนทิตี: สินเชื่อลูกค้าทั่วโลกเพื่อกำหนดประเภทลูกค้า เช่น ไม่อนุญาตให้ผู้ใช้ป้อนข้อมูลนี้ด้วยตนเอง อีกตัวอย่างหนึ่งคือการสร้างมาสก์สำหรับหมายเลขประกันสังคม
การตรวจสอบข้อมูล — กระบวนการนี้ดูแลการตรวจสอบอย่างต่อเนื่องของกระบวนการแก้ไข ตัวอย่างเช่น การตรวจสอบการปรับเปลี่ยนที่ร้องขอจากซัพพลายเออร์ ERP นอกเหนือจากการสร้างแผงควบคุมคุณภาพข้อมูลสำหรับความต้องการที่หลากหลายที่สุด ที่นี่คุณสามารถใช้เครื่องมือการแสดงภาพข้อมูล เช่น AWS Quicksightหรือ Microsoft Power BI เป็นต้น
ฉันหวังว่าบทความนี้จะให้ภาพรวมของคุณภาพข้อมูลและลักษณะของกระบวนการคุณภาพข้อมูล ตอกย้ำแนวคิดที่ว่าข้อมูลที่มีคุณภาพทำให้เกิดการวิเคราะห์และข้อมูลเชิงลึกที่มีคุณภาพ ซึ่งเพิ่มมูลค่าให้กับธุรกิจขององค์กรอย่างแท้จริง
THAI-PDPA เปิดให้คำปรึกษาโดยผู้เชี่ยวชาญแบบครบวงจร ด้วยเทคโนโลยี Data Protection Services ที่แนะนำให้ไปประยุกต์ใช้เพื่อปกป้องข้อมูลพนักงานและลูกค้า
ผู้ที่สนใจใช้บริการ Data Protection Services ของ THAI-PDPA สามารถติดต่อฝ่ายขายที่ดูแลคุณหรือฝ่ายการตลาดได้ที่เบอร์ 0-2860-6659 หรืออีเมล dcs@ko.in.th สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ เพราะเป็นราคาที่สุดคุ้มที่สุด
หากท่านมีความสนใจ บทความ หรือ Technology
สามารถติดต่อได้ตามเบอร์ที่ให้ไว้ด้านล่างนี้
Tel.086-594-5494
Tel.095-919-6699
สนใจรับคำปรึกษาด้านวางระบบจัดการเอกสารอิเล็กทรอนิกส์ EDMS โดยทีมงานผู้เชี่ยวชาญจาก K&O ที่มีประสบการณ์มากว่า 15 ปี รวมถึงซอฟต์แวร์ระดับโลก ติดต่อ 0 2 – 8 6 0 – 6 6 5 9
หรือ E m a i l : c s @ k o . i n . t h สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ เพราะเป็นราคาที่สุด คุ้มที่สุด
Leave A Comment?