คุณภาพของข้อมูล ความลับของการวิเคราะห์ที่ดี

คุณภาพของข้อมูล หรือData Qualityเกี่ยวข้องกับคุณภาพของข้อมูลที่จัดเก็บไว้ในองค์กรของคุณ กล่าวคือ ยิ่งข้อมูลมีความสมบูรณ์ ถูกต้อง และสอดคล้องกันมากเท่าใด คุณภาพของข้อมูลก็จะยิ่งสูงขึ้นเท่านั้น

การรับประกันคุณภาพข้อมูลส่งผลกระทบโดยตรงต่อธุรกิจขององค์กร โดยใช้ประโยชน์จากข้อมูลที่มีอยู่ทั้งหมดเพื่อรับข้อมูลเชิงลึก ใหม่ๆ นอกเหนือจากการสนับสนุนการตัดสินใจและประโยชน์อื่นๆ ที่เครื่องมือต่างๆ เช่นBusiness IntelligenceและMachine Learningนำมาสู่ธุรกิจ

วิธีการใช้และรักษาคุณภาพข้อมูล ?

มีหลายวิธีในการปรับใช้นโยบายคุณภาพข้อมูล หนึ่งในนั้นคือการใช้Data Quality Lifecycleซึ่งเราจะให้รายละเอียดเพิ่มเติมอีกเล็กน้อยในบทความนี้

วงจรชีวิตคุณภาพข้อมูลคือลำดับของกระบวนการที่โครงการคุณภาพข้อมูลดำเนินไปตั้งแต่เริ่มต้นจนถึงสิ้นสุด ดังแสดงในรูปที่ 1 มี 6 ขั้นตอนและเราจะอธิบายแต่ละขั้นตอนด้านล่าง

การค้นหา ข้อมูล:หมายถึงการรวบรวมข้อกำหนด การระบุแหล่งที่มาของแอปพลิเคชัน การรวบรวมข้อมูล การจัดองค์กรและการจัดประเภทของรายงานคุณภาพข้อมูล

การทำโปรไฟล์ข้อมูล:หมายถึงการตรวจสอบเบื้องต้น การตรวจสอบคุณภาพข้อมูลตัวอย่าง คำแนะนำกฎ และการอนุมัติกฎคุณภาพข้อมูลขั้นสุดท้าย

กฎของข้อมูล:สิ่งนี้เกี่ยวข้องกับการดำเนินการตามกฎทางธุรกิจขั้นสุดท้ายเพื่อตรวจสอบความถูกต้องของข้อมูลและความเหมาะสมสำหรับวัตถุประสงค์

การกระจายและการแก้ไขข้อมูล:หมายถึงกระบวนการแจกจ่ายรายงานคุณภาพข้อมูลให้กับฝ่ายที่รับผิดชอบและเริ่มกระบวนการแก้ไข

การตรวจสอบข้อมูล:หมายถึงการตรวจสอบอย่างต่อเนื่องของกระบวนการแก้ไขและการสร้างแดชบอร์ดและดัชนีชี้วัดคุณภาพข้อมูล

เครื่องมือPyDeequ

มีเครื่องมือที่สามารถช่วยในกระบวนการนี้ และเราจะแสดงความคิดเห็นเกี่ยวกับDeequ Deequเป็นไลบรารีที่สร้างขึ้นบนApache Sparkเพื่อกำหนด “การทดสอบหน่วยสำหรับข้อมูล” ซึ่งจะวัดคุณภาพของข้อมูลในชุดข้อมูลขนาดใหญ่

ผู้ผลิตชุดข้อมูลและ/หรือผู้ดูแลข้อมูลสามารถเพิ่มและแก้ไขข้อจำกัดด้านคุณภาพข้อมูลได้ ระบบจะคำนวณมาตรวัดคุณภาพอย่างสม่ำเสมอ (ด้วยชุดข้อมูลเวอร์ชันใหม่แต่ละชุด) ตรวจสอบข้อจำกัดที่กำหนดโดยผู้ผลิตชุดข้อมูล และเผยแพร่ชุดดังกล่าวแก่ผู้บริโภคเมื่อประสบความสำเร็จ ในกรณีที่เกิดข้อผิดพลาด สามารถหยุดการเผยแพร่ชุดข้อมูลและแจ้งให้ผู้ผลิตและ/หรือผู้ดูแลข้อมูลทราบเพื่อดำเนินการ ปัญหาด้านคุณภาพของข้อมูลจะไม่แพร่กระจายไปยังท่อส่ง ข้อมูลของผู้บริโภค ทำให้รัศมีการระเบิดลดลง

Deequยังใช้ใน Amazon SageMaker Model Monitor อีกด้วย ขณะนี้ ด้วยความพร้อมใช้งานของPyDeequคุณจึงใช้งานได้ในชุดสภาพแวดล้อมที่กว้างขึ้น — สมุดบันทึก Amazon SageMaker, AWS Glue, Amazon EMR และอื่นๆ

มาดูองค์ประกอบหลักของPyDeequและความเกี่ยวข้องของDeequ :

– การคำนวณเมตริก — Deequคำนวณเมตริกคุณภาพข้อมูล ซึ่งก็คือสถิติ เช่น ความสมบูรณ์ ค่าสูงสุด หรือความสัมพันธ์ Deequใช้Sparkเพื่ออ่านแหล่งที่มา เช่น Amazon Simple Storage Service (Amazon S3) และคำนวณเมตริกผ่านชุดการสืบค้นรวมที่ปรับให้เหมาะสม คุณมีสิทธิ์เข้าถึงเมตริกดิบที่คำนวณจากข้อมูลได้โดยตรง

– การตรวจสอบข้อจำกัด — ในฐานะผู้ใช้ คุณมุ่งเน้นที่การกำหนดชุดข้อจำกัดด้านคุณภาพข้อมูลที่จะตรวจสอบ Deequดูแลในการรับชุดเมตริกที่จำเป็นสำหรับการคำนวณจากข้อมูล Deequสร้างรายงานคุณภาพข้อมูลที่มีผลการตรวจสอบข้อจำกัด

– คำแนะนำข้อจำกัด — คุณสามารถเลือกที่จะกำหนดข้อจำกัดด้านคุณภาพข้อมูลของคุณเองหรือใช้วิธีการแนะนำข้อจำกัดอัตโนมัติที่ทำโปรไฟล์ข้อมูลเพื่ออนุมานข้อจำกัดที่มีประโยชน์

– Python wrappers — คุณสามารถเรียกใช้แต่ละ ฟังก์ชัน Deequโดยใช้ไวยากรณ์ของ Python ตัวห่อจะแปลคำสั่งเป็นการ เรียก Deequ ที่แฝงอยู่ และส่งคืนการตอบกลับ

ตัวอย่างตามวงจรคุณภาพข้อมูล

ลองนึกถึงบริษัทข้ามชาติที่ให้บริการเงินกู้ และบริษัทนี้อยู่ในขั้นตอนของการดำเนินการ Lakehouse ซึ่งมีวัตถุประสงค์หลักคือการรวมศูนย์ คุณภาพ และการวิเคราะห์ข้อมูล เราจะมุ่งเน้นไปที่คุณภาพของข้อมูล โดยใช้Data Qality Lifecycle

การค้นพบข้อมูล — เราจะเริ่มต้นด้วยขั้นตอนการค้นหาข้อมูล

  • หนึ่งในแหล่งข้อมูลที่สำคัญที่สุดและจะเป็นแหล่งข้อมูลแรกที่ถูกนำเข้าโดยLakehouseคือเอนทิตี: สินเชื่อลูกค้าทั่วโลกจากฐานข้อมูล ERP ของบริษัท ซึ่งประกอบด้วย:
  • ชื่อเต็มของลูกค้า;
    ประเภทลูกค้าที่มีค่าที่เป็นไปได้ 2 ค่า: บุคคลธรรมดาหรือเชิงพาณิชย์;
  • หมายเลขประกันสังคมสี่หลักสุดท้ายของลูกค้า
  • ยอดสินเชื่อคงค้างของลูกค้า
  • รายได้ดอกเบี้ยเงินกู้ของลูกค้า
  • รายได้จากค่าธรรมเนียมสินเชื่อลูกค้า
  • สินเชื่อลูกค้าค้ำประกันตามประเภททรัพย์สิน
  • ประเทศที่อยู่อาศัยของลูกค้า

การทำโปรไฟล์ข้อมูล — เมื่อระบุแหล่งข้อมูล ฯลฯ แล้วสจ๊วตข้อมูลจะดำเนินการจัดทำโปรไฟล์ข้อมูล ซึ่งรวมถึงการตรวจสอบข้อมูลเบื้องต้น การตรวจสอบคุณภาพข้อมูลตัวอย่าง คำแนะนำกฎ และการอนุมัติกฎการทำโปรไฟล์ข้อมูลขั้นสุดท้าย คุณภาพของข้อมูล ดูรูป ตัวอย่าง:

  • สจ๊วตข้อมูลจะเลือกเมตริกคุณภาพข้อมูลชุดเริ่มต้นเพื่อเรียกใช้บนไฟล์อินพุตใหม่ทั้งหมด ในตัวอย่างนี้ เราจะใช้ส่วนย่อยของเอนทิตี สินเชื่อลูกค้าทั่วโลก และจัดทำโปรไฟล์ข้อมูลโดยใช้ชุดเมตริกต่อไปนี้:
  • ความครบถ้วนสมบูรณ์ของข้อมูล (เช่น มีช่องที่มีข้อมูลขาดหายไป)
  • จำนวนที่แตกต่างกันในประเภทของลูกค้า
  • จำนวนที่แตกต่างกันในประเทศที่พำนัก
  • จำนวนเงินกู้ค้ำประกันที่แตกต่างกันตามประเภททรัพย์สิน
  • ประเภทข้อมูลในสี่หลักสุดท้ายของ SSN;
  • ประเภทข้อมูลยอดคงค้าง ดอกเบี้ยรับ และรายได้ค่าธรรมเนียม
  • เครื่องมือเช่นPyDeequมีโมดูลสำหรับแนะนำการตรวจสอบคุณภาพข้อมูล เช่น การตรวจสอบประเภทข้อมูลและค่าที่ยอมรับได้

กฎข้อมูล — เมื่อกฎการทำโปรไฟล์คุณภาพข้อมูลเสร็จสิ้น (ขั้นตอนก่อนหน้า) กฎเหล่านี้จะถูกป้อนเข้าสู่ขั้นตอนการตรวจสอบ ซึ่งการตรวจสอบคุณภาพข้อมูลจริงจะดำเนินการในไฟล์อินพุตเพื่อตรวจสอบความถูกต้องของข้อมูลและดูว่าข้อมูลเหมาะสมหรือไม่ เพื่อวัตถุประสงค์ ต้องสร้างรายงานข้อยกเว้นด้านคุณภาพข้อมูล คุณภาพของข้อมูล

การกระจายข้อมูล & การแก้ไข — จากรายงานที่สร้างขึ้นในขั้นตอนที่แล้วสจ๊วตข้อมูลจะแจกจ่ายรายงานไปยังบุคคลหรือภาคส่วนที่รับผิดชอบ และพวกเขาจะให้การปรับเปลี่ยน (การแก้ไข) ซึ่งอาจเป็นได้ เช่น การสร้างกฎใน ระบบ ERP ในเอนทิตี: สินเชื่อลูกค้าทั่วโลกเพื่อกำหนดประเภทลูกค้า เช่น ไม่อนุญาตให้ผู้ใช้ป้อนข้อมูลนี้ด้วยตนเอง อีกตัวอย่างหนึ่งคือการสร้างมาสก์สำหรับหมายเลขประกันสังคม

การตรวจสอบข้อมูล — กระบวนการนี้ดูแลการตรวจสอบอย่างต่อเนื่องของกระบวนการแก้ไข ตัวอย่างเช่น การตรวจสอบการปรับเปลี่ยนที่ร้องขอจากซัพพลายเออร์ ERP นอกเหนือจากการสร้างแผงควบคุมคุณภาพข้อมูลสำหรับความต้องการที่หลากหลายที่สุด ที่นี่คุณสามารถใช้เครื่องมือการแสดงภาพข้อมูล เช่น AWS Quicksightหรือ Microsoft Power BI เป็นต้น

ฉันหวังว่าบทความนี้จะให้ภาพรวมของคุณภาพข้อมูลและลักษณะของกระบวนการคุณภาพข้อมูล ตอกย้ำแนวคิดที่ว่าข้อมูลที่มีคุณภาพทำให้เกิดการวิเคราะห์และข้อมูลเชิงลึกที่มีคุณภาพ ซึ่งเพิ่มมูลค่าให้กับธุรกิจขององค์กรอย่างแท้จริง

THAI-PDPA เปิดให้คำปรึกษาโดยผู้เชี่ยวชาญแบบครบวงจร ด้วยเทคโนโลยี Data Protection Services ที่แนะนำให้ไปประยุกต์ใช้เพื่อปกป้องข้อมูลพนักงานและลูกค้า
ผู้ที่สนใจใช้บริการ Data Protection Services ของ THAI-PDPA สามารถติดต่อฝ่ายขายที่ดูแลคุณหรือฝ่ายการตลาดได้ที่เบอร์ 0-2860-6659 หรืออีเมล dcs@ko.in.th สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ เพราะเป็นราคาที่สุดคุ้มที่สุด
หากท่านมีความสนใจ บทความ หรือ Technology
สามารถติดต่อได้ตามเบอร์ที่ให้ไว้ด้านล่างนี้
Tel.086-594-5494
Tel.095-919-6699
สนใจรับคำปรึกษาด้านวางระบบจัดการเอกสารอิเล็กทรอนิกส์  EDMS โดยทีมงานผู้เชี่ยวชาญจาก K&O ที่มีประสบการณ์มากว่า 15 ปี รวมถึงซอฟต์แวร์ระดับโลก ติดต่อ 0 2 – 8 6 0 – 6 6 5 9
หรือ E m a i l : c s @ k o . i n . t h สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ เพราะเป็นราคาที่สุด คุ้มที่สุด

Leave A Comment?