ทำความเข้าใจเกี่ยวกับความสัมพันธ์เพื่อทำ ความเข้าใจความลับของข้อมูล

ความเข้าใจความลับของข้อมูล ฉันไม่ชอบพูดถึงทฤษฎีสัมพันธ์ของข้อมูล เป็นพื้นฐานอย่างยิ่งในการทำความเข้าใจข้อมูลอย่างลึกซึ้ง แต่ผู้ปฏิบัติงานส่วนใหญ่ก็เข้ากันได้ดีหากไม่มีข้อมูลดังกล่าว ผู้ใช้ระบบจัดการฐานข้อมูล (DBMS) จำเป็นต้องเข้าใจทฤษฎีเชิงสัมพันธ์มากกว่า ดังนั้น การสอนทฤษฎีเชิงสัมพันธ์ให้กับผู้ปฏิบัติงานทั่วไปจึงค่อนข้างเหมือนกับการทรมานผู้คนด้วยทฤษฎีที่ไม่เกี่ยวข้องก่อนที่คุณจะปล่อยให้พวกเขาเริ่มทำธุรกิจ ยิ่งกว่านั้น ผู้ที่เข้าใจทฤษฎีเชิงสัมพันธ์บางคนใช้ความรู้ของตนเอาชนะคนอื่นแบบหัวปักหัวปำ ฉันไม่ต้องการที่จะเชื่อมโยงกับแนวทางระดับสูงในทฤษฎีที่สำคัญนี้

แต่ฉันได้รับการกระตุ้น Google ทำให้ฉันทำมัน

ความสนใจของฉันถูกดึงดูดไปที่วิดีโอที่บางคนที่ Google นำเสนอการสร้างแบบจำลองข้อมูลสำหรับ BigQuery วิดีโอส่วนใหญ่ใช้ได้ดี แต่มันทำให้การแสดงข้อมูลที่ขัดต่อข้อเท็จจริงเกี่ยวกับทฤษฎีเชิงสัมพันธ์ที่ทำให้ฉันคลั่งไคล้ พวกเขาทำซ้ำความเข้าใจผิดที่ยอมรับกันทั่วไปเกี่ยวกับฐานข้อมูลเชิงสัมพันธ์—ความเข้าใจผิดที่โชคไม่ดีที่ได้ผลักดัน “ความก้าวหน้า” บางอย่างที่เราเคยเห็นในช่วงหลังของขอบเขตของเทคโนโลยีฐานข้อมูล มีความก้าวหน้าที่แท้จริงอยู่บ้าง แต่เทคโนโลยีใหม่บางอย่างก็แตกต่างออกไปโดยไม่ได้ดีไปกว่านั้น

หากคุณเป็นผู้ปฏิบัติงานด้านการออกแบบ การนำไปใช้ และการใช้ฐานข้อมูล ไม่ว่าจะเป็น SQL หรือ NoSQL สิ่งนี้จะไม่สำคัญกับคุณมากนัก แม้ว่าการเรียนรู้เพิ่มเติมเล็กน้อยเกี่ยวกับทฤษฎีข้อมูลจะไม่ใช่เรื่องเสียหายก็ตาม อย่างไรก็ตามหากคุณเป็นโปรแกรมเมอร์ซึ่งอาจเป็นผู้สร้าง NoSQL mega-star คนต่อไปที่จะมาแทนที่เทคโนโลยีที่มีอายุหลายสิบปี คุณต้องรู้เรื่องนี้ เพราะความรู้นี้จะช่วยให้คุณมองไม่เห็นผู้ขาย DBMS ที่จัดตั้งขึ้นทุกราย ไม่ว่าจะเป็น SQL หรือ NoSQL

ดังนั้นฉันจะแก้ไขบันทึกที่นี่

ทฤษฎีข้อมูลเชิงสัมพันธ์ไม่ได้บอกเราถึงวิธีการจัดเก็บข้อมูล (ในตาราง) แต่มันบอกเราถึงวิธีการทำความเข้าใจข้อมูล

ดูเผินๆ ดูเหมือนว่าทฤษฎีเชิงสัมพันธ์นำเสนอแนวคิดในการจัดเก็บข้อมูลในรูปแบบตาราง และมีความจริงบางประการสำหรับสิ่งนั้น อย่างไรก็ตาม เมื่อคุณถือว่าทฤษฎีเชิงสัมพันธ์เป็นตรรกะล้วน ๆ โดยแยกออกจากสมมติฐานใด ๆ เกี่ยวกับหน่วยเก็บข้อมูลจริง คุณตระหนักดีว่าทฤษฎีดังกล่าวให้ทฤษฎีข้อมูลที่ครอบคลุมเพียงทฤษฎีเดียวที่ใช้ได้ผลกับข้อมูลที่จัดเก็บในรูปแบบต่าง ๆ ไม่ว่าจะเป็นตาราง (เชิงแถว เชิงคอลัมน์ หรือคีย์/ค่า), เอกสาร (XML หรือ JSON), กราฟ หรืออะไรก็ตาม

ให้ฉันแก้ไขข้อมูลที่ขัดต่อข้อเท็จจริงในวิดีโอ Google

ข้อมูลที่ไม่ถูกต้อง #1: แบบจำลองเชิงสัมพันธ์ของข้อมูลนั้นเกี่ยวกับการเลียนแบบความสัมพันธ์ในโลกแห่งความเป็นจริง (2:55)

ฐานข้อมูลทั้งหมด ไม่ใช่แค่ฐานข้อมูลเชิงสัมพันธ์เท่านั้น เลียนแบบความสัมพันธ์ในโลกแห่งความเป็นจริง ฐานข้อมูลเอกสารเลียนแบบความสัมพันธ์ในโลกแห่งความจริงระหว่างฟิลด์ต่างๆ ของเอกสาร และแน่นอนว่าฐานข้อมูลกราฟจะเลียนแบบความสัมพันธ์ระหว่างโหนดของกราฟ ฐานข้อมูลแบบตารางเลียนแบบความสัมพันธ์ระหว่างคอลัมน์ของตาราง

บางทีความเชื่อนี้ที่ว่าทฤษฎีเชิงสัมพันธ์มีลักษณะเฉพาะเกี่ยวกับการเลียนแบบความสัมพันธ์ในโลกแห่งความเป็นจริง มาจากข้อเท็จจริงที่ว่า “ความสัมพันธ์” และ “ความสัมพันธ์” ในภาษาอังกฤษทั่วไปเป็นคำพ้องความหมาย น่าเสียดายที่ “ความสัมพันธ์” ในทฤษฎีเชิงสัมพันธ์ไม่ได้หมายถึงความสัมพันธ์ พูดง่ายๆ ก็คือ “ความสัมพันธ์” ของทฤษฎีเชิงสัมพันธ์คือตารางที่ลำดับของแถวและคอลัมน์ไม่มีข้อมูล ความสัมพันธ์เป็นอย่างอื่น เป็นโศกนาฏกรรมทางคำศัพท์ที่ทฤษฎีเชิงสัมพันธ์ทำให้คำว่า “ความสัมพันธ์” มากเกินไป และสร้างความสับสนให้กับ “ความสัมพันธ์”

การแสดงข้อมูลที่ขัดต่อข้อเท็จจริง #2: ค่าใช้จ่ายของข้อมูลทำให้เกิดความปรารถนาที่จะขจัดความซ้ำซ้อน (6:44)

ทฤษฎีเชิงสัมพันธ์ของข้อมูลได้รับการแนะนำสู่โลกในปี 1970 เมื่อ EF “Ted” Codd นักวิจัยของ IBM ตีพิมพ์บทความเรื่องA Relational Model of Data for Large Shared Data Banks ในเอกสารฉบับนี้ เขากล่าวว่า “แม้ว่าจะไม่จำเป็นในทางตรรกะที่จะจัดเก็บทั้งความสัมพันธ์และการเรียงสับเปลี่ยนบางอย่างของมัน แต่การพิจารณาประสิทธิภาพอาจทำให้เหมาะสม” เขาสนับสนุนการทำสำเนาข้อมูลหากจะทำให้ฐานข้อมูลทำงานได้ดีขึ้น

ข้อมูลที่ไม่ถูกต้อง #3: การพึ่งพาคีย์เป็นสิ่งสำคัญในการขจัดความซ้ำซ้อนของข้อมูล (7:34)

ใช่ แต่ความปรารถนาที่จะกำจัดการทำซ้ำข้อมูลไม่ใช่เพราะต้นทุนการจัดเก็บสูงในปี 1970 เป็นเพราะความซ้ำซ้อนของข้อมูลนำไปสู่ศักยภาพของข้อมูลที่ไม่สอดคล้องกัน ตัวอย่างเช่น ข้อมูลในส่วนหนึ่งของฐานข้อมูลอาจได้รับการอัปเดต ในขณะที่ข้อมูลในส่วนอื่นของฐานข้อมูลที่ควรจะเหมือนกัน (นั่นคือ ซ้ำกัน) อาจไม่ได้รับการแก้ไขอย่างไม่ถูกต้อง ผลลัพธ์อาจเป็นได้ว่าข้อความค้นหาต่างๆ ในฐานข้อมูลส่งคืนผลลัพธ์ที่ไม่สอดคล้องกัน

โปรดทราบว่าบทความนี้เขียนขึ้นในยุคที่ไม่มีใครนึกถึงฐานข้อมูลแบบกระจายที่มีเซิร์ฟเวอร์หลายร้อยเครื่องที่ทำงานอย่างหนักเพื่อให้ข้อมูลสอดคล้องกันทั่วทั้งโหนด สมมติฐานในเอกสาร Relational Model คือข้อมูลทั้งหมดอยู่ในฐานข้อมูลโหนดเดียว ความไม่สอดคล้องกันจะเป็นผลลัพธ์ ไม่ใช่จากการกระจายข้อมูลทางกายภาพ แต่เป็นการออกแบบที่อนุญาตให้มีการทำซ้ำข้อมูล เป้าหมายของการทำให้ทุกอย่างขึ้นอยู่กับคีย์คือความถูกต้อง ไม่ใช่การลดพื้นที่จัดเก็บ และอีกครั้ง Codd อนุญาตสำหรับการทำซ้ำข้อมูลโดยเจตนาหากช่วยในด้านประสิทธิภาพ ความเข้าใจความลับของข้อมูล

ข้อมูลที่ไม่ถูกต้อง #4: การพึ่งพาคีย์มีความสำคัญเนื่องจากการเข้าถึงแบบแถว (9:34)

ผิดอีกแล้ว ความจริงก็คือ เพื่อที่จะเข้าใจชุดข้อมูลใด ๆ เราต้องรู้ว่าส่วนใดของข้อมูลที่ทำให้ข้อมูลนั้นมีเอกลักษณ์และแตกต่างจากชุดข้อมูลอื่น ๆ ส่วนที่ทำให้เป็นเอกลักษณ์คือกุญแจสำคัญ นั่นเป็นความแตกต่างเชิงตรรกะ และไม่เกี่ยวข้องกับว่าข้อมูลถูกจัดเก็บไว้ในแถว คอลัมน์ เอกสาร กราฟ หรืออะไรก็ตาม

เหตุใดทฤษฎีเชิงสัมพันธ์จึงมีความสำคัญ

ทฤษฎีเชิงสัมพันธ์ เมื่อเข้าใจอย่างถูกต้อง และเมื่อแยกออกจากข้อพิจารณาทั้งหมดเกี่ยวกับที่เก็บข้อมูลจริง จะทำให้เราเข้าใจ อธิบาย และออกแบบข้อมูลใดๆ ในระดับตรรกะได้ หากนำไปใช้อย่างเหมาะสม จะทำให้เรา มี อิสระด้านข้อมูลซึ่งหมายถึงความเป็นอิสระจากรูปแบบการจัดเก็บ ความเป็นอิสระนั้นมีความสำคัญอย่างยิ่ง เพื่อให้เราสามารถจัดเก็บข้อมูลเดียวกันในรูปแบบทางกายภาพที่แตกต่างกันจำนวนมากโดยไม่บิดเบือนหรือทำลายข้อมูลในทางใดทางหนึ่ง

DBMS Rock-Star คุณกำลังฟังอยู่หรือเปล่า

DBMS ที่จะกำจัดการแข่งขันทั้งหมดจะ:

  1. ปฏิบัติต่อองค์กรข้อมูลทางกายภาพที่เป็นไปได้ทั้งหมดเป็นรายละเอียดการใช้งาน และสนับสนุนทั้งหมด
  2. มีคุณลักษณะพื้นฐานคือความสามารถในการจัดการการทำซ้ำข้อมูลโดยเจตนา ไม่เพียงแต่การทำซ้ำในดัชนีเท่านั้น แต่ยังรวมถึงการทำสำเนาโดยเจตนาในตาราง เอกสาร และกราฟที่ปรับให้เป็นมาตรฐาน และ
  3. มีภาษาข้อมูลเชิงตรรกะที่สามารถอธิบายข้อมูลใด ๆ ไม่ว่าจะจัดเก็บหรือแสดงอย่างไร โดยไม่ต้องอ้างอิงถึงการจัดเก็บหรือการเป็นตัวแทน

คุณสมบัติสุดท้ายสามารถทำได้โดยภาษาข้อมูลที่ซื่อสัตย์ต่อทฤษฎีข้อมูลเชิงสัมพันธ์เท่านั้น

THAI-PDPA เปิดให้คำปรึกษาโดยผู้เชี่ยวชาญแบบครบวงจร ด้วยเทคโนโลยี Data Protection Services ที่แนะนำให้ไปประยุกต์ใช้เพื่อปกป้องข้อมูลพนักงานและลูกค้า

ผู้ที่สนใจใช้บริการ Data Protection Services ของ THAI-PDPA สามารถติดต่อฝ่ายขายที่ดูแลคุณหรือฝ่ายการตลาดได้ที่เบอร์ 0-2860-6659 หรืออีเมล dcs@ko.in.th สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ เพราะเป็นราคาที่สุดคุ้มที่สุด

หากท่านมีความสนใจ บทความ หรือ Technology
สามารถติดต่อได้ตามเบอร์ที่ให้ไว้ด้านล่างนี้
Tel.086-594-5494
Tel.095-919-6699

สนใจรับคำปรึกษาด้านวางระบบจัดการเอกสารอิเล็กทรอนิกส์  EDMS โดยทีมงานผู้เชี่ยวชาญจาก K&O ที่มีประสบการณ์มากว่า 15 ปี รวมถึงซอฟต์แวร์ระดับโลก ติดต่อ 0 2 – 8 6 0 – 6 6 5 9

หรือ E m a i l : c s @ k o . i n . t h สอบถามได้สบายใจทั้ง เรื่องค่าบริการ ราคา และ งบประมาณ เพราะเป็นราคาที่สุด คุ้มที่สุด

Leave A Comment?