ข้อมูลทุกชุดมีวงจรชีวิตตั้งแต่วินาทีที่ถูกสร้างขึ้น จนถึงวันที่หมดความจำเป็น การบริหารจัดการวงจรนี้อย่างเป็นระบบ มีความสำคัญอย่างยิ่งในยุค AI ดังนี้:

1. นโยบายการจัดเก็บและทำลายข้อมูล (Retention & Disposal Policy)
- องค์กรต้องกำหนดนโยบายที่ชัดเจนว่าข้อมูลแต่ละประเภทจะถูกจัดเก็บไว้นานเท่าใด (Retention Period) โดยอ้างอิงจากกฎหมาย (เช่น PDPA, พ.ร.บ. ข้อมูลข่าวสารฯ ระเบียบขององค์กร)
- การทำลายข้อมูล (Disposal): เมื่อครบกำหนด ข้อมูลต้องถูกทำลายหรือลบออกจากระบบอย่างถูกวิธี (Secure Deletion) เพื่อลดความเสี่ยงจากการรั่วไหลของข้อมูลเก่า และลดต้นทุนค่าใช้จ่ายในการจัดเก็บข้อมูล (Storage Cost) ที่ไม่จำเป็น

2. ผลกระทบของข้อมูลเก่าเก็บ (Stale Data) ต่อโมเดล AI
- Stale Data คือข้อมูลที่ไม่อัปเดตหรือหมดอายุความจริง การนำข้อมูลเหล่านี้ไปใช้ฝึกฝน (Train) โมเดล AI จะส่งผลให้เกิดปัญหา “Model Drift” หรือประสิทธิภาพของโมเดลลดลงตามกาลเวลา
- ตัวอย่าง: หากใช้ข้อมูลพฤติกรรมผู้บริโภคเมื่อ 5 ปีก่อนมาสอน AI ให้ทำนายยอดขายในปัจจุบัน ผลลัพธ์ที่ได้จะมีความคลาดเคลื่อนสูง เนื่องจากบริบททางเศรษฐกิจและสังคมได้เปลี่ยนแปลงไปแล้ว ดังนั้น การคัดกรองข้อมูลให้มีความ “สดใหม่” (Freshness) จึงเป็นสิ่งจำเป็น

3. การจัดการเวอร์ชันของชุดข้อมูล (Data Versioning) สำหรับ ML Ops
- ในกระบวนการพัฒนา AI (Machine Learning Operations – MLOps) ข้อมูลมีการเปลี่ยนแปลงตลอดเวลา การทำ Data Versioning เปรียบเสมือนการทำ Snapshot ของชุดข้อมูลในแต่ละช่วงเวลา
- ประโยชน์: ช่วยให้ทีมพัฒนาสามารถ “ตรวจสอบย้อนกลับ” (Reproducibility) ได้ว่า โมเดล AI เวอร์ชันนี้ ถูกสร้างขึ้นจากชุดข้อมูลเวอร์ชันใด หากโมเดลใหม่ทำงานผิดพลาด ทีมงานสามารถย้อนกลับไปใช้ข้อมูลและโมเดลเวอร์ชันก่อนหน้า (Rollback) ได้ทันที ซึ่งเป็นมาตรฐานสำคัญของการทำ Software Engineering ในงานข้อมูล
บทสรุป
การทำ Data Governance ที่ดี ไม่ใช่การเก็บรักษาข้อมูลทุกอย่างไว้ตลอดไป แต่คือการบริหารจัดการให้ข้อมูล “เกิด” อย่างมีคุณภาพ “อยู่” อย่างปลอดภัย และ “ตาย” (ถูกทำลาย) อย่างถูกวิธีเมื่อหมดประโยชน์ การใส่ใจใน Data Lifecycle จะช่วยให้ระบบ AI ขององค์กรทำงานอยู่บนพื้นฐานของข้อมูลที่เป็นปัจจุบันและมีประสิทธิภาพสูงสุด
คำถามเพื่อการมีส่วนร่วม (Engagement Questions)
- หน่วยงานของท่านมีนโยบายการลบข้อมูล (Data Disposal Policy) ที่เป็นลายลักษณ์อักษรแล้วหรือไม่ หรือเก็บข้อมูลไว้เรื่อยๆ โดยไม่มีกำหนด?
- ท่านคิดว่าความท้าทายที่สุดในการทำลายข้อมูลเก่าคืออะไร (ความเสียดาย, กลัวกฎหมาย, หรือระบบไม่รองรับ)?
- ในการทำงานร่วมกัน ท่านเคยประสบปัญหาความสับสนเนื่องจากมีไฟล์ข้อมูลหลายเวอร์ชันหรือไม่ และมีวิธีการจัดการอย่างไร?
ลิงก์ที่เกี่ยวข้อง (Related Links)
- NIST: Data Lifecycle Management Framework
- Google Cloud: MLOps: Continuous delivery and automation pipelines in machine learning
ติดตามตอนต่อไป
ในตอนหน้า (ตอนที่ 12) เราจะมาสำรวจ “เครื่องมือช่วยทำ Data Governance (The Tech Stack)” กันครับ ว่าในท้องตลาดมีเครื่องมืออะไรบ้างที่ช่วยให้เราทำ Data Catalog, Data Quality และ Lineage ได้แบบอัตโนมัติ ไม่ต้องทำมืออีกต่อไป โปรดติดตามครับ
Hashtags: #AdminTee #OncBlog #NavyITBlog #DataManagement #DataRetention #ModelDrift #MLOps #DigitalTransformation
ร่วมตอบคำถามชิงรางวัล เมื่อจบ Serries (ตอนที่ 15 มอบรางวัล)
https://docs.google.com/forms/d/1Q85P8JAa6bzMCM6IUcKZeWtaUGhanf7Z4kVdwzkvgNs/preview

Talk is cheap. Show me the code.
