Imputation Method in Missing Data
หรือการประมาณค่าข้อมูลสูญหาย
กรณีข้อมูลสูญหายแบบสุ่ม
จงเติมคำในช่องว่างนี้
ลองสมมติว่าเราส่งรูปนี้ให้คนที่เราแอบชอบคนหนึ่ง ลองคิดภาพสิ คำตอบที่คน ๆ หนึ่งจะสามารถเติมลงไปได้นั้น มันช่างหลากหลายเหลือเกิน ถ้าเขาส่งคำตอบกลับมาแล้ว เราค้นพบว่าสิ่งที่เขาตอบไม่ได้ตรงตามใจที่เราคิดไว้เลย เราคงจะเศร้า เท่านี้เราก็น่าจะพอเห็นภาพแล้วว่า การจัดการกับ Missing value นี้ ช่างมีผลกระทบต่อชีวิตและจิตใจได้เลยทีเดียว
![ตัวอย่าง Imputation Method in Missing Data หรือการประมาณค่าข้อมูลสูญหาย กรณีข้อมูลสูญหายแบบสุ่ม Imputation Method in Missing Data หรือการประมาณค่าข้อมูลสูญหาย กรณีข้อมูลสูญหายแบบสุ่ม](/web/image/1178-7f48095f/Roots_%E0%B8%88%E0%B8%B0%E0%B8%97%E0%B8%B3%E0%B9%82%E0%B8%A1%E0%B9%80%E0%B8%94%E0%B8%A5%E0%B8%97%E0%B8%B1%E0%B9%89%E0%B8%87%E0%B8%97%E0%B8%B5%20%E0%B9%81%E0%B8%95%E0%B9%88%E0%B8%A1%E0%B8%B5%E0%B8%82%E0%B9%89%E0%B8%AD%E0%B8%A1%E0%B8%B9%E0%B8%A5%E0%B8%AA%E0%B8%B9%E0%B8%8D%E0%B8%AB%E0%B8%B2%E0%B8%A2%20%28Missing%20Data%29%20%E0%B8%84%E0%B8%A7%E0%B8%A3%E0%B8%97%E0%B8%B3%E0%B8%AD%E0%B8%A2%E0%B9%88%E0%B8%B2%E0%B8%87%E0%B9%84%E0%B8%A3%E0%B8%94%E0%B8%B5_erp1_1.jpg?access_token=ba517183-19a2-4506-9175-33df602671a5)
ประเภทของข้อมูลสูญหาย
แบ่งได้ทั้งหมด 3 ประเภท ดังนี้
1. ข้อมูลสูญหายแบบสุ่มสมบูรณ์ (Missing Completely at Random Data: MCAR)
ความน่าจะเป็นของค่าสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y หรือค่าที่มีอยู่ของตัวแปรอื่น แต่ก็ยังมีความเป็นไปได้ที่ค่าที่สูญหายของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าข้อมูลสูญหายของตัวแปร X บางตัวก็เป็นได้
สรุปง่าย ๆ คือ ความน่าจะเป็นที่ค่าที่หายไปของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าที่หายไปของตัวแปร X นั่นเอง
2. ข้อมูลสูญหายแบบสุ่ม (Missing at Random: MAR)
ความน่าจะเป็นของการสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y แต่ขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่า (ในที่นี้จากรูปด้านล่างเราให้เป็นตัวแปร X) สามารถเขียนให้อยู่ในรูปสมการ P(Y missing | Y, X) = P(Y missing | X)
ภาษามนุษย์ก็คือ ความน่าจะเป็นของค่าที่หายไปของตัวแปร Y อาจจะขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่าเช่นตัวแปร X
3. ข้อมูลสูญหายแบบไม่สุ่ม (Not Missing at Random: NMAR)
ค่าสูญหายของตัวแปร Y ขึ้นอยู่กับค่าของตัวแปร Y ที่สูญหาย
ประเภทของข้อมูลสูญหาย
รูปแบบของข้อมูลสูญหาย
สามารถแบ่งได้ 2 รูปแบบ ดังนี้
1. ข้อมูลสูญหายรูปแบบทิศทางเดียวกัน (Missing Monotone)
ข้อมูลสูญหายที่หายแบบมีรูปแบบ หรือมีแบบแผนที่สังเกตได้ ซึ่งบางครั้งอาจจะต้องออกแรงจัดเรียงลำดับหรือจัดเรียงชุดข้อมูลใหม่สักหน่อย เพื่อที่จะมองเห็น Pattern การหายไปได้
2. ข้อมูลสูญหายไม่มีรูปแบบ (Missing Arbitrarily)
ข้อมูลสูญหายแบบไม่มีระบบ ไม่มีแบบแผนใด ๆ กระจายตัวมั่วซั่วในบางช่วงของตัวแปรหรือในบางช่วงของข้อมูลชุดเดียวกันก็เป็นได้หมดเลย
รูปแบบของข้อมูลสูญหาย
จากที่เล่าไปก็พอเห็นภาพแล้วว่า เจ้าข้อมูลสูญหายเนี่ยมีหลายแบบอีก ในบทความหน้า EP.2/2 Roots จะมาเล่าต่อในเรื่องของวิธีการจัดการข้อมูลสูญหาย ซึ่งมีความน่าสนใจมาก ฝากติดตามอ่านกันด้วยนะคะ อ่านต่อ EP.2/2 คลิก
จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี? [EP.1/2]