Imputation Method in Missing Data
หรือการประมาณค่าข้อมูลสูญหาย
กรณีข้อมูลสูญหายแบบสุ่ม
จงเติมคำในช่องว่างนี้
ลองสมมติว่าเราส่งรูปนี้ให้คนที่เราแอบชอบคนหนึ่ง ลองคิดภาพสิ คำตอบที่คน ๆ หนึ่งจะสามารถเติมลงไปได้นั้น มันช่างหลากหลายเหลือเกิน ถ้าเขาส่งคำตอบกลับมาแล้ว เราค้นพบว่าสิ่งที่เขาตอบไม่ได้ตรงตามใจที่เราคิดไว้เลย เราคงจะเศร้า เท่านี้เราก็น่าจะพอเห็นภาพแล้วว่า การจัดการกับ Missing value นี้ ช่างมีผลกระทบต่อชีวิตและจิตใจได้เลยทีเดียว
ประเภทของข้อมูลสูญหาย
แบ่งได้ทั้งหมด 3 ประเภท ดังนี้
1. ข้อมูลสูญหายแบบสุ่มสมบูรณ์ (Missing Completely at Random Data: MCAR)
ความน่าจะเป็นของค่าสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y หรือค่าที่มีอยู่ของตัวแปรอื่น แต่ก็ยังมีความเป็นไปได้ที่ค่าที่สูญหายของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าข้อมูลสูญหายของตัวแปร X บางตัวก็เป็นได้
สรุปง่าย ๆ คือ ความน่าจะเป็นที่ค่าที่หายไปของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าที่หายไปของตัวแปร X นั่นเอง
2. ข้อมูลสูญหายแบบสุ่ม (Missing at Random: MAR)
ความน่าจะเป็นของการสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y แต่ขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่า (ในที่นี้จากรูปด้านล่างเราให้เป็นตัวแปร X) สามารถเขียนให้อยู่ในรูปสมการ P(Y missing | Y, X) = P(Y missing | X)
ภาษามนุษย์ก็คือ ความน่าจะเป็นของค่าที่หายไปของตัวแปร Y อาจจะขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่าเช่นตัวแปร X
3. ข้อมูลสูญหายแบบไม่สุ่ม (Not Missing at Random: NMAR)
ค่าสูญหายของตัวแปร Y ขึ้นอยู่กับค่าของตัวแปร Y ที่สูญหาย
ประเภทของข้อมูลสูญหาย
รูปแบบของข้อมูลสูญหาย
สามารถแบ่งได้ 2 รูปแบบ ดังนี้
1. ข้อมูลสูญหายรูปแบบทิศทางเดียวกัน (Missing Monotone)
ข้อมูลสูญหายที่หายแบบมีรูปแบบ หรือมีแบบแผนที่สังเกตได้ ซึ่งบางครั้งอาจจะต้องออกแรงจัดเรียงลำดับหรือจัดเรียงชุดข้อมูลใหม่สักหน่อย เพื่อที่จะมองเห็น Pattern การหายไปได้
2. ข้อมูลสูญหายไม่มีรูปแบบ (Missing Arbitrarily)
ข้อมูลสูญหายแบบไม่มีระบบ ไม่มีแบบแผนใด ๆ กระจายตัวมั่วซั่วในบางช่วงของตัวแปรหรือในบางช่วงของข้อมูลชุดเดียวกันก็เป็นได้หมดเลย
รูปแบบของข้อมูลสูญหาย
จากที่เล่าไปก็พอเห็นภาพแล้วว่า เจ้าข้อมูลสูญหายเนี่ยมีหลายแบบอีก ในบทความหน้า EP.2/2 Roots จะมาเล่าต่อในเรื่องของวิธีการจัดการข้อมูลสูญหาย ซึ่งมีความน่าสนใจมาก ฝากติดตามอ่านกันด้วยนะคะ อ่านต่อ EP.2/2 คลิก
จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี? [EP.1/2]