จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี? [EP.1/2]

14 กรกฎาคม ค.ศ. 2021 โดย
Administrator

Imputation Method in Missing Data

หรือการประมาณค่าข้อมูลสูญหาย

กรณีข้อมูลสูญหายแบบสุ่ม

​จงเติมคำในช่องว่างนี้

​​ลองสมมติว่าเราส่งรูปนี้ให้คนที่เราแอบชอบคนหนึ่ง ลองคิดภาพสิ คำตอบที่คน ๆ หนึ่งจะ​สามารถเติมลงไปได้นั้น มันช่างหลากหลายเหลือเกิน ถ้าเขาส่งคำตอบกลับมาแล้ว เราค้นพบว่าสิ่งที่เขาตอบไม่ได้ตรงตามใจที่เราคิดไว้เลย เราคงจะเศร้า เท่านี้เราก็น่าจะพอเห็นภาพแล้วว่า การจัดการกับ Missing value นี้ ช่างมีผลกระทบต่อชีวิตและจิตใจได้เลยทีเดียว

Imputation Method in Missing Data หรือการประมาณค่าข้อมูลสูญหาย กรณีข้อมูลสูญหายแบบสุ่ม

ประเภทของข้อมูลสูญหาย

แบ่งได้ทั้งหมด 3 ประเภท ดังนี้

1. ข้อมูลสูญหายแบบสุ่มสมบูรณ์ (Missing Completely at Random Data: MCAR)

​ความน่าจะเป็นของค่าสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y หรือค่าที่มีอยู่ของตัวแปรอื่น แต่ก็ยังมีความเป็นไปได้ที่ค่าที่สูญหายของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าข้อมูลสูญหายของตัวแปร X บางตัวก็เป็นได้ 

​สรุปง่าย ๆ คือ ความน่าจะเป็นที่ค่าที่หายไปของตัวแปร Y อาจจะมีความสัมพันธ์กับค่าที่หายไปของตัวแปร X นั่นเอง

2. ข้อมูลสูญหายแบบสุ่ม (Missing at Random: MAR)

​ความน่าจะเป็นของการสูญหายของตัวแปร Y ไม่ขึ้นอยู่กับค่าที่มีอยู่ของตัวแปร Y แต่ขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่า (ในที่นี้จากรูปด้านล่างเราให้เป็นตัวแปร X) สามารถเขียนให้อยู่ในรูปสมการ P(Y missing | Y, X) = P(Y missing | X)

​ภาษามนุษย์ก็คือ ความน่าจะเป็นของค่าที่หายไปของตัวแปร Y อาจจะขึ้นอยู่กับค่าของตัวแปรอื่นที่ทราบค่าเช่นตัวแปร X

3. ข้อมูลสูญหายแบบไม่สุ่ม (Not Missing at Random: NMAR)

ค่าสูญหายของตัวแปร Y ขึ้นอยู่กับค่าของตัวแปร Y ที่สูญหาย

ค่าสูญหายของตัวแปร Y ขึ้นอยู่กับค่าของตัวแปร Y ที่สูญหายประเภทของข้อมูลสูญหาย

รูปแบบของข้อมูลสูญหาย

สามารถแบ่งได้ 2 รูปแบบ ดังนี้

1. ข้อมูลสูญหายรูปแบบทิศทางเดียวกัน (Missing Monotone)

​ข้อมูลสูญหายที่หายแบบมีรูปแบบ หรือมีแบบแผนที่สังเกตได้ ซึ่งบางครั้งอาจจะต้องออกแรงจัดเรียงลำดับหรือจัดเรียงชุดข้อมูลใหม่สักหน่อย เพื่อที่จะมองเห็น Pattern การหายไปได้

2. ข้อมูลสูญหายไม่มีรูปแบบ (Missing Arbitrarily)

ข้อมูลสูญหายแบบไม่มีระบบ ไม่มีแบบแผนใด ๆ กระจายตัวมั่วซั่วในบางช่วงของตัวแปรหรือในบางช่วงของข้อมูลชุดเดียวกันก็เป็นได้หมดเลย

อมูลสูญหายแบบไม่มีระบบ ไม่มีแบบแผนใด ๆ กระจายตัวมั่วซั่วในบางช่วงของตัวแปรหรือในบางช่วงของข้อมูลชุดเดียวกันก็เป็นได้หมดเลยรูปแบบของข้อมูลสูญหาย

​จากที่เล่าไปก็พอเห็นภาพแล้วว่า เจ้าข้อมูลสูญหายเนี่ยมีหลายแบบอีก ในบทความหน้า EP.2/2 Roots จะมาเล่าต่อในเรื่องของวิธีการจัดการข้อมูลสูญหาย ซึ่งมีความน่าสนใจมาก ฝากติดตามอ่านกันด้วยนะคะ อ่านต่อ EP.2/2 คลิก

Administrator 14 กรกฎาคม ค.ศ. 2021
แชร์โพสต์นี้
แท็ก