วิธีการจัดการข้อมูลสูญหาย
(Missing Data Management)
1. วิธีการลบข้อมูล
(Listwise Deletion or Complete Case Analysis)
กรณีที่ข้อมูลสูญหายเกิดขึ้นหลายตัวแปร แต่ปริมาณการสูญหายไม่เกิน 5% ของข้อมูลทั้งหมด เราก็จะตัดหรือลบข้อมูลส่วนที่สูญหายออกทั้ง record ถือเป็นวิธีพื้นฐานที่นิยมใช้กัน
* ข้อดี คือ ง่ายและสามารถวิเคราะห์เชิงเปรียบเทียบระหว่างตัวแปรได้ เพราะแต่ละตัวแปรมีขนาดเท่ากัน
** แต่ข้อเสียที่เกิดขึ้น คือ ผลลัพธ์ที่ได้จากการวิเคราะห์เชื่อถือไม่ได้ 100% เนื่องจากมีข้อมูลบางส่วนถูกตัดออกไป ทำให้ข้อมูลไม่ครบถ้วนสมบูรณ์ ที่แย่ไปกว่านั้นคือ ถ้าข้อมูลที่สูญหายมีลักษณะกระจายตัว การตัดข้อมูลสูญหายทิ้งอาจจะทำให้ข้อมูลมีความเอนเอียง เบซ้าย เบ้ขวา เนื่องจากข้อมูลของกลุ่มตัวอย่างแต่ละกลุ่มถูกตัดออกไม่เท่ากัน
2. วิธีการประมาณค่าข้อมูลสูญหาย (Imputation Methods)
เป็นวิธีการประมาณค่าสูญหายโดยเอาหลักการทางคณิตศาสตร์ มาเติมเต็มค่าที่สูญหายไป ทำให้ผลลัพธ์สุดท้ายคล้ายกับว่าไม่เคยมีข้อมูลสูญหายเกิดขึ้นมาก่อนเลย ซึ่งมีหลากหลายวิธีมากแต่ในที่นี้ ขอยกมาแค่ 2 วิธี ดังต่อไปนี้
◾ วิธีการประมาณค่าด้วยค่าเฉลี่ย (Mean Imputation: MI)
วิธีการประมาณค่าด้วยค่าเฉลี่ย เป็นวิธีการคำนวณหาค่าเฉลี่ยของตัวแปรอิสระ (X) จากชุดข้อมูลที่ปรากฎอยู่ เพื่อแทนค่าข้อมูลสูญหายของตัวแปรตาม (Y) ซึ่งวิธีดังกล่าว ถือเป็นวิธีจัดการค่าข้อมูลสูญหายที่ง่าย ไม่ซับซ้อน แต่วิธีนี้อาจทำให้ค่าประมาณที่ได้เป็นค่าเอนเอียงได้เหมือนกันถ้าชุดข้อมูลมี outlier
สูตรการคำนวณสำหรับวิธีการประมาณค่าด้วยค่าเฉลี่ย (MI)
◾ วิธีการถดถอย (Regression Imputation: RI)
วิธีการประมาณค่าด้วยวิธีการถดถอย เป็นลักษณะการประมาณค่าตัวแปรที่ต้องการศึกษา โดยอาศัยความสัมพันธ์ระหว่างตัวแปรอิสระ (X) และตัวแปรตาม (Y) มาช่วยในการประมาณค่า ถ้าชุดข้อมูลที่มีอยู่มีความสัมพันธ์กัน วิธีนี้ก็ถือว่าเป็นวิธีที่น่าสนใจเลยทีเดียวเพราะวิธีการคำนวณยังไม่ยุ่งยาก ซับซ้อนมากนัก
สูตรการคำนวณสำหรับวิธีการถดถอย (RI)
3. วิธีการขั้นสูง (Advanced Methods)
วิธีการขั้นสูงนี้ เป็นลักษณะของการประมาณค่าด้วยวิธีการคำนวณที่มีความซับซ้อนมากขึ้นไปอีก ซึ่งในที่นี้จะขอเล่าคร่าว ๆ ถึง 3 วิธีดังต่อไปนี้
◾ วิธีการประมาณค่าด้วยวิธีเอ็มไอ (Multiple Imputation)
วิธีการประมาณค่าด้วยวิธีเอ็มไอ เป็นลักษณะการประมาณค่าด้วยวิธีการแทนค่าหลายค่าลงในชุดข้อมูลสูญหาย โดยทำการประมาณค่าตั้งแต่ 2 วิธีขึ้นไป ภายใต้เงื่อนไขการกระจายข้อมูลสูญหายแบบสุ่ม ซึ่งประกอบด้วย 3 ขั้นตอน ดังนี้
ขั้นตอนที่ 1 คือ ทำการประมาณค่าข้อมูลสูญหายแต่ละวิธี เพื่อมาเติมเป็นชุดข้อมูลที่สมบูรณ์
ขั้นตอนที่ 2 คือ วิเคราะห์ข้อมูลแต่ละชุดแยกกัน เพื่อประมาณค่าข้อมูลสูญหาย
ขั้นตอนที่ 3 คือ รวบรวมผลลัพธ์ที่ได้มาสรุปค่าที่จะใช้แทนค่าข้อมูลสูญหายทั้งหมด
วิธีการประมาณค่าด้วยวิธีเอ็มไอ (Multiple Imputation)
◾ วิธีการประมาณค่าโดยวิธีอีเอ็ม (Expectation Maximization Algorithm: EM Algorithm)
วิธีการประมาณค่าด้วยวิธีอีเอ็ม เป็นลักษณะการประมาณค่าโดยอาศัยหลักการพื้นฐาน Maximum Likelihood Estimation โดยประกอบด้วย 2 ขั้นตอน นั่นคือ ขั้นตอนการประมาณค่าคาดหวัง (Expectation: E step) โดยใช้วิธีการประมาณค่าด้วย log-likelihood และขั้นตอนการใช้ค่าสูงสุด (Maximization: M step) คือ ขั้นตอนการแทนค่าข้อมูลสูญหายด้วยค่าที่ได้จากขั้นตอนการประมาณค่าคาดหวัง จากนั้นดำเนินการประมาณค่าคาดหวังซ้ำเพื่อเปรียบเทียบ จนได้ค่าที่ไม่เปลี่ยนแปลงหรือ เปลี่ยนแปลงน้อยมาก และใช้ค่าดังกล่าวแทนค่าข้อมูลสูญหาย
ข้อดีของวิธีนี้ คือ การได้ใช้ข้อมูลครบทุกตัวอย่าง ทั้งที่มีข้อมูลสูญหายและไม่มีข้อมูลสูญหาย อีกทั้งไม่เกิดความเอนเอียงหากข้อมูลสูญหายมีการกระจายตัวแบบข้อมูลสูญหายแบบสุ่ม
วิธีการประมาณค่าด้วยวิธีการประมาณค่าโดยวิธีอีเอ็ม (EM Algorithm)
◾ วิธีการประมาณค่าโดยวิธีเพื่อนบ้านใกล้เคียง (K-Nearest Neighbor: KNN)
เป็นการประมาณค่าสูญหายด้วยค่าเฉลี่ยของข้อมูลที่ทราบค่า จำนวน K ตัว ที่ไม่ใช่ข้อมูลสูญหาย อีกทั้งยังมีลักษณะคล้ายคลึงกับข้อมูลสูญหายมากที่สุด ซึ่งโดยทั่วไปจะกำหนดให้ K มีค่าประมาณเท่ากับ sqrt(m) โดยที่ K เป็นจำนวนคี่ที่มีค่าใกล้เคียงกับ sqrt(m) มากที่สุด เมื่อ m คือจำนวนข้อมูลไม่สูญหาย พิจารณาจากระยะห่างยุคลิด (Euclidean Distance) ของข้อมูลไม่สูญหาย
สูตรแสดงวิธีการประมาณค่าด้วยวิธีเพื่อนบ้านใกล้เคียง (K-Nearest Neighbor: KNN)
จากทั้งหมดที่เล่าไป เป็นแค่วิธีการจัดการ Missing Value ส่วนหนึ่งเท่านั้น เนื่องจากปัญหานี้มีผู้คิดค้นทำวิจัยจนเกิดเป็นทฤษฎีต่าง ๆ มากมาย ดังนั้น สำหรับผู้ที่สนใจอยากรู้ข้อมูลเพิ่มเติมสามารถศึกษาเพิ่มได้จาก Reference ด้านล่างนี้
Reference
- Little, R.J.A and Rubin, D.B. 1987. Statistical Analysis with Missing Data. New York: Wiley.
- Soley-Bori, M. 2013. “Dealing with missing data: Key assumptions and methods for applied analysis”. Boston University School of Public Health Department of Health Policy & Management. 4 (May): 1–10.
- รัตติกาล จอมประพันธ์. 2555. การประมาณค่าสูญหายในการวิเคราะห์การถดถอยเชิงเส้นพหุคูณ. การค้นคว้าอิสระปริญญามหาบัณฑิต สถาบันพัฒนบริหารศาสตร์.
จะทำโมเดลทั้งที แต่มีข้อมูลสูญหาย (Missing Data) ควรทำอย่างไรดี? [EP.2/2]