ค่าผิดปกติ (Outliers)

ค่าผิดปกติ (Outliers) เป็นข้อมูลที่มีค่าแยกออกจากกลุ่มหรือผิดแผกแตกต่างไปจากข้อมูลค่าอื่น ๆ ตัวอย่างของค่าผิดปกติก็เช่น IQ ของเด็กได้ 195 น้ำหนักของคน 220 กิโลกรัม ความสูงของคน 210 ซ.ม. ซึ่งค่าผิดปกติมีโอกาสเกิดขึ้นได้บนพื้นฐานของเหตุผล 2 ประการคือ 1) การจดบันทึกหรือเก็บข้อมูลมีความคลาดเคลื่อน หรือ 2) กลุ่มตัวอย่างที่เก็บรวบรวมข้อมูลมา มีความแตกต่างไปจากกลุ่มจริง ซึ่งการเกิดค่าผิดปกติประการแรกนั้น สามารถเกิดขึ้นได้เสมอ จึงควรมีการตรวจสอบข้อมูลให้ถูกต้องก่อนวิเคราะห์สถิติใด ๆ เสียก่อน
ปัญหาในการวิเคราะห์การถดถอยที่มีตัวแปรทำนาย 5 ตัว ที่วิเคราะห์ข้อมูลโดยไม่มีการตรวจสอบความถูกต้องของข้อมูล ผลปรากฏว่า ตัวแปรทำนายไม่มีความสัมพันธ์กับตัวแปรตาม และมีตัวแปรทำนายบางตัวเข้าสมการทำนายตัวแปรตามได้อย่างมีนัยสำคัญทางสถิติ สาเหตุประการหนึ่งของปัญหานี้ก็คือตัวแปรบางตัวมีข้อมูลที่ผิดปกติไปจากกลุ่มนั่นเอง
มีตัวอย่างง่าย ๆ แสดงผลของการมีค่าผิดปกติ (Outliers) ดังนี้

ตัวอย่างที่ 1 ลองพิจารณาชุดของตัวแปร 2 ตัว

คนที่X1X2
111168
29246
39050
410759
59850
615066
711854
811051
911759
109497

คนที่ 6 และคนที่ 10 มีค่าผิดปกติ แต่มีอยู่ในตัวแปรที่แตกต่างกัน คนที่ 6 มีที่ X1 (150) ขณะที่คนที่ 10 มีที่ X2 (97) เมื่อนำมาสร้างเป็นแผนภาพกระจัดกระจายแล้วจะพบว่า คนที่ 6 และคนที่ 10 จะกระเด็นออกไปจากกลุ่ม ถ้าหากมีข้อมูลจำนวนมาก หลาย ๆ ตัวแปร ก็จะเป็นการยากที่จะค้นหาค่าผิดปกติ ลองพิจารณาตัวอย่างที่ 2

ภาพประกอบ 1 แสดงค่าผิดปกติของตัวแปร 2 ตัว

ตัวอย่างที่ 2 ชุดข้อมูลที่มีตัวแปร 4 ตัว

คนที่X1X2X3X4
1111681781
292462867
390501983
4107592571
598501392
6150662090
71185411101
8110512682
9117591887
1094671269
11130571697
12118511978
1315540958
141186120103
15109661388

จากข้อมูลชุดนี้มีคนที่ 13 ที่มีค่าผิดปกติ สังเกตว่าคะแนนในทุกตัวแปรจะมีค่าแตกต่างไปจากคนอื่น ๆ ซึ่งคะแนนของตัวแปร X2, X3 และ X4 มีแนวโน้มที่จะมีค่าต่ำ ส่วน X1 มีค่าสูง ดังนั้นคนที่ 13 จำเป็นที่จะต้องตัดออกจากกลุ่ม

ต่อไปนี้จะเป็นตัวอย่างของค่าผิดปกติที่มีผลต่อการวิเคราะห์สถิติบ้าง

ตัวอย่างที่ 3
พิจารณาข้อมูลชุดเล็ก ๆ คือ 2, 3, 5, 6 และ 44 ค่ามากที่สุดของข้อมูลชุดนี้คือ 44 ซึ่งมีความผิดแผกแตกต่างไปจากค่าอื่น ๆ ในกลุ่ม ถ้าเราใช้มัชฌิมเลขคณิต จะได้ค่า 12 ซึ่งมันไม่ถูกต้อง เพราะไม่มีคะแนนที่อยู่ใกล้เคียงค่า 12 เลย เมื่อเป็นเช่นนี้การวัดแนวโน้มเข้าสู่ส่วนกลางที่เหมาะสมน่าจะเป็นค่ามัธยฐาน ซึ่งค่าผิดปกติจะไม่มีผลต่อมัธยฐาน หรืออาจจะใช้ Trimmed Mean ก็ได้ แต่ต้องระมัดระวังเรื่องการตัดค่าสูงสุดและต่ำสุดออกในปริมาณที่แน่ใจว่าค่าผิดปกติได้ถูกขจัดออกจากการคำนวณแล้ว การใช้มัธยฐานหรือ Trimmed Mean จะทำให้การวัดแนวโน้มเข้าสู่ส่วนกลางดูมีเหตุผลมากขึ้น

ตัวอย่างที่ 4
แสดงผลของค่าผิดปกติที่มีต่อสหสัมพันธ์ พิจารณาภาพประกอบ 2 สังเกตค่าผิดปกติที่สามารถเปลี่ยนแปลงผลของสหสัมพันธ์ได้ ในกรณี A จะเห็นว่ามีความสัมพันธ์กันสูงเมื่อรวมค่าผิดปกติไว้ด้วย แต่เมื่อขจัดค่าผิดปกติออกแล้ว กลับไม่มีสหสัมพันธ์กันเลย ในขณะที่กรณี B ไม่มีความสัมพันธ์กันเลยเมื่อรวมค่าผิดปกติไว้ด้วย แต่ความสัมพันธ์จะเพิ่มสูงขึ้นเมื่อขจัดค่าผิดปกติออกไป

ภาพประกอบ 2 แสดงอิทธิพลของค่าผิดปกติที่มีต่อสหสัมพันธ์

ตัวอย่างที่ 5 ตัวอย่างสุดท้ายมีข้อมูลดังนี้

ถ้าหากเราไม่สนใจสดมภ์ที่ 2 ในแต่ละกลุ่มแล้ว เราจะสามารถวิเคราะห์ความแปรปรวนแบบทางเดียว (One-Way ANOVA) ได้โดยใช้ตัวแปรแรกของแต่ละกลุ่มเป็นตัวแปรตาม
คะแนน 30 ที่ปรากฏในกลุ่มที่ 3 เป็นค่าผิดปกติ เมื่อคำนวณ One-Way ANOVA พบว่าไม่มีนัยสำคัญทางสถิติ (F = 2.61, p < .095) ที่ระดับ .05 ถ้าหากขจัดค่าผิดปกติออกไป แล้วคำนวณใหม่ ผลปรากฏว่ามีนัยสำคัญทางสถิติที่ .01 (F = 11.18, p < .0004) การขจัดค่าผิดปกติจะมีผลต่อค่าเฉลี่ยระหว่างกลุ่มทั้ง 3 กลุ่ม และค่าเฉลี่ยของแต่ละกลุ่มก่อนขจัดค่าผิดปกติออกเป็น 13.5, 17.33 และ 11.89 ตามลำดับ หลังจากขจัดค่าผิดปกติออกแล้ว ค่าเฉลี่ยของแต่ละกลุ่มจะเปลี่ยนแปลงไปเป็น 13.5, 17.33 และ 9.63 ตามลำดับ จะมีผลช่วยลดความแปรปรวนภายในกลุ่มให้มีค่าน้อยลง ส่งผลให้ F มีค่าเพิ่มขึ้น

การตรวจสอบค่าผิดปกติ

ถ้าตัวแปรที่ศึกษามีการแจกแจงเป็นโค้งปกติแล้ว ค่าคะแนนมาตรฐาน (Z) จะมีค่าอยู่ประมาณไม่เกิน |3| ถ้าหากข้อมูลค่าใดมีคะแนนมาตรฐานเกินกว่านี้แสดงว่าเป็นค่าผิดปกติ ทำไมถึงยึดเกณฑ์นี้? เพราะในการประมาณค่าการแจกแจงโค้งปกติ จะมีข้อมูลประมาณ 99% ที่ตกอยู่ใน 3 ช่วงของส่วนเบี่ยงเบนมาตรฐานของค่าเฉลี่ย ดังนั้นคะแนนมาตรฐาน Z มากกว่า 3 จึงมีโอกาสเกิดขึ้นได้น้อยมาก

ตัวอย่างที่ 6 การตรวจสอบค่าผิดปกติด้วยคะแนนมาตรฐาน (Z)

จากตารางข้างต้นนี้ ข้อมูลชุดแรกจะไม่ปรากฏค่าผิดปกติ ค่าคะแนนมาตรฐานที่คำนวณได้มีค่าลดหลั่นกันตามลำดับ และไม่เกิน 3.0 ส่วนข้อมูลชุดสองจะปรากฏค่าผิดปกติ ที่คะแนน 250.6 มีค่าคะแนนมาตรฐาน 3.32 เป็นค่าที่ผิดปกติไปจากกลุ่ม

อีกวิธีหนึ่งก็คือการใช้คะแนนเฉลี่ยเมื่อหักคะแนนใดคะแนนหนึ่งออก ดังตารางต่อไปนี้จะแสดงตัวอย่างการตรวจสอบค่าผิดปกติเมื่อใช้ค่าเฉลี่ย

ตัวอย่างที่ 7 การตรวจสอบค่าผิดปกติด้วยค่าเฉลี่ย (Mean)

การใช้ค่าเฉลี่ยเป็นอีกเทคนิคหนึ่งที่จะช่วยผู้วิจัยในการตรวจสอบความถูกต้องของข้อมูล โดยคำนวณค่าเฉลี่ยของคะแนนหักคะแนนใดคะแนนหนึ่งออก จากตารางข้างต้น ฝั่งซ้ายที่ไม่มีค่าไกลสุด ณ ระดับคะแนน 10.40 คะแนนที่ใช้คำนวณก็คือคะแนนตั้งแต่ 11.30 จนถึง 28.90 ได้คะแนนเฉลี่ย 18.01 ส่วน ณ ระดับคะแนน 11.30 คะแนนที่ใช้คำนวณก็คือคะแนน 10.40 และ 12.90 จนถึง 28.90 ได้คะแนนเฉลี่ย 17.93
จากตารางจะเห็นว่าเมื่อคำนวณหาความแตกต่างระหว่างคะแนนดิบ และคะแนนเฉลี่ยที่หักคะแนนนั้นออกแล้ว ในฝั่งที่ไม่มีค่าผิดปกติ จะมีค่าผลต่างไล่กันตามลำดับ ส่วนฝั่งที่มีค่าผิดปกติ จะเห็นว่าที่ระดับคะแนน 250.6 ค่าผลต่างระหว่างคะแนนดิบและคะแนนเฉลี่ยที่หักคะแนนนั้นออกแล้ว มีค่าสูงผิดปกติไปจากค่าผลต่างอื่น ๆ แสดงว่าเกิดค่าผิดปกติ (Outlier)

การตรวจสอบค่าผิดปกติด้วยโปรแกรม SPSS for Windows

ต่อไปนี้จะแสดงการตรวจสอบค่าผิดปกติของข้อมูลด้วยโปรแกรม SPSS for Windows ซึ่งจะใช้ข้อมูลและวิธีการเดียวกับตารางที่ 6 คือการใช้ Z-score ในการตรวจสอบความผิดปกติของข้อมูล
เปิดโปรแกรม SPSS for Windows ป้อนข้อมูลที่ต้องการตรวจสอบ จากตัวอย่างข้อมูลในตารางที่ 6 มีทั้งหมด 13 ตัว ให้ชื่อตัวแปรว่า score

ตรวจสอบความผิดปกติของข้อมูลโดยคลิกเลือกไปที่เมนู Analyze เมนูรอง Descriptive Statistics และเมนูย่อย Descriptive จะปรากฏหน้าต่าง Descriptive ให้เลือกตัวแปรที่ต้องการตรวจสอบความผิดปกติ ในที่นี้คือตัวแปร score โดยคลิกที่ตัวแปร score ในช่องทางด้านซ้าย แล้วกดปุ่มลูกศรตรงกลางให้ตัวแปร score ย้ายมาอยู่ในช่อง variable(s): ทางด้านขวาดังนี้ จากตั้งคลิกให้เกิดเครื่องหมายถูกหน้าคำว่า Save standardized values as variables ดังภาพประกอบ

เมื่อคลิกปุ่ม OK ค่าสถิติพื้นฐานของตัวแปร score จะถูกวิเคราะห์และแสดงในหน้าต่าง Output ในขั้นตอนนี้อาจพิจารณาที่ค่าเฉลี่ยว่ามีค่ามากไปหรือน้อยไปอย่างผิดปกติหรือไม่ จากนั้นมาพิจารณาค่าคะแนนมาตรฐานที่โปรแกรมคำนวณให้ในหน้าต่าง data view จะเห็นตัวแปร zscore เพิ่มขึ้นมา ซึ่งก็คือค่าคะแนนมาตรฐาน (Z-score) นั่นเอง



บรรณานุกรม
Miles, Jeremy and Shevlin, Mark. Applying Regression & Correlation. London : Sage Publucations, Ltd,, 2001.
Stevens, James. Applied Multivariate Statistics for the Social Sciences. USA. : Lawrence Erlbaum Associates, Inc., 1992.

เอกสารชุดนี้จัดทำโดย : ฉัตรศิริ ปิยะพิมลสิทธิ์. พฤษภาคม ๒๕๔๔ ; ปรับปรุงครั้งที่ ๑ มกราคม ๒๕๔๕