Boxplots

ตูกี้ (Tukey) ได้คิดค้นวิธีการนำเสนอข้อมูลรูปแบบต่าง ๆ หลากหลายวิธี ซึ่ง Stem and Leaf ก็เป็นวิธีหนึ่งในหลาย ๆ วิธีนั้น ดังได้นำเสนอไปแล้ว ในคราวนี้จะขอกล่าวถึงวิธีการนำเสนอข้อมูลอีกวิธีหนึ่ง เรียกว่า Boxplots บางครั้งก็เรียกว่า box and whisker plots
จากข้อมูลในตาราง 1 เป็นการเปรียบเทียบน้ำหนักของเด็กแรกเกิดในโรงพยาบาลแห่งหนึ่ง จำนวน 38 รายที่เก็บรวบรวมมาได้ มีข้อมูล 3 รายที่เก็บผิดพลาดแสดงโดยเครื่องหมายดอกจัน (*) ข้อมูลส่วนมากจะอยู่ระหว่าง 1 - 10 แต่จะมี 2 ค่าที่เกินไปมาก ข้อมูลชุดนี้จะถูกนำมาสร้างเป็น Stem and Leaf จะมีลักษณะเบ้บวก มีฐานนิยมเป็น 3 ในด้านล่างของแถว Stem จะเป็น “HI” และค่า “20” และ “33” เป็นค่าที่เรียกว่า “ค่าปลายสุด” (Extreme Vales) จะเห็นได้ดังตาราง 3

ตาราง 3 แสดงข้อมูลดิบและ Stem and Leaf ของน้ำหนักเด็กแรกเกิด

การทำความเข้าใจในเรื่องของ Boxplot นั้น ในขั้นแรกจะต้องหาตำแหน่งมัธยฐานจากข้อมูล N จำนวนโดยใช้สูตร (N + 1)/2 ได้ตำแหน่งของมัธยฐานแล้วก็จะสามารถหาค่ามัธยฐานได้ ค่ามัธยฐานของข้อมูลชุดนี้ได้จากข้อมูลที่อยู่ในตำแหน่ง (38 + 1)/ 2 = 19.5 นับจำนวนจากค่าที่น้อยที่สุดไปยังตำแหน่ง 19 หรือ 20 จะได้ค่า 3 ดังนั้นค่ามัธยฐานคือ 3 เราจะใช้ค่ามัธยฐานที่อยู่ตรงกลางแล้วแบ่งครึ่งระหว่างมัธยฐานกับข้อมูลต่ำสุด และแบ่งครึ่งระหว่างมัธยฐานกับข้อมูลสูงสุด จุดที่แบ่งเรียกว่า Hinges
hinges มีความสัมพันธ์คล้าย Q1 และ Q3 เป็นจุดที่แบ่งค่าต่ำสุดได้ 25% และค่าสูงสุดได้ 25% การคำนวณหา hinges ในขั้นแรกต้องหาตำแหน่งของ hinges จากสูตร
ตำแหน่ง hinge = (ตำแหน่งมัธยฐาน + 1)/2 = (19 + 1)/2 = 10
hinges จะอยู่ตำแหน่งที่ 10 เมื่อนับจำนวนคะแนนต่ำสุดและสูงสุดจะได้จะได้ค่า 2 และ 4 และจะมีจำนวนอยู่ระหว่างค่า hinge ทั้ง 2 ค่านี้จำนวน 50%
ขั้นต่อไปคำนวณหา H-spread (hinge spread), inner fences และ adjacent values
H-spread นั้นเป็นช่วงระหว่าง hinges ทั้ง 2 จากข้อมูล H-spread = 4 - 2 = 2
ต่อไปหา inner fence โดยเอา 1.5 คูณกับ H-spread จะได้ค่าที่อยู่เหนือและใต้ hinges ค่า H-spread = 2 จะได้ 2 ? 1.5 = 3 จะได้ค่าที่อยู่ห่างไกลกว่า hinges ออกไป 3 และ hinges คือ 2 และ 4 แต่ค่า inner fence จะได้ 2 - 3 = -1 และ 4 + 3 = 7
ค่า adjacent values เป็นค่าที่ไม่ไกลไปจากมัธยฐาน อยู่ภายใต้ inner fence เพราะว่าค่าต่ำสุดที่มีคือ 1 ซึ่งอยู่ภายใต้ inner fence ซึ่งเป็นค่า adjacent ที่ต่ำสุด และค่า inner fence ที่สูงสุดคือ 7 การคำนวณทั้งหมดจะถูกแสดงดังภาพ

รูปภาพ 1 แสดงการคำนวณและ Boxplots สำหรับข้อมูลจากตาราง 3


ตำแหน่งมัธยฐาน = (N + 1)/2 = (38 + 1)/2 = 19.5
มัธยฐาน = 3
ตำแหน่ง Hinge = (ตำแหน่งมัธยฐาน + 1)/2 = (19 + 1)/2 = 10
ค่า hinge ต่ำสุด = ตำแหน่งที่ 10 จากค่าต่ำสุด = 2
ค่า hinge สูดสุด = ตำแหน่งที่ 10 จากค่าสูงสุด = 4
H-spread = ค่า hinge สูงสุด - ค่า hinge ต่ำสุด = 4 - 2 = 2
H-spread x 1.5 = 2(1.5) = 3
ค่า inner fence ต่ำสุด = ค่า hinge ต่ำสุด - H-spread = 2 - 3 = -1
ค่า inner fence สูงสุด = ค่า hinge สูงสุด + H-spread = 4 + 3 = 7
adjacent value ต่ำสุด = ค่าที่ต่ำที่สุด >= inner fence ต่ำสุด = 1
adjacent value สูงสุด = ค่าที่สูงที่สุด <= inner fence สูงสุด = 7


inner fence และ adjacent values บางครั้งก็ทำความเข้าใจได้ยาก ถ้าคุณลองคิดถึงกลุ่มวัวฝูงหนึ่งและทำรั้วกั้นไว้ รั้วที่กั้นนั้นก็คือ inner fence ใน Boxplots ฝูงวัวจะถูกปิดล้อมให้อยู่ภายในรั้ว แต่วัวตัวที่อยู่ใกล้กับรั้วมากที่สุดก็คือ adjacent values
การวาด Boxplot ในขั้นแรกจะต้องวาดสเกลซึ่งครอบคลุมช่วงทั้งหมดที่จะอ้างอิงถึง ดังภาพ เราจะวาดบล๊อกสี่เหลี่ยมเรียกว่า “rectangular box” โดยมีความยาวจาก hinge หนึ่งถึงอีก hinge หนึ่ง และวาดเส้นแนวตั้งที่ตำแหน่งมัธยฐาน ถัดมาก็วาดเส้นที่เรียกว่า whiskers จาก hinges ออกไปจนถึงค่า adjacent values ขั้นสุดท้ายเราจะพล๊อตจุดทั้งหมดที่เป็นค่าอยู่นอกเหนือจาก adjacent values
จากภาพ Boxplots จะแสดงให้เห็นสิ่งต่าง ๆ ที่สำคัญดังนี้ ประการแรก เส้นตรงกลางจะแบ่งการแจกแจงซึ่งมีลักษณะเกือบสมมาตร ชี้ให้เห็นว่าค่ามัธยฐานเป็นค่าที่อยู่ตรงกลางบล๊อกพอดี ประการที่สอง เราจะเห็นการแจกแจงมีลักษณะเบ้บวก เห็นได้จากเส้น whiskers ทางขวาจะยาวกว่าทางซ้าย และประการสุดท้าย จะเห็นจุดสี่จุดที่อยู่นอกขอบเขต inner fences เราจะเรียกจุดเหล่านั้นว่า Outliers คำว่า Outliers เป็นคำที่อนุญาตให้ใช้เรียกค่าที่อยู่ปลายสุดได้ แต่ในความหมายที่แท้จริงของมันจะใช้เฉพาะค่าที่อยู่ถัดจาก inner fences เท่านั้น ส่วนค่าที่อยู่ไกลออกไปจะเรียกว่า Extreme Vales ซึ่ง Stem and Leaf จะไม่แสดงค่า Outlier เหมือน Boxplot
Outlies มีลักษณะที่น่าสนใจพิเศษ คือ Outlies สามารถจะบอกความคลาดเคลื่อนในการวัด ความคลาดเคลื่อนในการบันทึกข้อมูล ความคลาดเคลื่อนในการป้อนข้อมูล ฯ ตัวอย่าง น้ำหนักปกติของเด็กทารกแรกเกิด อาจจะเป็นไปได้ที่จะกลับมาเก็บข้อมูลใหม่ที่โรงพยาบาล และพิจารณาค่าที่อยู่ปลายสุดใหม่ทั้ง 4 ค่า มีอยู่ 2 ค่าที่บันทึกข้อมูลผิดพลาด จึงทำการแก้ไขค่าที่อยู่ปลายสุดทั้ง 2 ค่านั้น ส่วนอีก 2 ค่าที่เหลือเป็นน้ำหนักที่ผิดปกติของเด็กทารก ดังนั้นผู้ทำการศึกษาจึงตัดสินใจยุติการเก็บข้อมูล โดยมี 2 ค่าที่ถูกต้อง 3 และ 5 (จากเดิมคือ 33 และ 20) จะได้ Boxplot ใหม่ที่ถูกต้องดังนี้

รูปภาพ 2 แสดง Boxplots เมื่อปรับแก้ข้อมูลแล้ว

เอกสารชุดนี้จัดทำโดย : ฉัตรศิริ ปิยะพิมลสิทธิ์. เมษายน ๒๕๔๔