Type I Error, Type II Error และอำนาจการทดสอบ

สมมติว่ามีการสุ่มกลุ่มตัวอย่างมา 15 คนเพื่อให้เป็นกลุ่มได้รับการทดลอง และสุ่มมาอีก 15 คนเพื่อเป็นกลุ่มควบคุม และมีการเปรียบเทียบผลจากการได้รับตัวแปรทดลองอย่างใดอย่างหนึ่ง ผู้อ่านหลาย ๆ ท่านคงคิดว่าควรใช้ t-test Independent Samples ถึงจะเหมาะสม เราต้องการหาค่าเฉลี่ยของทั้ง 2 กลุ่มว่ามีความแตกต่างกันมากหรือไม่ โดยจะใช้ค่าเฉลี่ยของกลุ่มตัวอย่างประมาณค่าเฉลี่ยของประชากร โดยทั่วไปจึงเกิดความคลาดเคลื่อน (ค่าเฉลี่ยจากกลุ่มตัวอย่างอาจจะไม่สามารถประมาณค่าเฉลี่ยประชากรได้อย่างสมบูรณ์) ซึ่งความคลาดเคลื่อนนี้เรียกว่า "ความคลาดเคลื่อนอย่างสุ่ม" (Sampling Error) เราต้องทดสอบสมมติฐานศูนย์ (H0) ว่าค่าเฉลี่ยของประชากร 2 กลุ่มเท่ากัน
H0 : 1 = 2
เราเรียกสมมติฐานศูนย์ เพราะว่า ค่าเฉลี่ยของประชากรทั้ง 2 กลุ่มเท่ากัน หรืออาจจะพูดได้ว่าค่าเฉลี่ยของประชากร 2 กลุ่มมีความแตกต่างกันเป็น 0 หรือเขียนในอีกรูปหนึ่งได้ว่า 1 - 2 = 0 หรือความแตกต่างเป็นศูนย์ (Null)
นักสถิติจึงได้มีการศึกษาว่า ถ้าหากเรามีประชากรที่มีค่าเฉลี่ยเท่ากันแล้วและสุ่มกลุ่มตัวอย่างมา 15 คนเป็นกลุ่มทดลอง และ 15 คนเป็นกลุ่มควบคุม สุ่มเป็นจำนวนหลาย ๆ ครั้ง และในแต่ละครั้งทดสอบความแตกต่างของค่าเฉลี่ยด้วย t-test แล้ว 95% ของจำนวนครั้งทั้งหมดจะมีค่า t อยู่ในช่วง -2.048 ถึง 2.048 จะเรียกว่าการแจกแจงอย่างสุ่มของ t ภายใต้ H0 จะได้รูป

การแจกแจงอย่างสุ่มนี้จะมีความสำคัญในการพิจารณาตัดสินค่า t ในกรณีที่มีค่าสูง ๆ ดังนั้นถ้าค่า t คำนวณได้ 2.56 เป็นไปได้ที่เราจะปฏิเสธ H0 ดังนั้นการที่ค่า t มีค่าสูงจึงไม่น่าเป็นไปได้ ในเมื่อความจริงเป็นแล้วประชากร 2 กลุ่มมีค่าเฉลี่ยเท่ากันหรือ H0 เป็นจริง ดังนั้นถ้าหากของมูลมีความคลาดเคลื่อนมาก ก็อาจจะเป็นไปได้ที่จะคำนวณได้ค่า t สูง ๆ ในขณะที่ประชากร 2 กลุ่มมีค่าเฉลี่ยเท่ากัน ในทางปฏิบัติจึงเกิดมีความเสี่ยงในการตัดสินใจ ซึ่งเป็นที่มาของความคลาดเคลื่อน (Type I Error) ถ้าเราต้องการความเสี่ยงน้อย ๆ ที่ 5% ซึ่งนั่นก็คือการทดสอบสมมติฐาน โดยเราจะพูดว่าเป็นระดับนัยสำคัญ () ที่ระดับ .05 นั่นคือมี 5% ที่จะเกิด Type I Error ซึ่ง Type I Error (ระดับนัยสำคัญ) ก็คือ ความน่าจะเป็นในการปฏิเสธสมมติฐานศูนย์เมื่อสมมติฐานศูนย์เป็นจริง
ในสูตรองศาแห่งความเป็นอิสระ (df) ของ t-test คือ n1 + n2 - 2 สำหรับปัญหานี้ df = 28 เรากำหนดที่ = .05 แล้วอ้างอิงจากตารางสถิติ t แสดงค่าวิกฤติที่ -2.048 และ 2.048 เราจะใช้ค่าวิกฤติเป็นเกณฑ์ในการตัดสิน ถ้าค่า t ตกอยู่ในขอบเขตวิกฤติ เราจะปฏิเสธ H0

Type I Error อาจจะพูดได้อีกอย่างว่า กลุ่มประชากร 2 กลุ่มมีค่าเฉลี่ยแตกต่างกัน ทั้งที่ในความเป็นจริงแล้ว ประชากรทั้ง 2 กลุ่มมีค่าเฉลี่ยเท่ากัน การกำหนดระดับนัยสำคัญ () นั้นผู้วิจัยจะต้องตัดสินใจเองว่าจะกำหนดที่เท่าใด แต่โดยปกติจะกำหนดที่ .05 และ .01 ซึ่งอาจจะกำหนดที่ระดับอื่น ๆ ก็ได้ เช่น ถ้าเราไม่ค่อยใส่ใจกับ Type I Error มากนัก การกำหนดที่ระดับ .10 หรือ .15 ก็อาจจะทำได้
แต่ในกรณีของงานวิจัยที่เกี่ยวข้องกับการใช้ยา 2 ชนิด แล้วตั้งสมมติฐานศูนย์ว่า ยาทั้ง 2 ชนิดเป็นยาอันตราย ส่วนสมมติฐานอื่นตั้งว่า มียาชนิดหนึ่งที่ปลอดภัย ควรจะเอาใจใส่กับ Type I Error เป็นพิเศษ เพราะถ้าปล่อยให้มี Type I Error มากเกินไป อาจจะสรุปว่ายาชนิดใดชนิดหนึ่งปลอดภัย ทั้ง ๆ ที่ความจริงแล้วเป็นยาอันตรายทั้งคู่ ซึ่งจะมีผลร้ายต่อชีวิตมนุษย์ ในกรณีนี้ควรกำหนด ให้เล็กมาก ๆ อาจจะเป็นที่ .001 ก็ได้
ความคลาดเคลื่อนอีกชนิดหนึ่งที่จะมีผลต่อการทดสอบทางสถิติเรียกว่า Type II Error ใชัสัญลักษณ์ว่า ก็คือความน่าจะเป็นในการยอมรับ H0 เมื่อ H0 เป็นเท็จ หรือก็คือกลุ่มทั้ง 2 กลุ่มมีค่าเฉลี่ยไม่ต่างกันทั้ง ๆ ที่ความจริงแล้วทั้ง 2 กลุ่มมีค่าเฉลี่ยต่างกัน เราไม่สามารถควบคุมความคลาดเคลื่อนได้ทั้ง 2 ชนิด เพราะความคลาดเคลื่อนทั้ง 2 ชนิดจะมีลักษณะสวนทางกัน ดังนั้นถ้าเราควบคุม Type I Error ให้น้อยที่สุด Type II Error ก็จะเพิ่มสูงขึ้น ตารางข้างล่างนี้จะแสดงผลของการควบคุมความคลาดเคลื่อน

1 -
.10.37.63
.05.52.48
.01.78.22

สังเกตว่า เราควบคุม ในระดับต่าง ๆ จากมากไปน้อย (.10 ถึง .01) แล้ว Type II Error ก็จะเพิ่มขึ้น (จาก .37 ถึง .78) ดังนั้น ปัญหาสำหรับนักวิจัยจะต้องพยายามควบคุมความคลาดเคลื่อนทั้ง 2 ชนิดให้สมดุลกัน ในสดมภ์สุดท้าย คือ 1 - ก็คืออำนาจของการทดสอบทางสถิติ ซึ่งก็คือความน่าจะเป็นของการปฏิเสธสมมติฐานศูนย์เมื่อสมมติฐานเป็นเท็จ ดังนั้น อำนาจการทดสอบทางสถิติก็คือความน่าจะเป็นในการตัดสินใจที่ถูกต้อง หรือกลุ่ม 2 กลุ่มมีค่าเฉลี่ยต่างกัน ในความเป็นจริงค่าเฉลี่ยของทั้ง 2 กลุ่มก็แตกต่างกันจริง สังเกตว่า ที่ลดลง อำนาจการทดสอบก็จะลดลงด้วย ในรูปภาพต่อไปนี้ จะช่วยให้มีความชัดเจนในคำอธิบายมากขึ้น

รูปภาพ 7 แผนภาพการแจกแจง F ภายใต้สมมติฐาน H0 เป็นจริง และ H0 เป็นเท็จ, แสดงทิศทางความสัมพันธ์ระหว่าง Type I Error และ อำนาจการทดสอบ, Type I Error ก็คือความน่าจะเป็นในการปฏิเสธ H0 เมื่อเป็นจริง ซึ่งก็คือพื้นที่ในช่วงขอบเขตวิกฤติที่อยู่ปลายแผนภาพภายใต้ H0 เป็นจริง, อำนาจการทดสอบก็คือความน่าจะเป็นในการปฏิเสธ H0 เมื่อเป็นเท็จ ซึ่งก็คือพื้นที่ในช่วงขอบเขตวิกฤตที่อยู่ปลายแผนภาพภายใต้ H0 เป็นเท็จ

อำนาจการทดสอบทางสถิติขึ้นอยู่กับ 3 องค์ประกอบคือ
1. ระดับ ที่กำหนด
2. ขนาดกลุ่มตัวอย่าง
3. ขนาดอิทธิพล (Effect Size)
ในรูปภาพ 7 แสดงทิศทางของอำนาจการทดสอบที่ขึ้นอยู่กับระดับ อำนาจการทดสอบขึ้นอยู่กับขนาดของกลุ่มตัวอย่างด้วย ยิ่งมีขนาดใหญ่เพียงใด อำนาจการทดสอบยิ่งเพิ่มสูงขึ้น และสุดท้ายคือขนาดอิทธิพล ให้พิจารณาการทดสอบ t-test Independent แบบ 2 หางที่ระดับ .05 ประมาณค่าขนาดอิทธิพลของ t-test ด้วยสูตร เมื่อ SD คือส่วนเบี่ยงเบนมาตรฐาน ขนาดอิทธิพลจะแสดงให้เห็นความแตกต่างระหว่างค่าเฉลี่ยในหน่วยของส่วนเบี่ยงเบนมาตรฐาน ดังนั้นถ้า x1 = 6 และ x2 = 3 และ SD = 6 แล้ว หรือค่าเฉลี่ยมีค่าแตกต่างกันครึ่งหนึ่งของส่วนเบี่ยงเบนมาตรฐาน จากปัญหาข้างต้นเรามีขนาดอิทธิพล .5 ของส่วนเบี่ยงเบนมาตรฐานแล้วอำนาจการทดสอบจะเปลี่ยนแปลงไปตามขนาดของกลุ่มตัวอย่างดังนี้

ขนาดตัวอย่างในแต่ละกลุ่มอำนาจการทดสอบ
10.18
20.33
50.70
100.94

เมื่อขนาดกลุ่มตัวอย่างเพิ่มขึ้น อำนาจการทดสอบจะสูงขึ้น แต่ในการวิจัยที่มีกลุ่มตัวอย่างขนาดเล็ก (N < 20) จะมีอำนาจในการทดสอบต่ำ ดังนั้น อาจจะขยายระดับของ ให้กว้างขึ้น (.10 หรือ .15) เพื่อให้อำนาจการทดสอบเพิ่มสูงขึ้น
ในเรื่องของอำนาจการทดสอบจะนำเสนอรายละเอียดอีกครั้งในโอกาสต่อไป

เอกสารชุดนี้จัดทำโดย : ฉัตรศิริ ปิยะพิมลสิทธิ์. พฤษภาคม ๒๕๔๔