การแจกแจง t (Student's t Distribution)

พิจารณาที่ประชากรมีค่าเฉลี่ย และความแปรปรวน 2 ความแปรปรวนของการแจกแจงแบบสุ่มของประชากรคือ และค่าเฉลี่ย ดังในสูตรคะแนนมาตรฐานมีรูปสมการ

สัดส่วนความเบี่ยงเบนของค่าเฉลี่ยของกลุ่มตัวอย่าง จากประชากรที่มีค่าเฉลี่ย หารด้วยส่วนเบี่ยงเบนมาตรฐานของการแจกแจงแบบสุ่ม ที่เป็นสัดส่วนของการแจกแจงปกติที่มีค่าเฉลี่ย 0 และ ส่วนเบี่ยงเบนมาตรฐาน 1
ถ้าไม่รู้ค่า 2 และประมาณค่าจากข้อมูลซึ่งมีตัวประมาณค่าที่ไม่ลำเอียง เราจะประมาณค่า โดยใช้ เราจะได้สมการ

จากสมการนี้ มีตัวแปรสุ่มเป็น และ ซึ่งเป็นตัวตั้งและตัวหาร ตามลำดับ จะเป็นอัตราส่วน t เราจะใช้เมื่อมีจำนวนตัวอย่างน้อย ๆ ตามทฤษฎีจะเรียกว่าการแจกแจง t ถ้ากลุ่มตัวอย่าง 100 กลุ่ม แต่ละกลุ่มมี 5 คน ใช้ค่า และ คำนวณจะได้ t ถึง 100 ค่า การแจกแจงความถี่ของค่า t 100 ค่านี้จะไม่เป็นโค้งปกติ แต่การแจกแจงจะเป็นสมมาตรและปลายโค้งจะอยู่ห่างจากแกน X มากกว่าโค้งปกติ การแจกแจง t จะไม่ได้มีลักษณะเดียว แต่จะมีหลายลักษณะ ความแตกต่างของการแจกแจงนั้นจะขึ้นอยู่กับจำนวน degree of freedom (df) เมื่อจำนวน df เพิ่มมากขึ้นเท่าไหร่ การแจกแจงก็จะยิ่งเข้าใกล้โค้งปกติมากเท่านั้น ภาพประกอบ 1 แสดงการแจกแจงปกติกับการแจกแจง t ที่ df ต่าง ๆ กัน

ภาพประกอบ 1 การแจกแจงปกติกับการแจกแจง t ที่ df ต่าง ๆ กัน

การแจกแจง t เป็นรูปแบบที่ถูกปรับมาเพื่อใช้แก้ปัญหาในการสุ่มตัวอย่าง ซึ่งพูดถึงกันมากในปี 1908 โดย W. S. Gosset เขาเป็นผู้เขียนโดยใช้นามปากกว่า “Student”
การแจกแจง t นั้นนิยมใช้กันเป็นอันดับ 2 รองจากการแจกแจงปกติ ในการแจกแจงปกตินั้น 95% ของพื้นที่ใต้โค้งปกติจะ 1.96 จากค่าเฉลี่ยและ 5 % ของพื่นที่นอกขอบเขตนี้ 99% ของพื้นที่ภายใต้โค้งปกติจะ 2.58 จากค่าเฉลี่ยและ 1% ของพื้นที่นอกขอบเขตนี้ ในการแจกแจง t การแจกแจงจะอยู่บนแกน X จำนวน 95% และ 99% ของพื้นที่ภายใต้โค้งแตกต่างกันไปตามจำนวนของ Degree of freedom เราสามารถจะเปิดจากตารางแสดงพื้นที่ใต้โค้งการแจกแจง t โดยใช้ df แทน N บนพื้นฐานของการแจกแจง t นั้น จำนวน 95% และ 99% ของพื้นที่ใต้โค้ง (คือ 1.96 และ 2.58 ของการแจกแจงปกติ) เปลี่ยนแปลงไปตามระดับของ df ดังนี้

จำนวนของ df ที่ นั้น t จะมีค่า 1.96 และ 2.58 ความแตกต่างระหว่าง t ที่ df 30 และ t ที่มีจำนวน df มากกว่า มีความแตกต่างกันเล็กน้อยมาก สามารถเปิดหาค่า t ได้จากตารางการแจกแจง t
การแจกแจงปกตินั้นใช้เมื่อกลุ่มตัวอย่างมีขนาดใหญ่ หากกลุ่มตัวอย่างมีขนาดเล็กและการแจกแจงของประชากรเป็นโค้งปกติ การแจกแจง t จะเป็นรูปแบบที่เหมาะสมที่สุด

Degree of Freedom

จากที่กล่าวมาแล้วว่า ความแปรปรวนของกลุ่มตัวอย่างก็คือ ผลบวกของกำลังสองของความเบี่ยงเบนจากค่าเฉลี่ยหารด้วย df ซึ่งแนวคิดของ df จะกล่าวโดยละเอียดดังนี้
จำนวนของ df คือ จำนวนค่าของตัวแปรที่เป็นอิสระ ค่าการวัดสมมติว่าเป็น 10, 14, 6, 5 และ 5 เมื่อหาความเบี่ยงเบนจากค่าเฉลี่ย ซึ่งเท่ากับ 8 จะได้ +2, +6, -2, -3, -3 ผลบวกคือ 0 ถ้าเรารู้ค่าความเบี่ยงเบน 4 ตัวแล้ว เราสามารถกำหนดค่าความเบี่ยงเบนอีกตัวหนึ่งได้ ดังนั้นจำนวน df = 4
ใชัสัญลักษณ์ X1, X2, X3 แทนค่าการวัดและมีค่าเฉลี่ย ผลบวกของความเบี่ยงเบนคือ (X1 - ) + (X2 - ) + (X3 - ) = 0 ถ้ารู้ค่า และค่า X อีก 2 ค่า เราก็จะสามารถกำหนดค่าที่ 3 ได้ จำนวนของ df จึงเป็น 2 การคำนวณความแปรปรวนของส่วนเบี่ยงเบนมาตรฐานนั้น จำเป็นต้องหาผลบวกของกำลังสองของความเบี่ยงเบนจากค่าเฉลี่ยเขียนเป็นสัญลักษณ์ได้ว่า (X - )2 จำนวน df ที่สัมพันธ์กับผลบวกกำลังสองคือ N - 1 หารผลบวกกำลังสองด้วย df ที่เกี่ยวข้อง ซึ่งจะช่วยให้การประมาณค่า 2 ไม่มีความลำเอียง จำนวนของ df ขึ้นอยู่กับธรรมชาติของปัญหา

การทดสอบนัยสำคัญของกลุ่มตัวอย่างเดียว

ในการทดสอบนัยสำคัญบางครั้งอาจต้องการทดสอบค่าเฉลี่ยของกลุ่มตัวอย่าง () ที่มีจำนวน N คนกับค่าเฉลี่ยของประชากร () ในสองสถานการณ์ที่ควรจะพิจารณาก็คือ สถานการณ์แรกรู้ค่าเฉลี่ยประชากร () และส่วนเบี่ยงเบนมาตรฐาน () สถานการณ์ที่สองก็คือรู้ค่าเฉลี่ยของประชากร () แต่ไม่รู้ส่วนเบี่ยงเบนมาตรฐาน
ในสถานการณ์แรกที่รู้ทั้งค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของประชากร เช่นในการทดสอบความฉลาดของนักเรียนในชั้นเรียน 25 คน ได้ค่าเฉลี่ยของกลุ่มตัวอย่าง 110 และส่วนเบี่ยงเบนมาตรฐาน 14 ค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานของประชากรที่ต้องการทดสอบคือ = 100 และ = 15 การแจกแจงเป็นโค้งปกติ ค่าเฉลี่ยของกลุ่มตัวอย่างแตกต่างอย่างมีนัยสำคัญจากค่าเฉลี่ยของประชากรหรือไม่ สมมติฐานทางสถิติเขียนได้ว่า H0 : = 100 หรือ H0 : - 100 = 0 ดึงกลุ่มตัวอย่างมาจากประชากรที่มี = 100 และ = 15 ส่วนเบี่ยงเบนมาตรฐานของการแจกแจงคือ และ

z ก็คือการแจกแจงปกติ ค่าของระดับนัยสำคัญคือ .05 และ .01 สำหรับการทดสอบแบบไม่มีทิศทางก็คือ 1.96 และ 2.58 ดังนั้นปฏิเสธ H0 ซึ่งชัดเจนว่าค่าเฉลี่ยของกลุ่มตัวอย่างแตกต่างจากค่าเฉลี่ยของประชากร ดังนั้นยอมรับ H1 : 100
ในอีกกรณีหนึ่งของการตัดสินสมมติฐานโดยการใช้แบบมีทิศทาง โดยครูเชื่อว่ากลุ่มตัวอย่างในชั้นเรียนได้คะแนนความฉลาดสูงกว่าค่าเฉลี่ยของประชากร ความน่าจะเป็นแบบมีทิศทางที่ .005 และ .01 ก็คือ 1.64 และ 2.33 ตามลำดับ ในค่าที่คำนวณได้ชัดเจนว่ากลุ่มตัวอย่างมีคะแนนเฉลี่ยสูงกว่าคะแนนของประชากร
ในสถานการณ์ที่สอง กรณีที่รู้ค่าเฉลี่ยของประชากร แต่ไม่รู้ส่วนเบี่ยงเบนมาตรฐานของประชากร ซึ่งค่าส่วนเบี่ยงเบนมาตรฐานจะต้องประมาณค่าจากข้อมูลที่มีอยู่ เราจะใช้การแจกแจง t ในตัวอย่างนี้ = 110 และ s = 14 ซึ่ง s เป็นตัวประมาณค่าที่ไม่ลำเอียงของ ความคลาดเคลื่อนมาตรฐานจะได้ และ

จำนวนขององศาแห่งความเป็นอิสระคือ 24 ซึ่งค่า t นี้จะทดสอบที่ระดับนัยสำคัญ .05 และ .01 จะได้ค่า 2.064 และ 2.797 สำหรับการทดสอบแบบไม่มีทิศทาง และ 1.711 และ 2.492 สำหรับการทดสอบแบบมีทิศทาง ชัดเจนว่านักเรียนชั้นนี้มีคะแนนความฉลาดสูงกว่าคะแนนเฉลี่ยของประชากร

การทดสอบนัยสำคัญของกลุ่มตัวอย่างสองกลุ่มที่เป็นอิสระจากกัน

ในกรณีรู้ความแปรปรวนของประชากร (i2) สามารถใช้สถิติ z ในการคำนวณโดยนำค่าเฉลี่ยมาลบกันแล้วหารด้วยความคลาดเคลื่อนมาตรฐาน ซึ่งในกรณีนี้ (1 - 2) เป็นค่าเฉลี่ยของกลุ่มตัวอย่าง ส่วนค่าเฉลี่ยของการแจกแจงคือ (1 - 2) ความคลาดเคลื่อนมาตรฐานของความแตกต่างระหว่างค่าเฉลี่ยคือ

ดังนั้นเราสามารถเขียนได้ว่า

ค่าวิกฤติที่ = .05 คือ z = 1.96 (แบบสองหาง)
จากสูตรนี้สามารถขยายไปสู่สถิติ t ได้ ซึ่งไม่บ่อยนักที่จะรู้ค่าความแปรปรวนของประชากร เราสามารถแก้ปัญหาได้ด้วยการใช้ความแปรปรวนของกลุ่มตัวอย่างในการประมาณค่าความแปรปรวนของประชากร สถิติ t จึงเหมาะสมกว่า

แต่สมมติฐานหลักโดยทั่วไปก็คือ 1 - 2 = 0 ดังนั้นเราสามารถเขียนสมการใหม่ได้ว่า

ความแปรปรวนเท่ากัน (Pooling Variances)

แม้ว่าในสมการ t จะได้มีการพัฒนาให้เหมาะสมในกรณีที่กลุ่มตัวอย่างเท่ากัน แต่ก็ยังต้องพัฒนาต่อเมื่อกลุ่มตัวอย่างมีขนาดไม่เท่ากัน ซึ่งในการพัฒนานี้จะช่วยในการประมาณความแปรปรวนของประชากร ข้อตกลงเบื้องตนหนึ่งที่ต้องการในการใช้ t สำหรับกลุ่มตัวอย่างสองกลุ่มก็คือ 12 = 22 (กลุ่มตัวอย่างมาจากประชากรที่มีความแปรปรวนเท่ากัน) โดยมากในการวิจัยเชิงทดลองกลุ่มตัวอย่าง 2 กลุ่มมักจะเท่าเทียมกันก่อนที่จะได้รับตัวแปรทดลอง ดังนั้นจะสมมติว่าความแปรปรวนของประชากรทั้งสองกลุ่มเท่ากัน สัญลักษณ์ของความแปรปรวนจะใช้ 2โดยไม่มีตัวห้อย
ในข้อมูลของเราจะต้องมีการประมาณค่า 2 โดยใช้ S12 และ S22 ซึ่งจะมีความเหมาะสมมากกว่าถ้าจะหาค่าเฉลี่ยของ S12 และ S22 ซึ่งจะช่วยในการประมาณค่า 2 ได้ดีกว่าประมาณค่าแยกสองกลุ่ม ในการหาค่าเฉลี่ยจะต้องมีการถ่วงน้ำหนักให้เท่ากันทั้งสองกลุ่ม โดยใช้ค่าเฉลี่ยถ่วงน้ำหนัก ที่มี การถ่วงน้ำหนักด้วย df = (Ni - 1) ซึ่งจะเรียกตัวประมาณค่าความแปรปรวนใหม่นี้ว่า Sp2 มีสูตรคือ

ตัวเศษจะเป็นผลรวมของความแปรปรวนที่มีการถ่วงน้ำหนักด้วย df และตัวหารจะเป็นผลรวมของน้ำหนัก หรือก็คือ df ของ Sp2
ค่าเฉลี่ยถ่วงน้ำหนักของความแปรปรวนทั้งสองกลุ่มโดยปกติจะเรียกว่า pooled variance estimate สามารถนิยามสถิติ t ที่ความแปรปรวนเท่าเทียมกันได้ว่า

ในแต่ละกลุ่มจะมี df = Ni - 1 ดังนั้นสองกลุ่ม ก็จะมี (N1 - 1) + (N2 - 1) = N1 + N2 - 2 ดังนั้นองศาแห่งความเป็นอิสระของสถิติ t สำหรับสองกลุ่มตัวอย่างที่ความแปรปรวเท่ากันก็คือ N1 + N2 - 2

ข้อตกลงเบื้องต้นของ t-test

สถิติ t-test ต้องการข้อตกลงเบื้องต้นดังนี้
1. กลุ่มตัวอย่างต้องถูกเลือกมาอย่างสุ่ม
2. คุณลักษณะของประชากรที่ถูกวัดต้องมีการแจกแจงเป็นโค้งปกติ
3. ความแปรปรวนของประชากรทั้งสองกลุ่มต้องเท่ากัน
4. ตัวแปรที่เปรียบเทียบระหว่างกลุ่มต้องวัดในสิ่งเดียวกัน
5. ตัวแปรที่เปรียบเทียบต้องอยู่ในมาตราการวัดระดับอันตรภาค (interval scale) ขึ้นไป

ความแปรปรวนไม่เท่ากัน (Heterogeneity of Variances)

มีข้อตกลงเบื้องต้นของการทดสอบ t กรณีทดสอบสองกลุ่มตัวอย่างก็คือ ความแปรปรวนของประชากรทั้งสองกลุ่มต้องเท่ากัน (12 = 22 = 2) ดังนั้นเมื่อ H0 : 1 - 2 = 0 เป็นจริงและความแปรปรวนเท่ากันแล้ว สถิติ t ก็คือ

df = N1 + N2 - 2 และเมื่อความแปรปรวนไม่เท่ากัน สูตรข้างต้นจะใช้ไม่ได้ จะต้องใช้อีกสูตรหนึ่งในกรณีที่ความแปรปรวนไม่เท่ากัน สามารถเขียนสูตรได้ใหม่ว่า

เมื่อ S12 และ S22 คือความแปรปรวนของกลุ่มตัวอย่างสองกลุ่มที่ไม่เท่ากัน สถิติ t’ จะสังเกตว่าไม่ใช่ t ดังนั้น df จะไม่ใช่ N1 + N2 - 2 อีกต่อไป
ความพยายามครั้งแรกที่พบเกี่ยวกับปัญหาการแจกแจงของ t’ เริ่มต้นโดย Behrens และนำมาขยายผลโดย Fisher และปัญหาโดยทั่วไปเกี่ยวกับความแปรปรวนที่ไม่เท่ากันจะรู้จักกันในชื่อของ Behrens-Fisher problem ซึ่งปัญหานี้ Behrens-Fisher ได้ศึกษา t’ และนำเสนอในตาราง Fisher and Yates ในปี 1953 อย่างไรก็ตามตารางนี้ครอบคลุมค่า df เพียงไม่กี่ค่าเท่านั้น ไม่สามารถนำไปใช้ประโยชน์ได้มากนัก
ต่อมาในปี 1957 Cochran และ Cox ได้ศึกษาวิธีการประมาณค่าวิกฤตของ Behrens-Fisher และได้แก้ไขปัญหาค่าวิกฤตของ t’ โดยเปรียบเทียบกับ t’obt

เมื่อ t1 และ t2 คือค่าวิกฤต (t/2) ของ t ที่ df = N1 - 1 และ N2 - 1 ตามลำดับ
อีกทางเลือกหนึ่งที่ถูกพัฒนาให้เหมาะสมโดย Welch ในปี 1938 และ Satterthwaite ในปี 1946 ได้พัฒนาปัญหาของ df ทำให้ได้ค่า df เหมาะสม และใช้สัญลักษณ์ว่า df’

การประมาณค่า df นี้จะถูกต้องเมื่อขนาดตัวอย่าง N1 และ N2 มีค่าตั้งแต่ 5 ขึ้นไป (Moore and McCabe. 1993 : 538)

ตัวอย่างการคำนวณ

1. ในการสอนวิชาเรขาคณิตโดยไม่ใช้อุปกรณ์กับนักเรียนกลุ่มหนึ่งจำนวน 10 คน และสอนโดยใช้อุปกรณ์กับนักเรียนอีกกลุ่มหนึ่ง 15 คน เมื่อถึงปลายเทอมทำการสอบวัดผลสัมฤทธิ์ทางการเรียนของนักเรียนทั้งสองกลุ่ม ปรากฏผลว่า กลุ่มแรกที่ไม่ใช้อุปกรณ์มีค่าเฉลี่ยและความแปรปรวน 45 และ 10 ตามลำดับ ส่วนอีกกลุ่มหนึ่งที่ใช้อุปกรณ์มีค่าเฉลี่ยและความแปรปรวน 40 และ 12 ตามลำดับ จงทดสอบว่าผลสัมฤทธิ์ทางการเรียนวิชาเรขาคณิตของนักเรียน 2 กลุ่มนี้แตกต่างกันหรือไม่ และตั้งข้อตกลงว่าความแปรปรวนของกลุ่มตัวอย่างทั้งสองเท่ากัน
สมมติฐานทางสถิติเขียนได้ว่า H0 : 1 = 2 และ H1 : 1 2
ใช้ t-test กรณีความแปรปรวนเท่ากันจากสูตร

เปรียบเทียบค่า t ที่คำนวณได้กับค่า t ที่เปิดจากตาราง df = 10 + 15 - 2 = 23 ที่ระดับนัยสำคัญ 0.05 ได้ค่า t = 1.714 ค่า t ที่คำนวณได้มากกว่าค่า t ที่เปิดจากตาราง ปฏิเสธ H0 ยอมรับ H1 นั่นคือผลสัมฤทธิ์ทางการเรียนเรขาคณิตของกลุ่มที่ใช้อุปกรณ์การเรียนมีคะแนนเฉลี่ยสูงกว่ากลุ่มนักเรียนที่ไม่ใช้อุปกรณ์การเรียนอย่างมีนัยสำคัญทางสถิติที่ 0.05
2. จากตัวอย่างในข้อ 1 สมมติว่าความแปรปรวนของทั้งสองกลุ่มไม่เท่ากัน จะต้องคำนวณโดยใช้สูตรที่ความแปรปรวนไม่เท่ากัน

คำนวณหา df จากสูตร

เปิดค่า t จากตารางที่ระดับนัยสำคัญ 0.05 และ df = 21 ได้ค่า t = 1.721
ค่า t’ ที่คำนวณได้มากกว่าค่า t ที่เปิดจากตาราง ปฏิเสธ H0 ยอมรับ H1 นั่นคือผลสัมฤทธิ์ทางการเรียนเรขาคณิตของกลุ่มที่ใช้อุปกรณ์การเรียนมีคะแนนเฉลี่ยสูงกว่ากลุ่มนักเรียนที่ไม่ใช้อุปกรณ์การเรียนอย่างมีนัยสำคัญทางสถิติที่ 0.05

จากตัวอย่างข้างต้น เราไม่สามารถทราบได้ว่า ความแปรปรวนของประชากรทั้งสองกลุ่มเท่ากันหรือไม่ วิธีที่จะทราบว่าความแปรปรวนเท่ากันหรือไม่ สถิติที่นิยมก็คือ F-test ในที่นี้จะนำเสนอการทดสอบความแตกต่างของความแปรปรวนระหว่างกลุ่มตัวอย่าง 2 กลุ่มที่เป็นอิสระจากกัน โดยมีสมมติฐาน H0 : S12 = S22 มีสูตรว่า

เมื่อ SL2 และ SS2 ก็คือความแปรปรวนของกลุ่มตัวอย่างสองกลุ่มที่มากกว่า (Large) และน้อยกว่า (Small) ตามลำดับ สถิติ F นี้มี df = N1 - 1 และ N2 - 1 ถ้าค่าที่คำนวณได้มากกว่าค่าที่เปิดจากตาราง แสดงว่าความแปรปรวนของกลุ่มตัวอย่างทั้งสองกลุ่มแตกต่างกัน
จากตัวอย่างข้างต้น สามารถทดสอบความแตกต่างของความแปรปรวนด้วย F-test ได้ดังนี้

F = 12/10 = 1.20

เปรียบเทียบค่า F ที่คำนวณน้อยกว่าค่า F ที่เปิดจากตาราง (Fตาราง = 3.02) แสดงว่าความแปรปรวนของทั้ง 2 กลุ่มเท่ากัน สถิติ t-test ที่เหมาะกับตัวอย่างนี้ก็คือ t-test pooling variance


บรรณานุกรม
ชูศรี วงศ์รัตนะ. เทคนิคการใช้สถิติเพื่อการวิจัย. กรุงเทพฯ : ภาควิชาการวัดผลและวิจัยการศึกษา คณะศึกษาศาสตร์ มหาวิทยาลัยศรีนครินทรวิโรฒ, 2544.
David, S. Moore and McCabe, George P. Introduction to the Practice of Statistics. New York : W. H. Freeman and Company, 1993.
Howell, David C. Statistical Methods for Psychology. California : Duxbury Press, 1992.

เอกสารชุดนี้จัดทำโดย : ฉัตรศิริ ปิยะพิมลสิทธิ์. กรกฏาคม ๒๕๔๕