Distance Statistics ในการวิเคราะห์การถดถอย

Distance Statistics เป็นกลุ่มของสถิติชนิดหนึ่งที่ใช้ในการคำนวณหาค่าผิดปกติ (outlier) ของข้อมูลที่มีผลต่อการวิเคราะห์การถดถอย Distance Statistics ที่จะนำเสนอต่อไปนี้มี 3 ชนิดคือ

1. Leverance

Leverage เป็นสถิติที่ใช้เฉพาะค่าของตัวแปรอิสระในการคำนวณ ถ้าใช้ leverage เพียงตัวเดียวในการหาค่าผิดปกติ อาจไม่สามารถหาได้ ควรจะใช้สถิติอื่น ๆ พิจารณาประกอบกัน
การคำนวณสถิติ leverage (เรียกว่า h) สำหรับกลุ่มตัวอย่างที่ i แสดงดังสมการ

ค่า Xi ที่เบี่ยงเบนไปจาก มากที่สุดจะทำให้ leverage มีค่าสูงสุด และจะมีค่าต่ำสุดเท่ากับ 1/N เมื่อ Xi มีค่าเท่ากับ และกรณีที่กลุ่มตัวอย่าง 2 คนที่มีค่า X เท่ากันก็จะมีผลให้สถิติ leverage มีค่าเท่ากันด้วย ค่า leverage มีค่าสูงสุดคือ 1.00 ค่าเฉลี่ยของ leverage ของข้อมูลทั้งชุดจะเท่ากับ (k+1)/N เมื่อ k คือจำนวนของตัวแปรอิสระ
Hoaglin และ Welsch (1978) แนะนำให้ใช้ rule of thumb เป็นเกณฑ์ของสถิติ leverage ถ้าสถิติ leverage มีค่าเกินเกณฑ์นี้ถือว่าค่าผิดปกติมีผลต่อเส้นถดถอย

เมื่อ k คือจำนวนของตัวแปรอิสระและ N คือจำนวนของกลุ่มตัวอย่าง

2. Mahalanobis distance

คำนวณโดยอาศัยค่าจากสถิติ leverage ซึ่ง MD ก็คือช่วงห่างของค่านั้นกับการแจกแจง ซึ่งสามารถทดสอบนัยสำคัญได้ ถ้ามีตัวแปรอิสระเพียงตัวเดียว mahalanobis distance ก็คือค่ากำลังสองของค่ามาตรฐานของตัวแปร กรณีที่มีตัวแปรอิสระหลายตัว คำนวณได้ด้วยสูตร

3. Cook’s D

เมื่อ leverage และ mahalanobis distance ใช้เฉพาะค่าจากตัวแปรอิสระเท่านั้นในการคำนวณ Cook’s D ใช้ทั้งค่าจากตัวแปรอิสระและตัวแปรตาม และใช้ทั้งค่าของ studentised residual และค่าจากสถิติ leverage ในการคำนวณมีสมการว่า

เพราะว่า Cook’s D เป็นผลมาจาก leverage และ residual ถ้าตัวใดตัวหนึ่งมีค่าต่ำแล้ว ค่า D ก็จะมีค่าต่ำด้วย ถ้าทั้ง 2 ตัวมีค่าสูงแล้ว ค่า D ก็จะมีค่าสูงด้วย

4. เปรียบเทียบสถิติ distance

สรุปสถิติของข้อมูลทั้งหมดในตาราง 2 leverage และ mahalanobis ของคนที่ 3 ไม่ได้มีค่าสูงที่สุด อย่างไรก็ตาม สถิติทั้ง 2 ตัวนี้ไม่ได้นำไปสู่การอธิบายคะแนนของตัวแปรตามแต่ละอธิบายเฉพาะตัวแปรอิสระเท่านั้น Cook’s D พิจารณาทั้งตัวแปรอิสระและตัวแปรตาม ถ้าค่าของ Cook’s D มีค่าสูงสุด

ตาราง 1 ชุดข้อมูล

Caseeventshass suppdep
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
120
185
150
110
94
156
55
132
141
157
202
107
148
180
88
108
111
122
162
150
148
103
155
134
116
159
122
149
86
100
127
130
95
52
91
148
150
143
129
179
46
48
60
55
41
54
31
33
31
59
53
51
39
43
43
43
40
46
55
51
45
50
57
46
36
60
46
36
42
36
50
54
56
33
45
43
39
45
37
55
10
33
10
23
47
40
48
41
32
38
13
39
37
13
51
30
5
64
60
28
47
18
19
45
46
18
32
39
39
44
15
49
33
49
41
20
21
24
39
10
150
160
70
150
90
130
120
120
150
160
180
120
140
120
100
110
120
80
140
120
90
130
140
130
90
120
90
90
80
110
150
100
90
110
110
110
90
160
140
150

ตาราง 2 เปรียบเทียบ distance statistics ในทั้ง 3 กรณี

สถิติค่า
Leverage
Mahalanobis distance
Cook’s D
0.11
4.3
0.30

6. การวิเคราะห์ residuals ด้วยโปรแกรม SPSS 10.0 for Windows

จากข้อมูลในตาราง 1 สามารถวิเคราะห์หาค่า residuals ชนิดต่าง ๆ ได้ด้วยเมนู Analyze -> Regression -> Linear... จะปรากฎหน้าต่าง "Linear Regression" เลือกตัวแปรตามซึ่งก็คือ dep ใส่ในช่อง Dependent : อีก 3 ตัวแปรที่เหลือก็คือตัวแปรทำนาย ใส่ในช่อง Independent(s) :

คลิกที่ปุ่ม Save... จะปรากฏหน้าต่าง "Linear Regression : Save" ตรงช่อง Distances คลิกเลือกชนิดของ Distances ที่ต้องการคำนวณ

คลิกปุ่ม Continue และคลิกปุ่ม OK โปรแกรมจะคำนวณค่าต่าง ๆ ที่เกี่ยวข้อง และคำนวณค่า Distance ชนิดต่าง ๆ ของกลุ่มตัวอย่างแต่ละคน


บรรณานุกรม
Miles, Jeremy and Shevlin, Mark. Applying Regression & Correlation : A Guide for Student and Researchers. London : SAGE Publications, 2001.
Pedhazur, Elazar J. Multiple Regression in Behavioral Research : Explanation and Prediction. USA. : Holt, Rinehart and Winston, Inc., 1997.

เอกสารชุดนี้จัดทำโดย : ฉัตรศิริ ปิยะพิมลสิทธิ์. พฤศจิกายน ๒๕๔๕