Thứ Năm, 19 tháng 1, 2017

SAI SÓT ALPHA VÀ SAI SÓT BETA 
TRONG KIỂM ĐỊNH THỐNG KÊ


1. Khái niệm về sai sót a  và b
Trong ước tính cỡ mẫu cho một nghiên cứu, việc đầu tiên cần phải xác định mức độ sai sót a (loại I) và b (loại II) là bao nhiêu. Nói chung cách gọi từ khá “toán học” của nhà thống kê làm cho chúng ta khó hiểu. Chúng tôi xin trình bày một số ví dụ có thể chưa thật đúng lắm trong diễn dịch thống kê nhưng có lẽ dễ hiểu hơn.
1.1. Ví dụ 1
Chọn 100 người lớn khỏe mạnh, xét nghiệm đo đường máu của tất cả đối tượng này, cho ta kết quả trong bảng 1.        
Bảng 1. Kết quả đường máu (mg%) ở 100 người lớn khỏe mạnh
97
100
94
106
103
108
97
92
113
112
88
108
95
101
124
95
119
99
84
93
82
114
88
85
79
90
104
104
109
98
94
89
102
98
93
102
102
102
110
109
94
114
106
109
103
90
93
83
104
106
100
111
101
88
80
91
103
91
91
119
97
116
118
117
95
92
123
81
102
95
106
106
95
103
96
89
94
122
110
104
84
108
104
98
98
97
105
109
98
86
105
97
87
111
107
115
96
94
79
107
Vào phần mềm SPSS vẽ biểu đồ cuống-lá (Stem & leaf) cho kết quả ở biểu đồ 1.


Biểu đồ 1. Biểu đồ cuống-lá của phân phối đường máu
Và vẽ biểu đồ histogram.

                   Biểu đồ 2. Phân bố trị số đường máu của 100 người lớn khỏe mạnh
 Nhận xét qua hai biểu đồ:
  - 95 người (95%) có đường máu từ 80-100 mg%
- 2 người (2%) có đường máu <80 mg% (79, 79)
- 3 người (3%) có đường máu >120 mg% (122, 123, 124)
Như vậy có 5 người có đường máu bất thường mặc dù họ vẫn khỏe mạnh, nếu ta gọi 5 người này có bệnh thì ta phạm sai sót 5% (sai sót α).
Ngược lại trong 95 người có đường máu 80-120 mg%, có thể có 6 người đã có bệnh nhưng ta vẫn coi họ bình thường thì ta phạm sai sót 6% (sai sót β).
       1.2. Ví dụ 2
Để tuyên án một bị can, luật pháp phải chứng minh được là người ấy có tội. Việc tìm các chứng cứ chứng minh thật không dễ dàng, vì vậy người ta dùng giả-thuyết-không (null hypothesis). Giả-thuyết-không phát biểu là bị can “không tội” (vô tội), nếu tất cả các chứng cứ điều tra  bác bỏ được giả thuyết không (có nghĩa là không vô tội hoặc có tội), bị can bị kết án tù. Giả sử tòa án xử 100 bị can là những người vô tội thật sự và mức kết án (giá trị tới hạn a=0,05) thì ta phạm sai sót a là 5% có nghĩa là có 5% người bị tù oan!
Ngược lại, tòa án xử 100 bị can là những người có tội thật sự nhưng  không đủ bằng chứng để bác bỏ giả-thuyết-không, bị can được tha bổng thì ta mắc sai sót b (loại 2). Nếu cho b=0,10 thì có 10%  bị can có tội lại được tha bổng!

Biểu đồ 3. Tiêu chuẩn xử án và sai sót loại I (sai sót a)
Theo bạn, trong 2 loại sai sót ab thì sai sót nào quan trọng hơn trong việc tuyên án hình sự? Luật pháp nước Mỹ cho rằng sai sót a quan trọng hơn. Nếu cho giá trị tới hạn (critical value) tuyên án a=0,05 sẽ có 5% người bị tù oan và như vậy cũng sẽ  có 5% kẻ phạm tội thật sự không bị bắt giam và sẽ tiếp tục gây án, điều này rất nguy hiểm cho xã hội. Vì vậy, trong việc phán quyết một án hình sự thường người ta chọn ngưỡng  a=0,01 hoặc thậm chí a=0,001 để số người bị tù oan chỉ còn là 1% hoặc 0,1%. Nếu giảm  sai sót a, sẽ tăng sai sót b, như vậy “ thà thả lầm hơn là bắt lầm!”[1]
                        Bảng 2. Các tình huống phán quyết của tòa án
Tuyên án
Sự thật
Không tội
Có tội
Bác bỏ GT không
(p<0,05)ðcó tội


Sai sót  a

Đúng sự thật
Không bác bỏ
(p>0,05) ðvô tội
Đúng sự thật
Sai sót b
Sai sót a: Vô tội thành có tội; Sai sót b : Có tội được tha bổng

2. Sai sót alfa và beta trong nghiên cứu y học
Bây giờ chúng ta quay về thống kê suy diễn (inferential statistics) trong y học. Để xem một loại thuốc hoặc một thủ thuật điều trị có tác dụng hay không thì chúng ta phải chứng minh chúng thật sự có tác dụng nhưng điều này khó thực hiện, do vậy chúng ta phải dùng giả-thuyết-không (null hypotesis): thuật điều trị này không có tác dụng. Nếu chúng ta dùng các phép kiểm định thống kê như t, c2, F bác bỏ được giả thuyết này thì lúc đó ta chấp nhận giả thuyết ngược lại hoặc gọi là giả thuyết đối (alternative hypothesis) là đúng, có nghĩa là thuốc này có tác dụng. Điều này chưa thật thuyết phục cũng giống như chúng ta nói rằng tất cả các con mèo thì màu đen bởi vì tôi không tìm thấy con mèo nào màu trắng cả!
Như vậy khi chứng minh một loại thuốc có tác dụng điều trị trong pha 3 của thử nghiệm lâm sàng đối chứng ngẫu nhiên của một công ty Dược phẩm thì lời tuyên bố này cũng chỉ đúng khoảng 90-95% tùy theo mức sai sót ab được chọn. 
Một ví dụ cụ thể: để biết châm cứu có hiệu quả hay không trong việc điều trị hạ huyết áp, nhà nghiên cứu tiến hành nghiên cứu gồm 2 nhóm bệnh nhân (BN): 83 BN được châm cứu và 77 BN được châm cứu giả (placebo). Theo dõi sau 3, 6 tháng nhà nghiên cứu đánh giá kết quả bằng các test kiểm định thống kê xem thật sự châm cứu có hạ được huyết áp (bảng 3).[3]
Đặt giả-thuyết-không (Ho) là châm cứu không có tác dụng hạ huyết áp có 4 tình huống:
(1) Ho đúng (châm cứu không tác dụng), kết quả kiểm định thống kê p<0,05 (bác bỏ): sai sót a.
(2) Ho đúng (châm cứu không tác dụng), kết quả kiểm định thống kê p>0,05 (không bác bỏ): quyết định đúng.
(3) Ho sai (châm cứu có tác dụng), kết quả kiểm định thống kê p<0,05 (bác bỏ): quyết định đúng.
(4) Ho sai (châm cứu có tác dụng), kết quả kiểm định thống kê p>0,05 (không bác bỏ): sai sót b.
Bảng 3. Các tình huống trong thử nghiệm lâm sàng

Kiểm định thống kê
Tác dụng hạ huyết áp
Giả thuyết ho đúng
(châm cứu không
tác dụng)
Giả thuyết ho sai
(châm cứu có
tác dụng)
Bác bỏ giả thuyết ho
(p<0,05)
Sai sót  a
(Sai sót loại I)

Đúng
Không bác bỏ giả thuyết ho (p>0,05)

Đúng
Sai sót b
(Sai sót loại II)
Tóm lại, các phương pháp kiểm định thống kê bao giờ cũng có sai sót và kết quả nghiên cứu cũng có độ bất định, vấn đề thiết kế như thế nào để giảm sai sót a, b thấp nhất, nhưng lưu ý rằng giảm sai sót a thì tăng sai sót b và ngược lại. Tăng cỡ mẫu, có nghĩa là tăng lực mẫu (power = 1-b) là biện pháp tốt nhất để giảm sai sót. Thông thường một nghiên cứu chấp nhận sai sót  loại I là 1% hoặc 5% (tức là a=0,01 hay a=0,05) và chấp nhận xác suất sai sót loại II là 10% hoặc 20% (tức là b=0,10 hay 0,20).

Tài liệu tham khảo
1. Type I and Type II Errors - Making Mistakes in the Justice System, website: http://www.intuitor.com/statistics/T1T2Errors.html, truy cập ngày 10/02/09     
2. Nguyễn Văn Tuấn. Ước tính cỡ mẫu, trong phân tích số liệu và tạo biểu đồ bằng R. Nhà xuất bản KH và KT, Thành phố HCM 2007, tr: 305-310.

3. Flachskampf FA, Gallasch J, Gefeller O, Gan J, Mao J, Pfahlberg AB, Wortmann A, Klinghammer L, Pflederer W, Daniel WG.  Randomized trial of acupuncture to lower blood pressure. Circulation. 2007 Jun 19;115(24):3121-9. Epub 2007 Jun 4.
TS Nguyễn Ngọc Rạng, ĐHYD Cần Thơ, Email: nguyenngocrang@gmail.com

Không có nhận xét nào:

Đăng nhận xét