Chủ Nhật, 22 tháng 1, 2017

CHUYỂN DẠNG SỐ LIỆU

Các kiểm định thống kê như phép kiểm T, phân tích phương sai, phân tích hồi qui tuyến tính… đều đòi hỏi những giả định chặt chẽ về phân phối chuẩn hoặc độ lệch chuẩn, phương sai các mẫu so sánh phải đồng nhất (gần bằng nhau).

Trong những trường hợp dữ liệu thô của nghiên cứu không có phân phối chuẩn, chúng ta thường chuyển dạng dữ liệu bằng cách lấy logarithm, căn bậc hai, nghịch đảo hoặc một hàm khác.
Ví dụ: Đây là dữ liệu thô nồng độ BNP (Brain Natriuretic Peptide) của 30 bệnh nhân bị suy tim (cột 2) và dữ liệu sau khi đã chuyển đổi bằng hàm logarithm thập phân (cột 3)
ID
BNP
log10_BNP
1
35,000
4.54
2
3,818
3.58
3
20,176
4.30
4
3,251
3.51
5
23,135
4.36
6
11,586
4.06
7
6,342
3.80
8
523
2.72
9
8,523
3.93
10
5,427
3.73
11
25,000
4.40
12
7,641
3.88
13
437
2.64
14
916
2.96
15
2,076
3.32
16
2,975
3.47
17
7,828
3.89
18
24,600
4.39
19
24,600
4.39
20
31,000
4.49
21
24,000
4.38
22
2,648
3.42
23
1,278
3.11
24
1,168
3.07
25
2,648
3.42
26
1,058
3.02
27
2,918
3.47
28
6,480
3.81
29
3,440
3.54

Ta có thể kiểm đinh về phân phối chuẩn của dữ liệu thô BNP và dữ liệu log10_BNP bằng phép kiểm Shapiro-Wild trong SPSS hoặc trong các phần mềm thống kê khác như Stata, R.
Để kiểm định một biến số có phân phối phối chuẩn trong SPSS, ta vào: Analyze>Descriptive Statistics > Explore


Sau khi nhấn explore, chuyển các biến BNP và log10_BNP vào ô Dependent List, nhấn vào hộp Plots, đánh dấu nháy vào ô Normality plots with tests.

Kết quả: Ta chỉ xem phần kiểm đinh phân phối chuẩn Shapiro-Wilk, nếu p<0,05 thì số liệu sẽ không có phân phối chuẩn 

Xem bảng kết quả, ta thấy biến BNP không có phân phối chuẩn, sau khi dùng hàm logarithm để chuyển, biến log10_BNP có phấn phối chuẩn (p=0,186).
Nếu chuyển đổi qua logarithm, số liệu vẫn không có phân phối chuẩn thì cố gắng chuyển đổi số liệu bằng nhiều hàm khác nhau như rút căn, nghịch đảo, lũy thừa 2 hoặc 3….   
Trong phần mềm thống kê Stata có 2 lệnh rất hay (ladder và gladder), không có trong SPSS, để xem nên dùng hàm nào để chuyển đổi số liệu thô thành số liệu có phân phối chuẩn tốt nhất.
Đây là dữ liệu BNP được mở trong Stata


Trong Stata, muốn kiểm định phân phối chuẩn cũng dùng phép kiểm Shapiro-Wilk, lệnh được viết tắt là swilk. Kết quả kiểm định với p=0,00004, như vậy số liệu bnp không có phân phối chuẩn

Bây giờ, thử dùng lệnh ladder trong Stata để xem dùng hàm chuyển đổi nào để cho bnp có phân phối chuẩn tốt nhất

Xem cột p ở bên phải, chúng ta thấy chỉ có lấy căn bậc 2 (p=0,089) hoặc chuyển đổi qua log (p=0,239) là có phân phối chuẩn.
Tương tự dùng lệnh gladder để xem biểu đồ histogram sau chuyển đổi. Chỉ có biểu đồ chuyển qua log và lấy căn bậc hai (sqrt) là có phân phối chuẩn, tuy nhiên chuyển qua log thì số liệu sẽ có phân phối chuẩn tốt hơn. 

  
Cách chuyển đổi số liệu bằng hàm logarithm trong Excel
Dùng hàm log10 trong Excel (hoặc muốn chuyển đổi qua log neper thì dùng hàm LN

ID
BNP
LOG10_BNP
1
35,000
4.54
2
3,818
3.58
3
20,176
4.30
4
3,251
3.51
5
23,135
4.36
6
11,586
4.06
7
6,342
3.80
8
523
2.72
9
8,523
3.93
10
5,427
3.73
11
25,000
4.40
12
7,641
3.88
13
437
2.64
14
916
2.96
15
2,076
3.32
16
2,975
3.47
17
7,828
3.89
18
24,600
4.39
19
24,600
4.39
20
31,000
4.49
21
24,000
4.38
22
2,648
3.42
23
1,278
3.11
24
1,168
3.07
25
2,648
3.42
26
1,058
3.02
27
2,918
3.47
28
6,480
3.81
29
3,440
3.54
30
1,648
3.22

Cách chuyển đổi số liệu bằng hàm logarithm trong SPSS
Trong SPSS vào Computer variables trong Transform
Menu: Transform>Computer Variables


Đặt tên biến đích (Target Variable), ví dụ là log10_bnp
Chọn hàm Lg10 ( “chuyển qua log thập phân) nằm trong Arithmetic



Sau khi nhấn OK, sẽ có cột log_10 (bnp)

*Ghi chú: Trong trường hợp biến có trị bằng 0 (zero), trước khi chuyển đổi qua log ta cộng thêm 1 hoặc một số lớn hơn 1 (2,3,4…) cho tất cả các trị trong cột

 Tài liệu tham khảo:
    1.- Altman DGBland JM. .The normal distribution.BMJ1995; 310:298.
   2.- Bland JMAltman DG.  Transforming data. BMJ 1996;312:770.
                           
                      TS Nguyễn Ngọc Rạng, ĐHYD Cần Thơ, Email: nguyenngocrang@gmail.com




ỨNG DỤNG ĐƯỜNG CONG ROC TRONG NGHIÊU CỨU Y HỌC

Tải file PDF

PHÂN TÍCH SỐNG SÓT

Tải file PDF

PHÂN TÍCH PHƯƠNG SAI TÁI ĐO LƯỜNG

Tải file PDF

HIỆU ỨNG TƯƠNG TÁC

Tải file PDF

HIỆU CHỈNH CÁC YẾU TỐ NHIỄU

Tải file PDF

PHÂN TÍCH HỒI QUI LOGISTIC ĐA THỨC

 Tải file PDF 

Thứ Năm, 19 tháng 1, 2017

ƯỚC TÍNH CỠ MẪU TRONG NGHIÊN CỨU Y HỌC
                         
Ước  tính cỡ mẫu là một khâu rất quan trọng trong thiết kế nghiên cứu. Cỡ mẫu nhỏ sẽ không giúp phát hiện sự khác biệt, ngược lại cỡ mẫu lớn sẽ hao tốn tiền bạc và thời gian.
Tuy vậy nhiều người cảm thấy lúng túng khi phải tính cỡ mẫu cho một nghiên cứu bởi vì việc tính cỡ mẫu không phải chỉ đơn thuần là thế số vào một công thức đã định sẵn mà còn tùy thuộc vào kinh nghiệm và kiến thức của nhà nghiên cứu.
Việc ước tính cỡ mẫu tốt cần phải dựa vào các thông số của điều tra trong dân số hoặc dựa vào các công trình của các tác giả đã công bố trước đây và đôi khi nhà nghiên cứu phải làm các nghiên cứu dẫn đường (pilot) để ước tính các thông số này. Muốn ước tính cỡ mẫu phải dựa vào 4 yếu tố chính sau đây:
(1) Sai sót loại I (a): Cho rằng hai nhóm khác biệt nhưng thực sự chúng không khác hoặc kết luận dương tính giả. Thông thường mức sai sót α được chọn  là 0,05, nghĩa là nhà nghiên cứu mong muốn có ít hơn 5% cơ hội rút ra một kết luận dương
tính giả.
(2) Sai sót loại II (b) hoặc lực mẫu (power là 1-b): Cho rằng hai nhóm không khác biệt nhưng thực sự chúng có khác  biệt hoặc kết luận âm tính giả. Thông thường mức sai sót β được chọn là 0,2 (hoặc lực mẫu=0,8), nghĩa là nhà nghiên cứu mong muốn có 80% cơ hội tránh được một kết luận âm tính giả.
Trong ước tính cỡ mẫu thường mức sai sót a được chọn là 0,05 hoặc 0,01 và mức sai sót b được chọn là 0,20 hoặc 0,10. Từ hai thông số này ta có thể tính Z và Z (đơn vị độ lệch của phân phối chuẩn)  theo bảng 1.
Bảng 1. Trị số Z  theo  a hoặc b ( test 2 đuôi)
α (/β)
Z / Z
(test 2 đuôi)
0,01
2,58
0,05
1,96
0,10
1,28
0,20
1,04
                     
(1) Độ dao động trong dân số của biến kết cục. Nếu biến kết cục là một biến số liên tục (ví dụ trị số huyết áp tâm thu, chiều cao, cân nặng…) thì cần biết độ lệch chuẩn (s) của phân phối này. Muốn biết được độ lệch chuẩn này, trước hết phải dựa vào các số liệu điều tra trong dân số hoặc dựa vào các công trình nghiên cứu trước đây hoặc đôi khi phải tiến hành thử nghiệm dẫn đường (pilot) để ước tính.
(2) Mức độ khác biệt mà nhà nghiên cứu muốn phát hiện.
Nếu biến kết cục là biến số liên tục thì sự khác biệt này là một số đại số. Ví dụ: Khi nghiên cứu về hiệu quả điều trị của một loại thuốc mới điều trị tăng huyết áp (nhóm thực nghiệm), nhà nghiên cứu sẽ ước tính loại thuốc mới này làm giảm hơn được bao nhiêu mmHg (ví dụ giảm 10 hoặc 20mmHg) so với thuốc cũ (nhóm chứng). Mức độ giảm ước tính càng lớn, nghĩa là độ ảnh hưởng càng cao thì cỡ mẫu cần cho nghiên cứu càng nhỏ đi.
Nếu kết cục là biến phân loại thì sự khác biệt này là tỉ lệ %.  Ví dụ khi so sánh về hiệu quả của kháng sinh mới (nhóm thực nghiệm) trong điều trị nhiễm khuẩn do tụ cầu với biến kết cục (Khỏi/Không khỏi bệnh) thì nhà nghiên cứu phải ước tính loại thuốc mới này có hiệu quả hơn bao nhiêu % (chẳng hạn hiệu quả hơn 10 hoặc 20%) so với thuốc cũ (nhóm chứng).
Ngoài ra, còn tùy theo loại thiết kế nghiên cứu mà nhà nghiên cứu cần phải ước tính một số thông số khác như tỉ lệ hiện hành (prevalence) trong nghiên cứu cắt ngang, nguy cơ tương đối (relative risk: RR) trong nghiên cứu đoàn hệ, tỉ số odds trong nghiên cứu bệnh-chứng, hệ số tương quan r trong nghiên cứu về tương quan.
Sau đây tôi xin trình bày một số công thức tính cỡ mẫu thường hay sử dụng       trong các thiết kế nghiên cứu được làm tại bệnh viện hoặc trong cộng đồng.
1. Ước tính cỡ mẫu cho nghiên cứu chỉ có một nhóm đối tượng
1.1. Ước tính chỉ số trung bình
Thường được dùng để điều tra các chỉ số về hình thái học (chiều cao, cân nặng, vòng đầu…), các chỉ số tim mạch (tần số tim, huyết áp tâm thu, huyết áp tâm trương..), các chỉ số sinh hóa (urea, creatinin, cholesterol…) hoặc các chỉ số tế bào máu (hồng cầu, bạch cầu, tiểu cầu…) của một dân số.
Ví dụ 1. Theo kết quả điều tra trị số huyết áp tâm thu của người lớn bình thường ở Việt Nam là 114 ± 10mmHg. Như vậy cỡ mẫu là bao nhiêu với khoảng tin cậy 95%, với sai sót a=0,05 và sai sót b=0,2 (lực mẫu=0,8). Cỡ mẫu được tính theo công thức:

Với a= 0,05 thì Za= 1,96
Với b=0,20 thì Zb= 1,04
s : độ lệch chuẩn là 10 mmHg theo ví dụ trên
d : là sai số mong muốn (cùng đơn vị với s ), chẳng hạn là 1mmHg

                                      
Như vậy cỡ mẫu cần điều tra là 900 đối tượng.
Ví dụ 2. Tính cỡ mẫu để ước tính chiều cao đàn ông Việt Nam với sai số d trong vòng 1cm. Biết rằng độ lệch chuẩn trong các nghiên cứu trước đây là 4,6cm.
Thế vào công thức (1) ta có:


1.2. Ước tính một tỉ lệ
Thường được dùng để tính tỉ lệ hiện hành (prevalence) một bệnh nào đó trong cộng đồng (ví dụ: suy dinh dưỡng, tăng huyết áp, đái tháo đường…) 
Ví dụ 3. Kết quả điều tra tỉ lệ suy dinh dưỡng ở trẻ em dưới 5 tuồi tại một thành phố là 20 ± 2 %. Hỏi xem cỡ mẫu cần bao nhiêu để công bố tỉ lệ suy dinh dưỡng này.
2% chính là khoảng tin cậy 95% của tỉ lệ được quan sát hoặc còn gọi là sai số ɛ. Nếu muốn sai số này càng nhỏ thì cỡ mẫu càng lớn và ngược lại.
Ta có ɛ = 1,96 x SE  ; SE (standard error): sai số chuẩn


Số đối tượng cần điều tra là 1536
Như vậy đề ước tính cỡ mẫu trong điều tra tỉ lệ hiện hành của một bệnh cần phải biết 2 thông số: sai số ɛ mong muốn và tỉ lệ hiện hành p (prevalence) trong dân số. Tỉ lệ ước đoán p có thể tham khảo từ các công trình điều tra trước đây. Nếu không có được thì cho p = 0,50 khi đó cỡ mẫu sẽ có trị số lớn nhất.

2. Ước tính cỡ mẫu cho nghiên cứu có hai nhóm đối tượng
2.1. Cỡ mẫu trong nghiên cứu đối chứng ngẫu nhiên
Tùy theo kết cục của nghiên cứu là biến số hoặc biến nhị phân ta sẽ có công thức tính cỡ mẫu khác nhau.
2.1.1 Biến kết cục là biến nhị phân
Công thức tính cỡ mẫu:

                              
Ngoài xác định mức sai sót a (ví dụ 0,05) và b (ví dụ 0,10), nhà nghiên cứu phải ước tính mức sai biệt d của 2 nhóm thực nghiệm và nhóm chứng là bao nhiêu và độ lệch chuẩn s là bao nhiêu đơn vị? Ví dụ so sánh giữa 2 loại thuốc điều trị tăng huyết áp, loại thuốc mới B (nhóm thực nghiệm) làm giảm trị số huyết áp tâm thu hơn thuốc cũ A (nhóm chứng) là 10 mm Hg. Các điều tra trong dân số trước đây cho biết độ lệch chuẩn của phân phối trị số huyết áp tâm thu là 10 mmHg.
Như vậy: d = 10 mmHg và s =10 mmHg. Với a=0,05 thì Z2a=1,96; b=0,10 thì Z2b=1,28. Thế vào công thức (2) ta có:

          Cần 21 đối tượng cho mỗi nhóm

2.2. Cỡ mẫu trong nghiên cứu đoàn hệ (cohort study)
Trong nghiên cứu đoàn hệ, ngoài xác định mức sai sót a (ví dụ 0,05) và b (ví dụ 0,10), nhà nghiên cứu cần ước tính nhóm bị phơi nhiễm có nguy cơ mắc bệnh gấp bao nhiêu lần so với nhóm không phơi nhiễm, nói cách khác là nguy cơ tương đối (RR: relative risk) bằng bao nhiêu. Ví dụ một nghiên cứu đoàn hệ xác định mối liên hệ giữa mẹ uống thuốc ngừa thai và tật bẩm sinh tim ở thai nhi. Các nghiên cứu trước đây cho biết RR khoảng bằng 2. Như vậy nếu tỉ lệ mắc tim bẩm sinh nhóm không phơi nhiễm là p1 thì ở nhóm phơi nhiễm p2= p1RR
Ví dụ: nhóm chứng có tỉ lệ phát sinh (incidence) bệnh tim bẩm sinh là 8 phần ngàn (0,008), thì p2= 2 x 0,008=0,016     

 Với       p1=0,008 thì q1=1-p1=0,992
               p2=0,016 thì q2=0,984
               p=(p1+p2)/2=0,012 và q=1-p=0,988


Cần 3884 đối tượng cho  mỗi nhóm

2.3. Cỡ mẫu trong nghiên cứu bệnh-chứng (case control study)
Trong nghiên cứu bệnh-chứng, nhà nghiên cứu cần ước tính tỉ số nguy cơ (odds ratio:OR) ở nhóm bệnh so với nhóm chứng. Ngoài ra còn phải ước tính được tỉ lệ hiện hành của yếu tố phơi nhiễm trong dân số. Ví dụ: nguy cơ mắc tim bẩm sinh cao gấp 2 lần (OR = 2) ở nhóm mẹ có uống thuốc ngừa thai và tỉ lệ mẹ có uống thuốc ngừa thai trong dân số là 20% (0,20). Với mức chọn sai sót a = 0,05 và b = 0,10, tính cỡ mẫu cho nghiên cứu này? 
Nếu gọi p1 là tỉ lệ mẹ uống ngừa thai trong nhóm chứng (p1=0,20), với khả năng nguy cơ tăng gấp 2 (OR=2) ở nhóm bệnh thì tỉ lệ mẹ uống thuốc ngừa thai (p2) trong nhóm bệnh là bao nhiêu?
Ta biết: 











Cần 228 đối tượng cho mỗi nhóm.
2.4. Cỡ mẫu trong nghiên cứu sống sót (Survival study)
Công thức tính cho phân tích sng sót:

Trong nghiên cứu này, biến kết cục được tính theo thời gian sống sót trung bình nên nhà nghiên cứu phải ước tính được q  là tỉ số giữa thời gian sống sót trung bình giữa nhóm thực nghiệm (ví dụ mE là 3 năm) và nhóm chứng (ví dụ mC là 2 năm). Như vậy  
q = mE/mC = 3/2 = 1,5    
Với         a=0,05 thì Z2a=1,96
               b=0,20 thì Z2b=1,04
 Thế vào công thức (5) ta có:

Mỗi nhóm cần 110 đối tượng.
2.5. Cỡ mẫu cho nghiên cứu ước tính hệ số tương quan
Công thức tính cỡ mẫu khi so sánh hệ số tương quan giữa 2 nhóm:


 Trong đó C là hằng số liên quan đến sai sót ab.

Ta có thể tính C (a,b) theo sai sót ab theo bảng dưới đây:
a
β=0.10
(Lực mẫu 0.90)
β=0.20
(Lực mẫu 0.80)
0.01
16.74
13.33
0.05
10.51
7.85
Nếu chỉ có 1 nhóm khi đó r0 = 0, Công thức trên sẽ là:

Ví dụ: Một nghiên cứu về liên quan giữa lượng đường huyết (mg/dL) và tỉ lệ % HbA1C trong hồng cầu. Các nghiên cứu trước đây cho biết mối tương quan giữa 2 trị số này vào khoảng 60% (r = 0,60). Tính cỡ mẫu cần cho nghiên cứu này.
Với a = 0,05 và b = 0,20 thì C=7,85
r = 0,60. Ta tính được cỡ mẫu là:

 Cần 35 đối tượng.
3. Xác định cỡ mẫu cho 2 nhóm với đối tượng không bằng nhau
Các cách tính cỡ mẫu trình bày ở phần trên khi hai nhóm thực nghiệm và nhóm chứng có số đối tượng bằng nhau. Tuy nhiên đôi khi trong các nghiên cứu mà nhóm thực nghiệm là những bệnh hiếm gặp, để tăng lực mẫu (power), nên số đối tượng hai nhóm khác nhau (thường nhóm chứng có số đối tượng lớn hơn nhóm thực nghiệm). Nếu gọi m là số đối tượng nhóm thực nghiệm và rm là số đối tượng nhóm chứng với cỡ mẫu là n cho mỗi nhóm thì:



   



Ví dụ: Nếu cỡ mẫu cho 2 nhóm bằng nhau với n=120. Hỏi nếu muốn nhóm chứng có số đối tượng gấp 3 (r=3) nhóm thực nghiệm thì cỡ mẫu mỗi nhóm là bao nhiêu?

Ta có:   
m = (3+1)120 = 80 đối tượng
            2 x 3

Như vậy nhóm thực nghiệm có 80 đối tượng và nhóm chứng có 240 đối tượng
(rm = 3 x 80).

Tài liệu tham khảo
1.      Armitage P., Berry G., Mattews JNS. 2005. Sample size determination. In Statistical Methods in Medical Research. 4th Edition. Blackwell Science. pp. 137-146. 
2.      Schlesselman JJ. Sample size requirements in cohort and case-control studies of disease. Am J Epidemiol. 1974 Jun;99(6):381-4.
3.      Donner A. Approaches to sample size estimation in the design of clinical trials-a review. Stat Med. 1984 Jul-Sep;3(3):199-214.
4.      Dell RB, Holleran S, Ramakrishnan R. Sample size determination. ILAR J. 2002; 43(4):207-13.
5.      Sikaris K. The correlation of hemoglobin A1c to blood glucose. J Diabetes Sci Technol. 2009 May 1;3(3):429-38.

6.      Nguyễn Văn Tuấn. Phương pháp ước tính cỡ mẫu, Y học thực chứng. Nhà xuất bản Y học 2008. Trang 75-106.

                         TS Nguyễn Ngọc Rạng, ĐHYD Cần Thơ, Email: nguyenngocrang@gmail.com