CHUYỂN DẠNG SỐ LIỆU
Các kiểm
định thống kê như phép kiểm T, phân tích phương sai, phân tích hồi qui tuyến
tính… đều đòi hỏi những giả định chặt chẽ về phân phối chuẩn hoặc độ lệch chuẩn,
phương sai các mẫu so sánh phải đồng nhất (gần bằng nhau).
Trong những
trường hợp dữ liệu thô của nghiên cứu không có phân phối chuẩn, chúng ta thường chuyển dạng dữ
liệu bằng cách lấy logarithm, căn bậc hai, nghịch đảo hoặc một hàm khác.
Ví dụ: Đây
là dữ liệu thô nồng độ BNP (Brain Natriuretic Peptide) của 30 bệnh nhân bị suy
tim (cột 2) và dữ liệu sau khi đã chuyển đổi bằng hàm logarithm thập phân (cột
3)
ID
|
BNP
|
log10_BNP
|
1
|
35,000
|
4.54
|
2
|
3,818
|
3.58
|
3
|
20,176
|
4.30
|
4
|
3,251
|
3.51
|
5
|
23,135
|
4.36
|
6
|
11,586
|
4.06
|
7
|
6,342
|
3.80
|
8
|
523
|
2.72
|
9
|
8,523
|
3.93
|
10
|
5,427
|
3.73
|
11
|
25,000
|
4.40
|
12
|
7,641
|
3.88
|
13
|
437
|
2.64
|
14
|
916
|
2.96
|
15
|
2,076
|
3.32
|
16
|
2,975
|
3.47
|
17
|
7,828
|
3.89
|
18
|
24,600
|
4.39
|
19
|
24,600
|
4.39
|
20
|
31,000
|
4.49
|
21
|
24,000
|
4.38
|
22
|
2,648
|
3.42
|
23
|
1,278
|
3.11
|
24
|
1,168
|
3.07
|
25
|
2,648
|
3.42
|
26
|
1,058
|
3.02
|
27
|
2,918
|
3.47
|
28
|
6,480
|
3.81
|
29
|
3,440
|
3.54
|
Ta có thể kiểm đinh về phân phối chuẩn
của dữ liệu thô BNP và dữ liệu log10_BNP bằng phép kiểm Shapiro-Wild trong SPSS
hoặc trong các phần mềm thống kê khác như Stata, R.
Để kiểm định một biến số có phân phối
phối chuẩn trong SPSS, ta vào: Analyze>Descriptive
Statistics > Explore
Sau khi nhấn explore, chuyển các biến
BNP và log10_BNP vào ô Dependent List, nhấn vào hộp Plots, đánh dấu nháy vào ô
Normality plots with tests.
Kết quả: Ta chỉ xem phần kiểm đinh
phân phối chuẩn Shapiro-Wilk, nếu p<0,05 thì số liệu sẽ không có phân phối
chuẩn
Xem bảng
kết quả, ta thấy biến BNP không có phân phối chuẩn, sau khi dùng hàm logarithm
để chuyển, biến log10_BNP có phấn phối chuẩn (p=0,186).
Nếu chuyển
đổi qua logarithm, số liệu vẫn không có phân phối chuẩn thì cố gắng chuyển đổi
số liệu bằng nhiều hàm khác nhau như rút căn, nghịch đảo, lũy thừa 2 hoặc
3….
Trong phần
mềm thống kê Stata có 2 lệnh rất hay (ladder và gladder), không có trong SPSS,
để xem nên dùng hàm nào để chuyển đổi số liệu thô thành số liệu có phân phối
chuẩn tốt nhất.
Đây là dữ
liệu BNP được mở trong Stata
Trong
Stata, muốn kiểm định phân phối chuẩn cũng dùng phép kiểm Shapiro-Wilk, lệnh được
viết tắt là swilk. Kết quả kiểm định với p=0,00004, như vậy số liệu bnp không
có phân phối chuẩn
Bây giờ,
thử dùng lệnh ladder trong Stata để xem dùng hàm chuyển đổi nào để cho bnp có
phân phối chuẩn tốt nhất
Xem cột p ở bên phải, chúng ta thấy chỉ có lấy căn bậc 2 (p=0,089) hoặc chuyển đổi qua log (p=0,239) là có phân phối chuẩn.
Tương tự
dùng lệnh gladder để xem biểu đồ histogram sau chuyển đổi. Chỉ có biểu đồ chuyển
qua log và lấy căn bậc hai (sqrt) là có phân phối chuẩn, tuy nhiên chuyển qua
log thì số liệu sẽ có phân phối chuẩn tốt hơn.
Cách chuyển đổi số liệu bằng hàm logarithm trong Excel
Dùng hàm log10 trong Excel (hoặc muốn
chuyển đổi qua log neper thì dùng hàm LN
ID
|
BNP
|
LOG10_BNP
|
1
|
35,000
|
4.54
|
2
|
3,818
|
3.58
|
3
|
20,176
|
4.30
|
4
|
3,251
|
3.51
|
5
|
23,135
|
4.36
|
6
|
11,586
|
4.06
|
7
|
6,342
|
3.80
|
8
|
523
|
2.72
|
9
|
8,523
|
3.93
|
10
|
5,427
|
3.73
|
11
|
25,000
|
4.40
|
12
|
7,641
|
3.88
|
13
|
437
|
2.64
|
14
|
916
|
2.96
|
15
|
2,076
|
3.32
|
16
|
2,975
|
3.47
|
17
|
7,828
|
3.89
|
18
|
24,600
|
4.39
|
19
|
24,600
|
4.39
|
20
|
31,000
|
4.49
|
21
|
24,000
|
4.38
|
22
|
2,648
|
3.42
|
23
|
1,278
|
3.11
|
24
|
1,168
|
3.07
|
25
|
2,648
|
3.42
|
26
|
1,058
|
3.02
|
27
|
2,918
|
3.47
|
28
|
6,480
|
3.81
|
29
|
3,440
|
3.54
|
30
|
1,648
|
3.22
|
Cách chuyển đổi số liệu bằng hàm logarithm trong SPSS
Trong SPSS vào Computer variables trong Transform
Menu: Transform>Computer
Variables
Đặt tên biến đích (Target Variable), ví dụ là log10_bnp
Chọn hàm Lg10 ( “chuyển qua log thập phân) nằm trong Arithmetic
Sau khi nhấn OK, sẽ có cột log_10 (bnp)
*Ghi chú: Trong trường hợp biến có trị bằng 0 (zero), trước
khi chuyển đổi qua log ta cộng thêm 1 hoặc một số lớn hơn 1 (2,3,4…) cho tất cả
các trị trong cột
Tài liệu tham khảo:
1.- Altman DG, Bland JM. .The normal distribution.BMJ1995; 310:298.
2.- Bland JM, Altman DG. Transforming
data. BMJ 1996;312:770.
TS Nguyễn Ngọc Rạng, ĐHYD Cần Thơ,
Email: nguyenngocrang@gmail.com