Thông tin tài liệu:
Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.
Nội dung trích xuất từ tài liệu:
Các phương pháp thống kê mới sẽ cho phép các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn
Các phương pháp thống kê mới sẽ
cho phép các nhà nghiên cứu xử lý dữ liệu
một cách tốt hơn, chính xác hơn
Rand Wilcox, Giáo sư Thống kê, Đại học Nam California, Mỹ
Tóm tắt:
Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được
tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả
năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới
giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.
Ở bất kỳ lĩnh vực nào, nếu một nhà này tạo cơ hội để hiểu biết chính xác hơn và
nghiên cứu đang thu thập dữ liệu dưới bất kỳ mang sắc thái hơn về dữ liệu. Vấn đề là hiện
hình thức nào, tại một thời điểm nào đó sẽ những kỹ thuật tốt hơn này được áp dụng
phải phân tích nó. Và chắc chắn là người đó rộng rãi trong phạm vi cộng đồng khoa học
sẽ chuyển sang số liệu thống kê để biết dữ với một tiến độ rất chậm.
liệu đó nói lên điều gì.
Khi các phƣơng pháp cổ điển
Một loạt các lĩnh vực - chẳng hạn như không hiệu quả
khoa học xã hội, tiếp thị, sản xuất, ngành Ví dụ, hãy tưởng tượng rằng các nhà
dược phẩm và vật lý - cố gắng để làm sao nghiên cứu thu thập một nhóm 40 người có
suy luận được tổng thể dựa trên một mẫu cholesterol cao. Một nửa uống thuốc A, một
tương đối nhỏ. Tuy nhiên, nhiều nhà nghiên nửa khác uống một giả dược. Các nhà nghiên
cứu đang sử dụng các kỹ thuật thống kê cũ
có khả năng làm cho kết quả sai lệch. Và đó là
một vấn đề nếu như chúng ta hiểu sai về một
loại thuốc mới có tiềm năng hay một số tác
động của việc cung cấp nước cho thành phố.
Là một nhà thống kê đã theo đuổi
những tiến bộ trong lĩnh vực này, tôi biết có
rất nhiều phương pháp được cải tiến để so
sánh các nhóm cá thể hoặc sự vật, cũng như
Điều gì sẽ xảy ra nếu những con chuột này
hiểu biết về sự liên kết giữa hai hay nhiều không thực sự đại diện cho tất cả những con chuột
biến. Những phương pháp mạnh mẽ hiện đại khác ngoài chúng
25
cứu phát hiện ra rằng những người trong trong số hàng triệu người dùng thuốc. Các kỹ
nhóm uống thuốc A có mức giảm cholesterol thuật cổ điển cho rằng số lượng thay đổi
trung bình lớn hơn. Tuy nhiên, kết quả của trong số những người nhận thuốc tiềm năng
20 người chưa phản ánh hết những gì sẽ xảy là chính xác như số lượng thay đổi trong
ra nếu hàng ngàn người uống thuốc A?. nhóm giả dược.
Hoặc trên một quy mô vũ trụ, hãy xem Hình 1: Các đường cong dựa trên phương
xét nhà thiên văn học Edwin Hubble, người trình mô tả các bộ dữ liệu đối xứng khác nhau
đã đo được 24 thiên hà từ trái đất và tốc độ
chúng di chuyển so với trái đất như thế nào.
Dữ liệu từ nhóm nhỏ này cho phép ông vẽ ra
một phương trình dự đoán vận tốc hồi quy
được gọi là tốc độ suy thoái cho khoảng cách
của nó. Nhưng kết quả của Hubble có phản
ánh được mối liên hệ giữa hàng triệu thiên
hà trong vũ trụ nếu chúng được đo lường?
Trong những tình huống này và nhiều
tình huống khác, các nhà nghiên cứu sử
dụng các mẫu nhỏ đơn giản do chi phí hạn
hẹp và khó khăn khi thu thập dữ liệu. Các
phương pháp cổ điển, thường được giảng Một giả định tương tự cũng được thực
dạy và sử dụng, cố gắng giải quyết những hiện khi nghiên cứu các mối liên hệ. Ví dụ,
vấn đề này bằng cách đưa ra hai giả thuyết hãy xem xét một nghiên cứu kiểm tra mối
chính. liên hệ giữa độ tuổi và mức độ trầm cảm.
Trong số hàng triệu người ở độ tuổi 20, sẽ có
Thứ nhất, các nhà khoa học cho rằng
sự khác biệt về tỷ lệ trầm cảm. Điều này
có một phương trình cụ thể cho từng tình
cũng đúng ở tuổi 30, 80 hoặc ở bất kỳ độ
huống riêng lẻ sẽ mô hình chính xác các xác
tuổi nào. Các phương pháp cổ điển cho rằng
suất liên quan đến các kết quả có thể xảy ra.
số lượng thay đổi là giống nhau đối với bất
Phương trình phổ biến nhất được sử dụng
kỳ hai lứa tuổi mà chúng ta có thể chọn.
tương ứng với cái gọi là phân phối chuẩn.
Các biểu đồ kết quả của dữ liệu có hình Tất cả những giả định này cho phép
chuông và đối xứng xung quanh một số giá các nhà nghiên cứu sử dụng các phương
trị trung tâm. pháp lý thuyết và tính toán thuận tiện. Thật
...