Thông tin tài liệu:
Bài giảng với các nội dung: dữ liệu thực tế; phân tích mô tả và so sánh dữ liệu y tế; mô tả biến liên tục; mô tả biến theo nhóm; mô tả bằng biểu đồ; biểu đổ phổ biến; phân bố whr theo nhóm diabetes; tương quan giữa whr và bmi; tương quan đa biến; hàm R cho phân tích mô tả...
Nội dung trích xuất từ tài liệu:
Bài giảng Phân tích mô tả: T-test, Ki bình phương Tuan V. Nguyen Garvan Institute of Medical ResearchProfessor, UNSW School of Public Health and Community MedicineProfessor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen Dữ liệu thực tếNghiên cứu tiểu đường (n = 3165 nam và nữ)> db = read.csv(~/Dropbox/_Conferences and Workshops/Dai hoc Duoc 6-2019/Datasets/Diabetes data.csv)> head(db) id age gender height weight waist hip sysbp diabp active hypertension1 1 76 Female 163 53 90 93 160 90 0 12 1 40 Female 149 51 74 94 100 60 0 03 1 51 Female 151 55 91 100 120 80 0 04 1 43 Female 158 62 78 96 120 80 1 05 2 72 Female 148 47 91 95 130 60 1 06 2 44 Male 155 48 69 86 120 80 0 0 bmi whr diabetes1 19.95 0.97 IFG2 22.97 0.79 Normal3 24.12 0.91 Normal4 24.84 0.81 Normal5 21.46 0.96 IFG6 19.98 0.80 Normal> sim(db) Phân tích mô tả và so sánh• Mô tả biến liên tục (continuous variables)• Mô tả biến phân nhóm (categorical variables)• So sánh hai nhóm: biến liên tục• So sánh hai nhóm: biến phân nhóm Mô tả biến liên tục• Biểu đồ phân bố, biểu đồ hộp• Phân bố chuẩn: trung bình, độ lệch chuẩn• Phân bố lệch so với phân bố chuẩn: trung vị, bách phân vị 25%, 75% Mô tả biến phân nhóm• Biểu đồ bar• Tỉ lệ, độ lệch chuẩn, khoảng tin cậy 95%• Phân bố lệch so với phân bố chuẩn: trung vị, bách phân vị 25%, 75%Mô tả bằng biểu đồ Biểu đồ phổ biến• Biểu đồ phân bố (hist)• Biểu đồ hộp (boxplot)• Biểu đồ tương quan (plot)• Biểu đồ tương quan đa biến (pairs.panels; package psych) Phân bố whr (tỉ số eo – mông)hist(db$whr, breaks=20, col=blue, border=white) Histogram of db$whr 800 600 Frequency 400 200 0 0.6 0.8 1.0 1.2 1.4 db$whr Phân bố whr theo nhóm diabetesboxplot(db$whr ~ db$diabetes, col=blue, border=red) 1.2 1.0 0.8 0.6 IFG Normal YesPhân bố whr theo nhóm diabetes (sắp xếp lại) db$diabetes = factor(db$diabetes, levels=c(Normal, IFG, Yes)) boxplot(db$whr ~ db$diabetes, col=blue, border=red) 1.2 1.0 0.8 0.6 Normal IFG Yes Tương quan giữa whr và bmiplot(db$whr ~ db$bmi, pch=16, col=blue)abline(lm(db$whr ~ db$bmi), col=red) 1.2 db$whr 1.0 0.8 0.6 15 20 25 30 35 40 45 db$bmi Tương quan đa biếnlibrary(psych)# Chọn biến số từ dbvars = db[,c(age, weight, bmi, waist, hip, whr)]pairs.panels(vars) 40 60 80 60 80 100 120 0.6 0.8 1.0 1.2 age 90 -0.13 -0.05 0.19 -0.03 0.32 60 30 weight 0.84 0.74 0.74 0.38 80 40 45 bmi 0.71 0.72 0.37 30 15 120 waist 0.74 0.76 ...