Bài giảng Thống kê máy tính: Phân tích dữ liệu bằng công cụ trực quan - Lê Phong
Số trang: 27
Loại file: pdf
Dung lượng: 1.33 MB
Lượt xem: 9
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong bài giảng Thống kê máy tính này giới thiệu về phương pháp phân tích dữ liệu bằng công cụ trực quan trong một số trường hợp sau: Trường hợp dữ liệu một chiều, trường hợp dữ liệu 2 hoặc 3 chiều, trường hợp dữ liệu có > 3 chiều. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Thống kê máy tính: Phân tích dữ liệu bằng công cụ trực quan - Lê PhongPhân tích dữ liệu bằng công cụ trực quan 1Dàn bài Giới thiệu Trường hợp dữ liệu một chiều Trường hợp dữ liệu 2 hoặc 3 chiều Trường hợp dữ liệu có > 3 chiều 2Giới thiệu 2 mục tiêu quan trọng của phân tích dữ liệu ◦ Xác định mô hình hợp lý của quá trình phát sinh dữ liệu ◦ Xác định dữ liệu nhiễu (outlier) trong tập mẫu Trong phần này xem xét kỹ thuật sử dụng các công cụ trực quan 3Dàn bài Giới thiệu Trường hợp dữ liệu một chiều Trường hợp dữ liệu 2 hoặc 3 chiều Trường hợp dữ liệu có > 3 chiều 4Trường hợp dữ liệu một chiều Các phương pháp ◦ Histogram ◦ Quantile plot ◦ Box plot 5Histogram Chia trục x thành các ‘bin’ có độ rộng h như nhau bắt đầu từ x0[x0,x0+h), [x0+h,x0+2h),…, [x0+n.h,x0+(n+1)h),… Gọi vk là số điểm rơi vào bin thứ k, tức là [x0+(k-1)h,x0+k.h) Gọi n là số lượng điểm trong tập dữ liệu 6Histogram (tt) Frequency histogram: fˆ ( x) = vk , x ∈ [x0 + (k − 1)h, x0 + k .h) Relative frequency histogram: ˆf ( x) = vk , x ∈ [x + (k − 1)h, x + k .h) 0 0 n Density histogram ˆf ( x) = vk , x ∈ [x + (k − 1)h, x + k .h) 0 0 n.h 7Histogram (tt) Ví dụ: histogramExample.m 8Quantile plot Quantile qp của biến ngẫu nhiên x được xác định sao cho p = P{x < qp} Ví dụ: cho x ~ U(a,b) ◦ q0 = a ◦ q0.5 = (a+b)/2 ◦ q1 = b 9Quantile plot (tt) 10Quantile plot (tt) Tập dữ liệu được sắp xếp tăng dần x1 ≤ x2 ≤ … ≤ xn Hàm phân phối thực nghiệm (empirical distribution function) được cho bởi 0 x < x1 j ˆ Pn ( x) = x j ≤ x < x j +1 n 1 x ≥ xn 11Quantile plot (tt) Mục tiêu: kiểm định xem tập dữ liệu có phân phối P hay không. Giả sử tập dữ liệu được sắp x1 ≤ x2 ≤ … ≤ xn B1: sinh chuỗi n số 1 − 0.5 −1 −1 i − 0.5 −1 n − 0.5 P ,..., P ,..., P n n n B2: biểu diễn trên đồ thị, trục x là các xi, trục y là các giá trị số sinh được ở B1. B3: nếu thấy gần tuyến tính tập dữ liệu có phân phối P 12Quantile plot (tt) Ví dụ: xem quantilePlotExample.m 13Box plot Trong phương pháp này, 5 tham số được quan tâm ◦ 3 quantile q0.25, q0.5, q0.75, ◦ Giá trị min và max trong tập mẫu Đặt IQR (interquartile range) là IQR = q0.75 - q0.25 2 giới hạn ◦ Low: LL = q0.25 – 1.5 IQR ◦ Up: UL = q0.75 + 1.5 IQR 14Box plot (tt) Mọi điểm dữ liệu nằm ngoài [LL,UL] đều bị coi là outlier 15Box plot (tt) Ví dụ: boxPlotExample.mDàn bài Giới thiệu Trường hợp dữ liệu một chiều Trường hợp dữ liệu 2 hoặc 3 chiều Trường hợp dữ liệu có > 3 chiều 17Trường hợp dữ liệu 2 hoặc 3chiều Các phương pháp ◦ Scatter ◦ Bivariate Histogram 18Scatter Trên hệ trục Cartesian vẽ các điểm tương ứng với từng điểm dữ liệu Đây là phương pháp đơn giản nhất cho việc quan sát phân bố tập dữ liệu Ví dụ: ◦ scatter2D.m ◦ scatter3D.m 19Bivariate Histogram 2 trục x(1) và x(2) Chia trục x(i) thành các ‘bin’ có độ rộng h(i) như nhau bắt đầu từ x(i)0[x(i)0, x(i)0 +h(i)), [x(i)0 +h(i), x(i)0 +2h(i)),…, [x(i)0 +n. h(i), x(i)0 +(n+1) h(i)),… Gọi vl,k là số điểm rơi vào bin thứ l theo trục x(1) và thứ k theo trục x(2), tức là[x(1)0 +(l-1) h(1), x(1)0 +l. h(1)) x [x(2)0 +(k-1) h(2), x(2)0 +k. h(2)) 20 ...
Nội dung trích xuất từ tài liệu:
Bài giảng Thống kê máy tính: Phân tích dữ liệu bằng công cụ trực quan - Lê PhongPhân tích dữ liệu bằng công cụ trực quan 1Dàn bài Giới thiệu Trường hợp dữ liệu một chiều Trường hợp dữ liệu 2 hoặc 3 chiều Trường hợp dữ liệu có > 3 chiều 2Giới thiệu 2 mục tiêu quan trọng của phân tích dữ liệu ◦ Xác định mô hình hợp lý của quá trình phát sinh dữ liệu ◦ Xác định dữ liệu nhiễu (outlier) trong tập mẫu Trong phần này xem xét kỹ thuật sử dụng các công cụ trực quan 3Dàn bài Giới thiệu Trường hợp dữ liệu một chiều Trường hợp dữ liệu 2 hoặc 3 chiều Trường hợp dữ liệu có > 3 chiều 4Trường hợp dữ liệu một chiều Các phương pháp ◦ Histogram ◦ Quantile plot ◦ Box plot 5Histogram Chia trục x thành các ‘bin’ có độ rộng h như nhau bắt đầu từ x0[x0,x0+h), [x0+h,x0+2h),…, [x0+n.h,x0+(n+1)h),… Gọi vk là số điểm rơi vào bin thứ k, tức là [x0+(k-1)h,x0+k.h) Gọi n là số lượng điểm trong tập dữ liệu 6Histogram (tt) Frequency histogram: fˆ ( x) = vk , x ∈ [x0 + (k − 1)h, x0 + k .h) Relative frequency histogram: ˆf ( x) = vk , x ∈ [x + (k − 1)h, x + k .h) 0 0 n Density histogram ˆf ( x) = vk , x ∈ [x + (k − 1)h, x + k .h) 0 0 n.h 7Histogram (tt) Ví dụ: histogramExample.m 8Quantile plot Quantile qp của biến ngẫu nhiên x được xác định sao cho p = P{x < qp} Ví dụ: cho x ~ U(a,b) ◦ q0 = a ◦ q0.5 = (a+b)/2 ◦ q1 = b 9Quantile plot (tt) 10Quantile plot (tt) Tập dữ liệu được sắp xếp tăng dần x1 ≤ x2 ≤ … ≤ xn Hàm phân phối thực nghiệm (empirical distribution function) được cho bởi 0 x < x1 j ˆ Pn ( x) = x j ≤ x < x j +1 n 1 x ≥ xn 11Quantile plot (tt) Mục tiêu: kiểm định xem tập dữ liệu có phân phối P hay không. Giả sử tập dữ liệu được sắp x1 ≤ x2 ≤ … ≤ xn B1: sinh chuỗi n số 1 − 0.5 −1 −1 i − 0.5 −1 n − 0.5 P ,..., P ,..., P n n n B2: biểu diễn trên đồ thị, trục x là các xi, trục y là các giá trị số sinh được ở B1. B3: nếu thấy gần tuyến tính tập dữ liệu có phân phối P 12Quantile plot (tt) Ví dụ: xem quantilePlotExample.m 13Box plot Trong phương pháp này, 5 tham số được quan tâm ◦ 3 quantile q0.25, q0.5, q0.75, ◦ Giá trị min và max trong tập mẫu Đặt IQR (interquartile range) là IQR = q0.75 - q0.25 2 giới hạn ◦ Low: LL = q0.25 – 1.5 IQR ◦ Up: UL = q0.75 + 1.5 IQR 14Box plot (tt) Mọi điểm dữ liệu nằm ngoài [LL,UL] đều bị coi là outlier 15Box plot (tt) Ví dụ: boxPlotExample.mDàn bài Giới thiệu Trường hợp dữ liệu một chiều Trường hợp dữ liệu 2 hoặc 3 chiều Trường hợp dữ liệu có > 3 chiều 17Trường hợp dữ liệu 2 hoặc 3chiều Các phương pháp ◦ Scatter ◦ Bivariate Histogram 18Scatter Trên hệ trục Cartesian vẽ các điểm tương ứng với từng điểm dữ liệu Đây là phương pháp đơn giản nhất cho việc quan sát phân bố tập dữ liệu Ví dụ: ◦ scatter2D.m ◦ scatter3D.m 19Bivariate Histogram 2 trục x(1) và x(2) Chia trục x(i) thành các ‘bin’ có độ rộng h(i) như nhau bắt đầu từ x(i)0[x(i)0, x(i)0 +h(i)), [x(i)0 +h(i), x(i)0 +2h(i)),…, [x(i)0 +n. h(i), x(i)0 +(n+1) h(i)),… Gọi vl,k là số điểm rơi vào bin thứ l theo trục x(1) và thứ k theo trục x(2), tức là[x(1)0 +(l-1) h(1), x(1)0 +l. h(1)) x [x(2)0 +(k-1) h(2), x(2)0 +k. h(2)) 20 ...
Tìm kiếm theo từ khóa liên quan:
Thống kê máy tính Bài giảng Thống kê máy tính Phân tích dữ liệu Công cụ trực quan Dữ liệu một chiều Dữ liệu hai chiềuGợi ý tài liệu liên quan:
-
Lợi ích và thách thức ứng dụng phân tích dữ liệu và dữ liệu lớn trong kiểm toán báo cáo tài chính
8 trang 127 0 0 -
Mô hình Dea Metafrontier và việc so sánh hiệu quả theo vùng của các trường đại học của Việt Nam
6 trang 82 0 0 -
Phát triển Java 2.0: Phân tích dữ liệu lớn bằng MapReduce của Hadoop
12 trang 70 0 0 -
Phân tích dữ liệu bằng SPSS - Phần 2
15 trang 59 0 0 -
Tìm hiểu các công cụ phân tích dữ liệu
10 trang 41 0 0 -
27 trang 38 0 0
-
Trực quan hóa dữ liệu: Vai trò & thử thách
10 trang 35 0 0 -
Trình bày dữ liệu đồ thị trong trực quan hóa dữ liệu
13 trang 35 0 0 -
125 trang 34 0 0
-
Bài giảng Cơ sở hệ thống thông tin: Chương 0 - PGS. TS. Hà Quang Thụy
31 trang 34 0 0