Bài giảng Thống kê máy tính: Phân tích dữ liệu - Đặc trưng mẫu và ước lượng tham số quần thể - Lê Phong
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Thống kê máy tính: Phân tích dữ liệu - Đặc trưng mẫu và ước lượng tham số quần thể - Lê PhongPhân tích dữ liệu - Đặc trưng mẫu & ướclượng tham số quần thểDàn bài Giới thiệu Một số đặc trưng của tập mẫu ◦ Trung bình mẫu ◦ Phương sai mẫu ◦ Moment mẫu Một số phương pháp ước lượng tham số quần thể ◦ Maximum Likelihood ◦ Phương pháp momentsGiới thiệu Các công cụ trực quan giúp có được cái nhìn tổng thể để ước đoán mô hình phân bố hoặc quan sát sự phân tách các tập dữ liệu không áp dụng được cho quá trình tính toán Cần phải xác định các đặc trưng (số) của tập dữ liệu Cần phải ước lượng các đặc trưng đó sao cho ‘tốt nhất’Giới thiệu (tt) Về mặt thống kê, các đặc trưng cần quan tâm liên quan đến mô hình phân bố xác suất của quần thể ◦ Trung bình ◦ Phương sai ◦ Các moment ◦ Các tham số đầu vào của mô hình phân bố ◦ …Dàn bài Giới thiệu Một số đặc trưng của tập mẫu ◦ Trung bình mẫu ◦ Phương sai mẫu ◦ Moment mẫu Một số phương pháp ước lượng tham số quần thể ◦ Maximum Likelihood ◦ Phương pháp momentsMột số đặc trưng mẫu Cho tập mẫu {X1,…,Xn} Các Xi là biến ngẫu nhiên có cùng phân bố là phân bố của tập quần thể Giả sử các Xi độc lập xác suất từng đôi một p( X1 ,..., X n ) = p( X1 )... p( X n ) Định lý Monte Carlo 1 n ∑ n i =1 n →∞ f (xi ) → E[ f ( X)] = ∫ f (x) p (x)dxvới xi là thể hiện của XiTrung bình mẫu Trung bình mẫu được cho bởi 1 n X = ∑ Xi n i =1là một biến ngẫu nhiên có phân bố ‘gần’ chuẩn với E[ X] = E[ X] var[ X] var[ X] = n (theo định lý hội tụ trung tâm)Trung bình mẫu (tt) Từ định lý Monte Carlo 1 n x = ∑ xi n →∞ → E[ X] n i =1(chú ý: xi là thể hiện của Xi)Phương sai mẫu Phương sai mẫu được cho bởi 1 n S= ∑ n − 1 i =1 ( Xi − X)( Xi − X) Từ định lý Monte Carlo 1 n ∑ n − 1 i =1 ( x i − x )( x i − x ) n →∞ → cov( X)Moment mẫu Ở đây chỉ xét đến 1 chiều Moment mẫu bậc r được cho bởi 1 n r Mr = ∑ Xi n i =1 Từ định lý Monte Carlo 1 n r n→∞ ∑ n i =1 xi → E[ X r ]Dàn bài Giới thiệu Một số đặc trưng của tập mẫu ◦ Trung bình mẫu ◦ Phương sai mẫu ◦ Moment mẫu Một số phương pháp ước lượng tham số quần thể ◦ Maximum Likelihood ◦ Phương pháp momentsƯớc lượng tham số quần thể Các đặc trưng ở trên có tính chất mô tả tập mẫu. Để mô tả cả một quần thể, thông thường người ta đi tìm một mô hình nào đó cho quần thể. Mỗi mô hình như vậy cần có tham số cần phải ước lượng những tham số đó Vấn đề: tìm ước lượng tham số ‘tốt nhất’ từ tập mẫu hữu hạnƯớc lượng tham số (tt) Một ước lượng là một hàm từ không gian dữ liệu vào không gian tham số T = t(X1,…,Xn) chú ý rằng T là một biến ngẫu nhiên. Để đánh giá một ước lượng có tốt hay không, thông thường có 3 vấn đề cần quan tâm ◦ Lệch (bias) ◦ Trung bình bình phương mẫu (mean squared error) ◦ Standard errorBias Gọi θ là giá trị đúng của tham số cần ước lượng Bias được định nghĩa bởi Bias(T) = E[T] - θ Nếu Bias(T) = 0 thì ta nói đó là ước lượng không lệch (unbias)Standard error Standard error của một ước lượng được cho bởi SE(T) = sqrt(var(T))Mean squared error Mean squared error được định nghĩa bởi MSE(T) = E[ (T - θ)2 ] MSE(T) càng nhỏ càng cho thấy ước lượng T càng hiệu quả, điều đó có nghĩa là nếu MSE(T1) < MSE(T2) thì ước lượng T1 hiệu quả hơn T2 Cực tiểu hóa MSE là một tiêu chí phổ biếnMSE (tt) Một điều lưu ý MSE(T) = SE(T)2 + Bias(T)2 Nếu ước lượng là không lệch thì cực tiểu hóa MSE tương đương với cực tiểu hóa SEMaximum Likelihood Estimator(MLE) Giả sử θ = [θ1,…, θm] là vector tham số cần ước lượng Ý tưởng của MLE là sẽ tìm θˆ MLE = arg max p (x1 ,..., x n | θ) θ Hướng giải tổng quát là đi tìm nghiệm dp (x1 ,..., x n | θ) =0 dθ MLE (tt) Ví dụ: ◦ X ~ N(µ,σ2) với µ chưa biết, σ đã biết ◦ Tập mẫu (X1,…,Xn) thỏa các Xi đôi một độc lập xác su ...
Tìm kiếm tài liệu theo từ khóa liên quan:
Thống kê máy tính Bài giảng Thống kê máy tính Phân tích dữ liệu Đặc trưng mẫu Trung bình mẫu Moment mẫuTài liệu liên quan:
-
Lợi ích và thách thức ứng dụng phân tích dữ liệu và dữ liệu lớn trong kiểm toán báo cáo tài chính
8 trang 129 0 0 -
Mô hình Dea Metafrontier và việc so sánh hiệu quả theo vùng của các trường đại học của Việt Nam
6 trang 99 0 0 -
Phát triển Java 2.0: Phân tích dữ liệu lớn bằng MapReduce của Hadoop
12 trang 73 0 0 -
Phân tích dữ liệu bằng SPSS - Phần 2
15 trang 63 0 0 -
Tìm hiểu các công cụ phân tích dữ liệu
10 trang 50 0 0 -
PHÂN TÍCH DỮ LiỆU VỚI PHẦN MỀM EVIEWS
61 trang 47 0 0 -
125 trang 45 0 0
-
Bài giảng Khai phá web - Bài 1: Tổng quan về khai phá web
44 trang 42 0 0 -
Trình bày dữ liệu đồ thị trong trực quan hóa dữ liệu
13 trang 40 0 0 -
27 trang 39 0 0
-
Trực quan hóa dữ liệu: Vai trò & thử thách
10 trang 37 0 0 -
Bài giảng Cơ sở hệ thống thông tin: Chương 0 - PGS. TS. Hà Quang Thụy
31 trang 37 0 0 -
Công nghệ cốt lõi trong kỷ nguyên số - Big data: Phần 2
153 trang 33 0 0 -
Bài giảng chương 6 - Đa cộng tuyến
13 trang 31 0 0 -
Lập trình R trong phân tích dữ liệu
13 trang 31 0 0 -
Bài giảng Tin học ứng dụng phân tích dữ liệu nghiên cứu với SPSS - Bài 6: Phân tích dữ liệu
91 trang 31 0 0 -
Bài giảng SPSS: Xử lý và phân tích dữ liệu - TS. Nguyễn Duy Thục
90 trang 31 0 0 -
Bài giảng Tin học ứng dụng trong kinh doanh - Chương 4: Bảng tổng hợp đa chiều
15 trang 30 0 0 -
Bài giảng Thống kê máy tính và ứng dụng: Bài 3 - Vũ Quốc Hoàng
24 trang 29 0 0 -
Một số ứng dụng máy học trong lĩnh vực ngân hàng
10 trang 28 0 0