Danh mục

Bài giảng Học máy: Bài 6 - Nguyễn Hoàng Long

Số trang: 0      Loại file: pdf      Dung lượng: 766.28 KB      Lượt xem: 21      Lượt tải: 0    
Jamona

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí Tải xuống file đầy đủ (0 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Học máy - Bài 6: Các phương pháp học máy kết hợp" cung cấp cho người học các kiến thức: Bootstrap là gì, các phương pháp kết hợp enemble methods, phương páp kết hợp boosting, độ sâu của từng cây,... Mời các bạn cùng thâm khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Học máy: Bài 6 - Nguyễn Hoàng Long Các phương pháp học máy kết hợp Boosting, Bagging, và Random Forests Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sựcho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1Bootstrap là gì?• Giả sử ta có 5 quả bóng gắn nhãn A,B,C,D, E và bỏ tất cả chúng vào trong 1 cái giỏ.• Lấy ra ngẫu nhiên 1 quả từ giỏ và ghi lại nhãn, sau đó bỏ lại quả bóng vừa bốc được vào giỏ.• Tiếp tục lấy ra ngẫu nhiên một quả bóng và lặp lại quá trình trên cho đến khi việc lấy mẫu kết thúc. Việc lấy mẫu này gọi là lấy mẫu có hoàn lại.• Kết quả của việc lấy mẫu như trên có thể như sau (giả sử kích thước mẫu là 10): C, D, E, E, A, B, C, B, A, E Nguồn: bis.net.vn/forums CSE 445: Học máy | Học kỳ 1, 2016-2017 2 Bootstrap là gì?• Bootstrap là phương pháp lấy mẫu có hoàn lại (sampling with replacement)-> một mẫu có thể xuất hiện nhiều lần trong một lần lấy mẫu CSE 445: Học máy | Học kỳ 1, 2016-2017 3 Bootstrap là gì?• Là kỹ thuật rất quan trọng trong thống kê• Lấy mẫu có hoàn lại từ tập dữ liệu ban đầu để tạo ra các tập dữ liệu mới CSE 445: Học máy | Học kỳ 1, 2016-2017 4Các phương pháp kết hợp Ensemble Methods CSE 445: Học máy | Học kỳ 1, 2016-2017 5Sức mạnh của các bộ phân lớp yếuCondorcet’s Jury Theorem – Nếu p lớnhơn 1/2 (mỗi cử tri bỏ phiếu đúng mong muốn của họ), càngthêm nhiều cử tri sẽ tăng xác suất theo quyết định số đông sẽchính xác. Trong giới hạn, xác suất bầu chọn theo số đông tiếnđến 1 khi số cử tri tăng lên. CSE 445: Học máy | Học kỳ 1, 2016-2017 6Sức mạnh của các bộ phân lớp yếuCondorcet’s Jury Theorem – Nếu p lớnhơn 1/2 (mỗi cử tri bỏ phiếu đúng mong muốn của họ), càngthêm nhiều cử tri sẽ tăng xác suất theo quyết định số đông sẽchính xác. Trong giới hạn, xác suất bầu chọn theo số đông tiếnđến 1 khi số cử tri tăng lên. CSE 445: Học máy | Học kỳ 1, 2016-2017 7 Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (bias vẫn được giữ nguyên) Var[Ȳ] = σ2/n CSE 445: Học máy | Học kỳ 1, 2016-2017 8 Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (bias vẫn được giữ nguyên) Var[Ȳ] = σ2/n• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp được nhiều CSE 445: Học máy | Học kỳ 1, 2016-2017 9 Sức mạnh của các bộ phân lớp yếu• Việc lấy trung bình làm giảm phương sai và không làm tăng bias (bias vẫn được giữ nguyên) Var[Ȳ] = σ2/n• Các phiếu bầu của các bộ phân lớp tương quan không trợ giúp được nhiều Var[Ȳ] = σ2/n + (ρσ2)(n-1)/n CSE 445: Học máy | Học kỳ 1, 2016-2017 10Kết hợp các bộ phân lớpα×{CART}+ (1−α)×{LinearModel} CSE 445: Học máy | Học kỳ 1, 2016-2017 11Các phương pháp kết hợp: Bagging CSE 445: Học máy | Học kỳ 1, 2016-2017 12Bagging là gì? “Bootstrap Aggregation” + + CSE 445: Học máy | Học kỳ 1, 2016-2017 13Bagging là gì? “Bootstrap Aggregation” CSE 445: Học máy | Học kỳ 1, 2016-2017 14 BaggingGiải quyết được tính thiếu ổnđịnh của CART+ + CSE 445: Học máy | Học kỳ 1, 2016-2017 15 Bagging• Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán. CSE 445: Học máy | Học kỳ 1, 2016-2017 16 Bagging• Lấy mẫu tập dữ liệu huấn luyện theo Bootstrap để tạo ra tập hợp các dự đoán. Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. …• Lấy trung bình (hoặc bình chọn theo số đông- majority vote) các bộ dự đoán đ ...

Tài liệu được xem nhiều: