Danh mục

Bài giảng Học máy: Bài 3 - Nguyễn Hoàng Long

Số trang: 0      Loại file: pdf      Dung lượng: 1.47 MB      Lượt xem: 1      Lượt tải: 0    
Thư viện của tui

Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Học máy - Bài 3: Kỹ thuật kiểm tra chéo, hiệu chỉnh mô hình, mô hình thưa" cung cấp cho người học các kiến thức: Các giải thuật học máy, hàm tổn thất, kỹ thuật kiểm tra chéo, mô hình có điều chỉnh,... Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Học máy: Bài 3 - Nguyễn Hoàng Long Kỹ thuật kiểm tra chéo, hiệu chỉnh mô hình, mô hình thưa Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445spring2016/Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sựcho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1 Các dạng giải thuật Học máy Do you have labeled data? Yes No Supervised Unsupervised What do you want to predict? Do you want to group the data? Category Quantity Yes No Classification Regression Cluster Dimensionality Analysis ReductionSVM KNN CART LASSO Logistic Linear K-means Regression Regression ICA PCA CSE 445: Học máy | Học kỳ 1, 2016-2017 2 Nhắc lại Hồi quy tuyến tính đơn giảnFigure 3.1 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 3 Nhắc lại Bình phương nhỏ nhất• Sử dụng phương pháp bình phương nhỏ nhất để đo lường độ xấp xỉ của mô hình áp dụng trên dữ liệu• Phần dư (Residual): sai số giữa giá trị quan sát được và giá trị dự đoán. (i) = (i) ˆ (i)• Tổng phần dư bình phương-Residual sum of squares (RSS): 2 2 = (1) (2) (n) 2 + + ⋯+• Lỗi bình phương trung bình-Mean squared error (MSE): CSE 445: Học máy | Học kỳ 1, 2016-2017 4Hàm tổn thấtLoss Functions CSE 445: Học máy | Học kỳ 1, 2016-2017 5Loss Functions L(θi ,θˆi ) CSE 445: Học máy | Học kỳ 1, 2016-2017 6 Loss Functions L(θi ,θˆi )Lỗi bình phương (Squared error) θ − ∑ i i ( θˆ ) 2 iLỗi tuyệt đối (Absolute error) ∑ θ − θˆ i i iLỗi điều hướng (Indicator error) ∑ I(θ ≠ θˆ ) i i i CSE 445: Học máy | Học kỳ 1, 2016-2017 7Học máy chỉ để giải 1 vấn đề CSE 445: Học máy | Học kỳ 1, 2016-2017 8Kỹ thuật kiểm tra chéo Cross-validation CSE 445: Học máy | Học kỳ 1, 2016-2017 9Kỹ thuật kiểm tra chéo“Dùng lỗi trên tập dữ liệu kiểm thử để ước lượng lỗidự đoán” err = E[L(Y, fˆ(X))] CSE 445: Học máy | Học kỳ 1, 2016-2017 10Kỹ thuật kiểm tra chéo Tập huấn luyện-Training Set Tập kiểm thử-Test Set Tập kiểm chứng-Validation Set Training Data Testing Data CSE 445: Học máy | Học kỳ 1, 2016-2017 11Kỹ thuật kiểm tra chéo K--fold Vídụ5--fold Hastie, Trevor, et al. The elements of statistical learning. Vol. 2. No. 1. New York: Springer, 2009. 10 CSE 445: Học máy | Học kỳ 1, 2016-2017 12Kỹ thuật kiểm tra chéo5-fold và 10-fold thường được ưa dùng (lỗi biascao, phương sai thấp) CSE 445: Học máy | Học kỳ 1, 2016-2017 13Kỹ thuật kiểm tra chéoN-fold gọi là kỹ thuật kiểm tra chéo “leave oneout-LOOCV” (lỗi bias thấp, phương sai cao) CSE 445: Học máy | Học kỳ 1, 2016-2017 14Kỹ thuật kiểm tra chéo• Dùng để ước lượng lỗi dự đoán• Dùng để chọn các giá trị tham số phù hợp cho mô hình (vd: tham số k trong k--láng giềng gần nhất) CSE 445: Học máy | Học kỳ 1, 2016-2017 15Auto Data: LOOCV vs. K-fold CVHình trái: Sai số LOOCVHình phải: 10-fold CV được chạy nhiều lần, đồ thị biểu diễn sai khác nhỏvề lỗi CVLOOCV là trường hợp đặc biệt của k-fold, khi k = nCả hai đều ổn định, tuy nhiên LOOCV mất nhiều thời gian tính toán hơn! CSE 445: Học máy | Học kỳ 1, 2016-2017 16Thách thức: Overfitting• Overfitting: Kết quả tốt trên tập huấn luyện nhưng cho kết quả kém trên tập kiểm thử Figures 2.4 and 2.6 ,ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 17Overfitting Sai số trên tập kiểm th ...

Tài liệu được xem nhiều: