Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 7: Học dựa trên láng giềng gần nhất (KNN)
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 7: Học dựa trên láng giềng gần nhất (KNN)1 Nhập mônHọc máy và Khai phá dữ liệu (IT3190) 2Nội dung môn học• Lecture 1: Giới thiệu về Học máy và khai phá dữ liệu• Lecture 2: Thu thập và tiền xử lý dữ liệu• Lecture 3: Hồi quy tuyến tính (Linear regression)• Lecture 4+5: Phân cụm• Lecture 6: Phân loại và Đánh giá hiệu năng• Lecture 7: dựa trên láng giềng gần nhất (KNN)• Lecture 8: Cây quyết định và Rừng ngẫu nhiên• Lecture 9: Học dựa trên xác suất• Lecture 10: Mạng nơron (Neural networks)• Lecture 11: Máy vector hỗ trợ (SVM)• Lecture 12: Khai phá tập mục thường xuyên và các luật kết hợp• Lecture 13: Thảo luận ứng dụng học máy và khai phá dữ liệu trong thực tế 3Các bạn phân loại thế nào? Class a Class b Class a Class a ?? Class b Class a 4Học dựa trên các láng giềng gần nhất◼ K-nearest neighbors (k-NN) là một trong số các phương pháp phổ biến trong học máy. Vài tên gọi khác như: • Instance-based learning • Lazy learning • Memory-based learning◼ Ý tưởng của phương pháp • Không xây dựng một mô hình (mô tả) rõ ràng cho hàm mục tiêu cần học. • Quá trình học chỉ lưu lại các dữ liệu huấn luyện. • Việc dự đoán cho một quan sát mới sẽ dựa vào các hàng xóm gần nhất trong tập học.◼ Do đó k-NN là một phương pháp phi tham số (nonparametric methods) 5k-NN◼ Hai thành phần chính: • Độ đo tương đồng (similarity measure/distance) giữa các đối tượng. • Các hàng xóm sẽ dùng vào việc phán đoán.◼ Trong một số điều kiện thì k-NN có thể đạt mức lỗi tối ưu Bayes (mức lỗi mong muốn của bất kỳ phương pháp nào) [Gyuader and Hengartner, JMLR 2013] • Thậm chí khi chỉ dùng 1 hàng xóm gần nhất thì nó cũng có thể đạt đến mức lỗi tối ưu Bayes. [Kontorovich & Weiss, AISTATS 2015] 6Ví dụ: bài toán phân lớp Lớp c1 Lớp c2◼ Xét 1 láng giềng gần nhất Ví dụ cần phân lớp z → Gán z vào lớp c2◼ Xét 3 láng giềng gần nhất → Gán z vào lớp c1◼ Xét 5 láng giềng gần nhất → Gán z vào lớp c1 7Giải thuật k-NN cho phân lớp◼ Mỗi ví dụ học ? được biểu diễn bởi 2 thành phần: • Mô tả của ví dụ: ? = (?1, ?2, … , ?? ), trong đó ??? • Nhãn lớp : ? ?, với ? là tập các nhãn lớp được xác định trước◼ Giai đoạn học • Đơn giản là lưu lại các ví dụ học trong tập học: ?◼ Giai đoạn phân lớp: Để phân lớp cho một ví dụ (mới) ? • Với mỗi ví dụ học ??, tính khoảng cách giữa ? và ? • Xác định tập ??(?) – các láng giềng gần nhất của ? →Gồm k ví dụ học trong ? gần nhất với ? tính theo một hàm khoảng cách ? • Phân ? vào lớp chiếm số đông (the majority class) trong số các lớp của các ví dụ trong ??(?) 8Giải thuật k-NN cho hồi quy◼ Mỗi ví dụ học ? được biểu diễn bởi 2 thành phần: • Mô tả của ví dụ: ? = (?1, ?2, … , ?? ), trong đó ??? • Giá trị đầu ra mong muốn: ??? (là một số thực)◼ Giai đoạn học • Đơn giản là lưu lại các ví dụ học trong tập học ?◼ Giai đoạn dự đoán: Để dự đoán giá trị đầu ra cho ví dụ ? • Đối với mỗi ví dụ học ??, tính khoảng cách giữa ? và ? • Xác định tập ??(?) – các láng giềng gần nhất của ? → Gồm k ví dụ học trong ? gần nhất với ? tính theo một hàm khoảng cách ? 1 • Dự đoán giá trị đầu ra đối với ?: ?? = σ?∈??(?) ?? ? 9k-NN: Các vấn đề cốt lõi Suy nghĩ khác nhau! 10k-NN: Các vấn đề cốt lõi◼ Hàm khoảng cách ❑ Mỗi hàm sẽ tương ứng với một cách nhìn về dữ liệu. ❑ Vô hạn hàm!!! ❑ Chọn hàm nào? 11k-NN: Các vấn đề cốt lõi◼ Chọn tập láng giềng ??(?) ❑ Chọn bao nhiêu láng giềng? ❑ Giới hạn chọn theo vùng? 12k-NN: một hay nhiều láng giềng?◼ Về lý thuyết thì 1-NN cũng có thể là một trong số các phương pháp tối ưu.◼ k-NN là một phương pháp tối ưu Bay ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu Nhập môn Học máy và Khai phá dữ liệu Học dựa trên láng giềng gần nhất K-nearest neighbors (k-NN) Hàm tính khoảng cách Hàm khoảng cách EuclidTài liệu cùng danh mục:
-
62 trang 388 3 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 369 6 0 -
Bài giảng Phân tích thiết kế hệ thống thông tin: Chương 3 - Hệ điều hành Windowns XP
39 trang 318 0 0 -
Phương pháp truyền dữ liệu giữa hai điện thoại thông minh qua môi trường ánh sáng nhìn thấy
6 trang 307 0 0 -
Đề cương chi tiết học phần Cấu trúc dữ liệu và giải thuật (Data structures and algorithms)
10 trang 299 0 0 -
Đáp án đề thi học kỳ 2 môn cơ sở dữ liệu
3 trang 288 1 0 -
Giáo trình Cơ sở dữ liệu: Phần 2 - TS. Nguyễn Hoàng Sơn
158 trang 279 0 0 -
PHÂN TÍCH THIẾT KẾ HỆ THỐNG XÂY DỰNG HỆ THỐNG ĐẶT VÉ TÀU ONLINE
43 trang 276 2 0 -
Phân tích thiết kế hệ thống - Biểu đồ trạng thái
20 trang 265 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 247 0 0
Tài liệu mới:
-
93 trang 0 0 0
-
Thực trạng và giải pháp cho quan hệ thương mại Việt Nam với Nhật Bản - 4
10 trang 0 0 0 -
Luận văn tốt nghiệp: Thực trạng và phương hướng phát triển hàng dệt may xuất khẩu Việt Nam
56 trang 0 0 0 -
69 trang 0 0 0
-
Tóm tắt Luận văn thạc sĩ Luật học: Bảo hộ nhãn hiệu và tên thương mại trong thương mại điện tử
23 trang 0 0 0 -
Nghị quyết số 16/2019/NQ-HĐND tỉnh TiềnGiang
3 trang 1 0 0 -
Luận văn tốt nghiệp: Hoàn thiện công tác định mức kỹ thuật lao động tại Công ty may Thanh Hoá
54 trang 0 0 0 -
Phẫu thuật nội soi hàn khớp cổ chân tiếp cận qua lối trước trong điều trị thoái hóa khớp cổ chân
10 trang 0 0 0 -
Rối loạn ăn uống và các yếu tố liên quan ở sinh viên y khoa tại thành phố Hồ Chí Minh
9 trang 1 0 0 -
51 trang 0 0 0