Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long
Số trang: 0
Loại file: pdf
Dung lượng: 3.37 MB
Lượt xem: 25
Lượt tải: 0
Xem trước 0 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng "Học máy - Bài 7: Học máy không giám sát" cung cấp cho người học các kiến thức: Phân tích cụm, phương pháp phân cấp, thuật toán K-means, khởi tạo tâm cụm, phân đoạn, nén ảnh,... Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long Học máy không giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016/ Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1 Học máy không giám sát • Học không giám sát: tập các công cụ thống kê xử lý dữ liệu chỉ có biến đầu vào, không có biến đích – Ta chỉ có X’s mà không có các nhãn Y – Mục tiêu: phát hiện các mẫu/các đặc tính của dữ liệu • vd. trực quan hóa hoặc diễn giải dữ liệu nhiều chiều CSE 445: Học máy | Học kỳ 1, 2016-2017 2 Học có giám sát vs. không giám sát Học máy có giám sát: cả X và Y đều đã biết Học máy không giám sát: chỉ biết X Học có giám sát Học không giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 3 Học không giám sát • Ví dụ ứng dụng: – Biết các mô ung thư của n bệnh nhân bị ung thư vú, cần xác định các nhóm nhỏ (subtypes) chưa biết gây nên ung thư vú – Các thí nghiệm về biểu diễn Gen chứa hàng ngàn biến Figure1.3, ESL CSE 445: Học máy | Học kỳ 1, 2016-2017 4 Học không giám sát • Ví dụ ứng dụng: – Cho một tập các tài liệu văn bản, cần xác định tập các tài liệu có chung chủ đề như thể thao, chính trị, ca nhạc,.. – Cho các ảnh khuôn mặt có số chiều cao, tìm một biểu diễn đơn giản/thu gọn của các ảnh này để đưa vào bộ phân lớp nhận dạng khuôn mặt (AT&T Laboratories Cambridge) CSE 445: Học máy | Học kỳ 1, 2016-2017 5 Học không giám sát • Tại sao học không giám sát luôn thách thức lớn? – Phân tích khám phá dữ liệu (Exploratory data analysis) – mục tiêu không được định nghĩa rõ ràng – Khó đánh giá hiệu năng – không biết được đáp án đúng (“right answer” unknown) – Xử lý dữ liệu với số chiều lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 6 Học không giám sát • Hai cách tiếp cận: – Phân tích cụm (Cluster analysis) • Xác định các nhóm mẫu đồng nhất (có các đặc tính chung) – Giảm chiều dữ liệu (Dimensionality Reduction) • Tìm cách biểu diễn với số chiều thấp hơn dựa trên tính chất và trực quan hóa dữ liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 7 Phân tích cụm & K--means CSE 445: Học máy | Học kỳ 1, 2016-2017 8 Phân cụm • Phân cụm: là tập các phương pháp nhằm tìm ra các nhóm con trong dữ liệu – Các mẫu có đặc điểm chung trong cùng 1 nhóm nhưng khác với các mẫu ở ngoài nhóm – Việc gom nhóm là phân tích cấu trúc dữ liệu nội tại, điều này khác với phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 9 Phân cụm vs. Phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Phân lớp Lớp “A” Lớp “B” CSE 445: Học máy | Học kỳ 1, 2016-2017 10 11 Phân lớp Lớp “A” Lớp “B” CSE 445: Học máy | Học kỳ 1, 2016-2017 11 12 Phân cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 13 Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 14 Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 15 Phân cụm • Các kiểu mô hình phân cụm – Hai mô hình phân cụm thông dụng: – Phương pháp dựa trên tâm cụm (Centroid-based) – Phương pháp phân cấp (Hierarchical) – Các mô hình khác: – Phân cụm dựa trên mô hình (Model-based) • Mỗi cụm được thể hiện bằng một phân bố thống kê tham số • Dữ liệu là một hỗn hợp các phân bố – Khái niệm phân cụm fuzzy cứng vs. mềm • Cứng (Hard): Các mẫu được chia thành các cụm riêng biệt • Mềm (Soft): Các mẫu có thể thuộc nhiều hơn 1 cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 16 Phương pháp phân cấp • Phương pháp phân cấp (phân cụm cây) – Các cụm dựa trên khoảng cách giữa các mẫu – Hiển thị theo phân cấp mà không theo cách phân hoạch dữ liệu Sørlie, Therese, et al. (2003) Repeated observation of breast tumor subtypes in independent gene expression data sets, PNAS. Figure 10.9 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 17 PhâncụmK--means • Gom nhóm dữ liệu thành K cụ ...
Nội dung trích xuất từ tài liệu:
Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long Học máy không giám sát Nguyễn Thanh Tùng Khoa Công nghệ thông tin – Đại học Thủy Lợi tungnt@tlu.edu.vn Website môn học: https://sites.google.com/a/wru.vn/cse445fall2016/ Bài giảng có sử dụng hình vẽ trong cuốn sách “An Introduction to Statistical Learning with Applications in R” với sự cho phép của tác giả, có sử dụng slides các khóa học CME250 của ĐH Stanford và IOM530 của ĐH Southern California CSE 445: Học máy | Học kỳ 1, 2016-2017 1 Học máy không giám sát • Học không giám sát: tập các công cụ thống kê xử lý dữ liệu chỉ có biến đầu vào, không có biến đích – Ta chỉ có X’s mà không có các nhãn Y – Mục tiêu: phát hiện các mẫu/các đặc tính của dữ liệu • vd. trực quan hóa hoặc diễn giải dữ liệu nhiều chiều CSE 445: Học máy | Học kỳ 1, 2016-2017 2 Học có giám sát vs. không giám sát Học máy có giám sát: cả X và Y đều đã biết Học máy không giám sát: chỉ biết X Học có giám sát Học không giám sát CSE 445: Học máy | Học kỳ 1, 2016-2017 3 Học không giám sát • Ví dụ ứng dụng: – Biết các mô ung thư của n bệnh nhân bị ung thư vú, cần xác định các nhóm nhỏ (subtypes) chưa biết gây nên ung thư vú – Các thí nghiệm về biểu diễn Gen chứa hàng ngàn biến Figure1.3, ESL CSE 445: Học máy | Học kỳ 1, 2016-2017 4 Học không giám sát • Ví dụ ứng dụng: – Cho một tập các tài liệu văn bản, cần xác định tập các tài liệu có chung chủ đề như thể thao, chính trị, ca nhạc,.. – Cho các ảnh khuôn mặt có số chiều cao, tìm một biểu diễn đơn giản/thu gọn của các ảnh này để đưa vào bộ phân lớp nhận dạng khuôn mặt (AT&T Laboratories Cambridge) CSE 445: Học máy | Học kỳ 1, 2016-2017 5 Học không giám sát • Tại sao học không giám sát luôn thách thức lớn? – Phân tích khám phá dữ liệu (Exploratory data analysis) – mục tiêu không được định nghĩa rõ ràng – Khó đánh giá hiệu năng – không biết được đáp án đúng (“right answer” unknown) – Xử lý dữ liệu với số chiều lớn CSE 445: Học máy | Học kỳ 1, 2016-2017 6 Học không giám sát • Hai cách tiếp cận: – Phân tích cụm (Cluster analysis) • Xác định các nhóm mẫu đồng nhất (có các đặc tính chung) – Giảm chiều dữ liệu (Dimensionality Reduction) • Tìm cách biểu diễn với số chiều thấp hơn dựa trên tính chất và trực quan hóa dữ liệu CSE 445: Học máy | Học kỳ 1, 2016-2017 7 Phân tích cụm & K--means CSE 445: Học máy | Học kỳ 1, 2016-2017 8 Phân cụm • Phân cụm: là tập các phương pháp nhằm tìm ra các nhóm con trong dữ liệu – Các mẫu có đặc điểm chung trong cùng 1 nhóm nhưng khác với các mẫu ở ngoài nhóm – Việc gom nhóm là phân tích cấu trúc dữ liệu nội tại, điều này khác với phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 9 Phân cụm vs. Phân lớp CSE 445: Học máy | Học kỳ 1, 2016-2017 10 Phân lớp Lớp “A” Lớp “B” CSE 445: Học máy | Học kỳ 1, 2016-2017 10 11 Phân lớp Lớp “A” Lớp “B” CSE 445: Học máy | Học kỳ 1, 2016-2017 11 12 Phân cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 13 Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 14 Phân cụm Dữ liệu lấy từ: http://cs.joensuu.fi/sipu/datasets/ CSE 445: Học máy | Học kỳ 1, 2016-2017 15 Phân cụm • Các kiểu mô hình phân cụm – Hai mô hình phân cụm thông dụng: – Phương pháp dựa trên tâm cụm (Centroid-based) – Phương pháp phân cấp (Hierarchical) – Các mô hình khác: – Phân cụm dựa trên mô hình (Model-based) • Mỗi cụm được thể hiện bằng một phân bố thống kê tham số • Dữ liệu là một hỗn hợp các phân bố – Khái niệm phân cụm fuzzy cứng vs. mềm • Cứng (Hard): Các mẫu được chia thành các cụm riêng biệt • Mềm (Soft): Các mẫu có thể thuộc nhiều hơn 1 cụm CSE 445: Học máy | Học kỳ 1, 2016-2017 16 Phương pháp phân cấp • Phương pháp phân cấp (phân cụm cây) – Các cụm dựa trên khoảng cách giữa các mẫu – Hiển thị theo phân cấp mà không theo cách phân hoạch dữ liệu Sørlie, Therese, et al. (2003) Repeated observation of breast tumor subtypes in independent gene expression data sets, PNAS. Figure 10.9 , ISL 2013 CSE 445: Học máy | Học kỳ 1, 2016-2017 17 PhâncụmK--means • Gom nhóm dữ liệu thành K cụ ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Học máy Machine leaning Học máy Kỹ thuật lập trình Học máy không giám sát Thuật toán K-means Khởi tạo tâm cụmTài liệu liên quan:
-
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 266 0 0 -
Phương pháp nhận diện biển số xe ô tô sử dụng học máy và thư viện OpenCV
6 trang 210 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 208 0 0 -
Giới thiệu môn học Ngôn ngữ lập trình C++
5 trang 195 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 169 0 0 -
Luận văn: Nghiên cứu kỹ thuật giấu tin trong ảnh Gif
33 trang 153 0 0 -
Báo cáo thực tập Công nghệ thông tin: Lập trình game trên Unity
27 trang 119 0 0 -
Giáo trình về phân tích thiết kế hệ thống thông tin
113 trang 114 0 0 -
LUẬN VĂN: Tìm hiểu kỹ thuật tạo bóng cứng trong đồ họa 3D
41 trang 109 0 0 -
Bài giảng Kỹ thuật lập trình - Chương 10: Tổng kết môn học (Trường Đại học Bách khoa Hà Nội)
67 trang 106 0 0