Bài giảng Nhập môn khai phá dữ liệu: Chương 5 - PGS. TS. Hà Quang Thụy
Số trang: 70
Loại file: pdf
Dung lượng: 1.23 MB
Lượt xem: 14
Lượt tải: 0
Xem trước 7 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Nhập môn khai phá dữ liệu - Chương 5: Phân lớp. Những nội dung chính trong chương này gồm có: Giới thiệu phân lớp, phân lớp học giám sát, phân lớp học bán giám sát. Mời các bạn cùng tham khảo để biết thêm nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn khai phá dữ liệu: Chương 5 - PGS. TS. Hà Quang Thụy BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 5. PHÂN LỚP PGS. TS. Hà Quang Thụy HÀ NỘI, 08-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/Charu C. Aggarwal. Data Classification: Algorithms. CRC Press, 2014. 1 Nội dung Giới thiệu phân lớp Phân lớp học giám sátPhân lớp học bán giám sát 2Phân lớp: Một vài bài toán ví dụ ⚫ 1. Bài toán phân lớp kết quả xét nghiệm ▪ Miền dữ liệu I = {phiếu xét nghiệm}, ▪ Biến mục tiêu “tập hợp lớp” O = {dương tinh, âm tính} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm phiếu xét nghiệm đã có nhãn dương tình/âm tính. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi phiếu xét nghiệm. ⚫ 2. Bài toán phân lớp cam kết khách hàng ▪ Miền dữ liệu: Tập thông tin mua hàng khách hàng RFM ▪ Mục tiêu “tập hợp lớp” O = {Trung thành cao, Trung thành thấp, Bình thường} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm khách hàng với RFM và nhãn tương ứng. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi khách hàng. 3Phân lớp: Một vài bài toán ví dụ ⚫ 3. Bài toán phân lớp quan điểm ▪ Miền dữ liệu I = {nhận xét sản phẩm A}, ▪ Mục tiêu “tập hợp lớp” O = {khen, chê} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm đánh giá đã có nhãn khen/chê. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi nhận xét. ⚫ 4. Bài toán phân lớp trang web ▪ Miền dữ liệu: Tập các trang web miền lính vực quan tâm ▪ Mục tiêu “tập hợp lớp” O = {Kinh tế, Thế giới, Thể thao, Giáo dục, v.v.} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm trang web có nhãn thuộc O. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi trang web mới tải về. 4Các mức phân tích kinh doanh Tối ưu hóa thông tin Phân tích khuyến nghị Làm gì khi nó xảy ra một lần nữa? Phân tích dự báoKhi nào nó sẽ xảy ra? PHÂN LỚP Giá trị kinh doanh Phân tích chẩn đoánVì sao điều đó xảy ra? KHAI PHÁ LUẬT KẾT HỢP Phân tích PHÂN CỤM Điều gì đã xảy ra? mô tả - Hiểu sâu sắc thị trường và khách hàng, - Hiểu vận hành nội bộ và nhân viên, - Hiểu giá trị dữ liệu Thông tin 52. Học máy giám sát bài toán tối ưu hóa ⚫ Bốn ví dụ trên đều có thể sử dụng học máy giám sát ⚫ Bài toán học máy giám sát ▪ Cho miền dữ liệu I và một tập nhãn O (hữu hạn) ▪ Tồn tại một ánh xạ f: I → O, f chưa biết Input ▪ Cho “tập ví dụ mẫu” IL: (ILIIL), f xác định trên IL, i IL: f(i)=o đã biết. Output ▪ Tìm ánh xạ toàn bộ f* xấp xỉ tốt nhất f. Bộ phân lớp ⚫ Ví dụ và trao đổi ▪ Miền dữ liệu I = {nhận xét sản phẩm A}, O = {khen, chê} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm đánh giá đã có nhãn khen/chê. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình 6 tự động gán nhãn cho mọi nhận xét.Xấp xỉ tốt nhất? ⚫ Biết f chỉ ở một bộ phận (tập IL): f|IL ▪ Thách thức ❖ Tập G vô hạn các ánh xạ, gG, g: I→O ❖ Chưa biết f toàn bộ ▪ Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f ▪ f|IL là toàn bộ “hiểu biết” về f ❖ vừa để tìm ra f* ❖ vừa để kiểm tra tính “tốt nhất” của f* ⚫ Xấp xỉ tốt nhất ▪ Giả thiết: IL “đại diện” cho I; “mọi đặc trưng của I” đều tìm được từ IL. ▪ “đánh giá” cần độc lập với “xây dựng” ▪ IL: vừa tìm f* vừa đánh giá f*. Chia ngẫu nhiên IL = ITrain + ITest. ITrain xây dựng f* và ITest đánh giá f*. ▪ Một số độ đo “tốt” liên quan đến tính “tốt nhất” ...
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn khai phá dữ liệu: Chương 5 - PGS. TS. Hà Quang Thụy BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 5. PHÂN LỚP PGS. TS. Hà Quang Thụy HÀ NỘI, 08-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/Charu C. Aggarwal. Data Classification: Algorithms. CRC Press, 2014. 1 Nội dung Giới thiệu phân lớp Phân lớp học giám sátPhân lớp học bán giám sát 2Phân lớp: Một vài bài toán ví dụ ⚫ 1. Bài toán phân lớp kết quả xét nghiệm ▪ Miền dữ liệu I = {phiếu xét nghiệm}, ▪ Biến mục tiêu “tập hợp lớp” O = {dương tinh, âm tính} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm phiếu xét nghiệm đã có nhãn dương tình/âm tính. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi phiếu xét nghiệm. ⚫ 2. Bài toán phân lớp cam kết khách hàng ▪ Miền dữ liệu: Tập thông tin mua hàng khách hàng RFM ▪ Mục tiêu “tập hợp lớp” O = {Trung thành cao, Trung thành thấp, Bình thường} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm khách hàng với RFM và nhãn tương ứng. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi khách hàng. 3Phân lớp: Một vài bài toán ví dụ ⚫ 3. Bài toán phân lớp quan điểm ▪ Miền dữ liệu I = {nhận xét sản phẩm A}, ▪ Mục tiêu “tập hợp lớp” O = {khen, chê} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm đánh giá đã có nhãn khen/chê. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi nhận xét. ⚫ 4. Bài toán phân lớp trang web ▪ Miền dữ liệu: Tập các trang web miền lính vực quan tâm ▪ Mục tiêu “tập hợp lớp” O = {Kinh tế, Thế giới, Thể thao, Giáo dục, v.v.} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm trang web có nhãn thuộc O. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình tự động gán nhãn cho mọi trang web mới tải về. 4Các mức phân tích kinh doanh Tối ưu hóa thông tin Phân tích khuyến nghị Làm gì khi nó xảy ra một lần nữa? Phân tích dự báoKhi nào nó sẽ xảy ra? PHÂN LỚP Giá trị kinh doanh Phân tích chẩn đoánVì sao điều đó xảy ra? KHAI PHÁ LUẬT KẾT HỢP Phân tích PHÂN CỤM Điều gì đã xảy ra? mô tả - Hiểu sâu sắc thị trường và khách hàng, - Hiểu vận hành nội bộ và nhân viên, - Hiểu giá trị dữ liệu Thông tin 52. Học máy giám sát bài toán tối ưu hóa ⚫ Bốn ví dụ trên đều có thể sử dụng học máy giám sát ⚫ Bài toán học máy giám sát ▪ Cho miền dữ liệu I và một tập nhãn O (hữu hạn) ▪ Tồn tại một ánh xạ f: I → O, f chưa biết Input ▪ Cho “tập ví dụ mẫu” IL: (ILIIL), f xác định trên IL, i IL: f(i)=o đã biết. Output ▪ Tìm ánh xạ toàn bộ f* xấp xỉ tốt nhất f. Bộ phân lớp ⚫ Ví dụ và trao đổi ▪ Miền dữ liệu I = {nhận xét sản phẩm A}, O = {khen, chê} ▪ Ánh xạ f: I → O, f chưa biết ▪ Input: Tập ví dụ mẫu IL gồm đánh giá đã có nhãn khen/chê. ▪ Output: Ánh xạ xấp xỉ tốt nhất f* để xây dựng chương trình 6 tự động gán nhãn cho mọi nhận xét.Xấp xỉ tốt nhất? ⚫ Biết f chỉ ở một bộ phận (tập IL): f|IL ▪ Thách thức ❖ Tập G vô hạn các ánh xạ, gG, g: I→O ❖ Chưa biết f toàn bộ ▪ Cơ hội: Biết f|IL để chọn f* “xấp xỉ tốt nhất” f ▪ f|IL là toàn bộ “hiểu biết” về f ❖ vừa để tìm ra f* ❖ vừa để kiểm tra tính “tốt nhất” của f* ⚫ Xấp xỉ tốt nhất ▪ Giả thiết: IL “đại diện” cho I; “mọi đặc trưng của I” đều tìm được từ IL. ▪ “đánh giá” cần độc lập với “xây dựng” ▪ IL: vừa tìm f* vừa đánh giá f*. Chia ngẫu nhiên IL = ITrain + ITest. ITrain xây dựng f* và ITest đánh giá f*. ▪ Một số độ đo “tốt” liên quan đến tính “tốt nhất” ...
Tìm kiếm theo từ khóa liên quan:
Nhập môn khai phá dữ liệu Khai phá dữ liệu Bài giảng Nhập môn khai phá dữ liệu Phân lớp học giám sát Phân lớp học bán giám sát Học máy giám sátTài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 351 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 232 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 223 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 172 0 0 -
8 trang 131 0 0
-
4 trang 115 0 0
-
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 52 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 45 0 0 -
68 trang 44 0 0
-
Bài giảng Khai phá web - Bài 1: Tổng quan về khai phá web
44 trang 42 0 0