![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Bài giảng Nhập môn khai phá dữ liệu: Chương 3 - PGS. TS. Hà Quang Thụy
Số trang: 107
Loại file: pdf
Dung lượng: 1.57 MB
Lượt xem: 20
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Chương 3 - Hiểu bài toán, hiểu dữ liệu và tiền xử lý dữ liệu. Những nội dung chính trong chương này gồm có: Hiểu bài toán, hiểu dữ liệu, tiền xử lý dữ liệu, một số thách thức về dữ liệu và mô hình. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn khai phá dữ liệu: Chương 3 - PGS. TS. Hà Quang ThụyBÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆUCHƯƠNG 3. HIỂU BÀI TOÁN, HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU PGS. TS. Hà Quang Thụy HÀ NỘI, 09-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ 1 Nội dung ◼ Hiểu bài toán ➢ Năm yếu tố để hiểu bài toán ◼ Hiểu dữ liệu ➢ Vai trò của hiểu dữ liệu, Đối tượng DL và kiểu thuộc tính, Độ đo tương tự và không tương tự của DL, Thu thập dữ liệu, Mô tả thống kê cơ bản của DL, Trực quan hóa DL, Đánh giá và lập hồ sơ DL ◼ Tiền xử lý dữ liệu ➢ Vai trò của tiền xử lý dữ liệu, Làm sạch dữ liệu, Tích hợp và chuyển dạng dữ liệu, Rút gọn dữ liệu, Rời rạc và sinh kiến trúc khái niệm ◼ Một số thách thức về dữ liệu và mô hình ➢ Thiếu dữ liệu, dữ liệu không đại diện, đặc trưng không đại diện, mô hình quá khớp-không khớpJuly 12, 2021 Công nghệ tri thức 21. HIỂU BÀI TOÁN VÀ HIỂU DỮ LIỆU HIỂU BÀI TOÁN: 1. BIẾT ĐƯỢC GÌ?➢ Đặt vấn đề ❖ 5 yếu tố cốt yếu dưới dạng 5 câu hỏi ❖ Giải đáp 5 yếu tố này → Đặt được bài toán➢ Yếu tố 1: Ta đã biết (có) được gì ? Cho INPUT ❖ Đây là bước đầu tiên cho mọi trường hợp nghiên cứu ❖ Ví dụ 1: Dự báo mục hàng phục vụ bán chéo ❖ Bán chéo (cross-selling): bán các sản phẩm bổ sung cho khách hàng hiện tại ❖ Bán sâu (deep-selling): tăng tần số hoặc số lượng mua sản phẩm của khách hàng ❖ Bán gia tăng (up-selling): bán sản phẩm với số lượng nhiều hơn hoặc giá cao hơn cho khách hàng hiện tại ❖ Ví dụ 2: Dự báo khách hàng dịch vụ mạng rời bỏYếu tố 2: Cần quyết định điều gì ?➢ Nội dung ❖ Điều gì thực sự cần phải quyết định ❖ Biến quyết định, Đầu ra (Output) ❖ Quan trọng: Phân biệt biến đầu ra và biến đầu vào➢ Trường hợp dễ xác định ❖ Ví dụ 1. Bán chéo” Các tập mục hàng đồng xuất hiện cao➢ Trường hợp khó xác định ❖ Ví dụ 2. Dự báo khách hàng dịch vụ mạng rời bỏ: “biến dự báo”, “biến phân lớp” v.v.Yếu tố 3: Cái gì cố gắng để đạt được➢ Nội dung ❖ Cố tìm gì trong không gian lời giải ? ❖ Cái gì cần đạt được ? ❖ Hàm mục tiêu, Mô hình mục tiêu ❖ Có thể là đa mục tiêu.➢ Ví dụ❖ Ví dụ 1. Tập con các mục hàng đồng xuất hiện vượt qua một ngưỡng❖ Ví dụ 2. Mô hình dự báo nhận diện lại tốt với dữ liệu kiểm thửYếu tố 4: Cái gì cản trở giải bài toán➢ Nội dung ❖ Hạn chế về tài nguyên ❖ các ràng buộc➢ Ví dụ ❖ Ví dụ 1. Số mục hàng và giao dịch lớn ❖ Ví dụ 2. Dữ liệu mẫu giống nhau song cho kết quả khác nhauYếu tố 5: Cái gì tìm hiểu thêm được➢ Nội dung ❖ 4 câu hỏi trên cho xây dựng mô hình ❖ Phân tích bối cảnh mô hình rộng hơn: nâng cao ý nghĩa của mô hình. Các khía cạnh phi mô hình➢ Ví dụ ❖ Ví dụ 1. Thay đổi ngưỡng ❖ Ví dụ 2. Các phân khúc khách hàng 2. Hiểu dữ liệu: hai phiên bản sách ◼ Thay đổi đáng kể phiên bản 2006 tới 2011 ◼ Phiên bản 2011 nhấn mạnh Hiểu dữ liệu !July 12, 2021 Công nghệ tri thức 9 Một mô hình KPDL hướng ứng dụng ◼ Khai phá DL hướng miền ứng dụng [CYZ10] ◼ Bước P1 “Hiểu và định nghĩa vấn đề”, Bước P2 “Phân tích ràng buộc” ◼ Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu”July 12, 2021 Công nghệ tri thức 10 Vấn đề và ràng buộc ◼ Vấn đề ◼ Câu hỏi mục tiêu kinh doanh (Xem chương 1) ◼ Thường từ 1-3 mục tiêu cụ thể ◼ Phạm vi dữ liệu liên quan tới câu hỏi ◼ Đăt bài toán sơ bộ: biến mục tiêu, dữ liệu điều kiện, mô tả sơ bộ ràng buộc dữ liệu điều kiện tới biến mục tiêu ◼ Phân tích ràng buộc ◼ Ràng buộc kinh doanh: Làm rõ hơn mối liên quan giữa dữ liệu với mục tiêu kinh doanh ◼ Ràng buộc nội tại: Ràng buộc dữ liệu về kiểu, ràng buộc liên quan dữ liệuJuly 12, 2021 Công nghệ tri thức 11 Kiểu dữ liệu ◼ Bản ghi ◼ Bản ghi quan hệ timeout season coa ...
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn khai phá dữ liệu: Chương 3 - PGS. TS. Hà Quang ThụyBÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆUCHƯƠNG 3. HIỂU BÀI TOÁN, HIỂU DỮ LIỆU VÀ TIỀN XỬ LÝ DỮ LIỆU PGS. TS. Hà Quang Thụy HÀ NỘI, 09-2018 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ 1 Nội dung ◼ Hiểu bài toán ➢ Năm yếu tố để hiểu bài toán ◼ Hiểu dữ liệu ➢ Vai trò của hiểu dữ liệu, Đối tượng DL và kiểu thuộc tính, Độ đo tương tự và không tương tự của DL, Thu thập dữ liệu, Mô tả thống kê cơ bản của DL, Trực quan hóa DL, Đánh giá và lập hồ sơ DL ◼ Tiền xử lý dữ liệu ➢ Vai trò của tiền xử lý dữ liệu, Làm sạch dữ liệu, Tích hợp và chuyển dạng dữ liệu, Rút gọn dữ liệu, Rời rạc và sinh kiến trúc khái niệm ◼ Một số thách thức về dữ liệu và mô hình ➢ Thiếu dữ liệu, dữ liệu không đại diện, đặc trưng không đại diện, mô hình quá khớp-không khớpJuly 12, 2021 Công nghệ tri thức 21. HIỂU BÀI TOÁN VÀ HIỂU DỮ LIỆU HIỂU BÀI TOÁN: 1. BIẾT ĐƯỢC GÌ?➢ Đặt vấn đề ❖ 5 yếu tố cốt yếu dưới dạng 5 câu hỏi ❖ Giải đáp 5 yếu tố này → Đặt được bài toán➢ Yếu tố 1: Ta đã biết (có) được gì ? Cho INPUT ❖ Đây là bước đầu tiên cho mọi trường hợp nghiên cứu ❖ Ví dụ 1: Dự báo mục hàng phục vụ bán chéo ❖ Bán chéo (cross-selling): bán các sản phẩm bổ sung cho khách hàng hiện tại ❖ Bán sâu (deep-selling): tăng tần số hoặc số lượng mua sản phẩm của khách hàng ❖ Bán gia tăng (up-selling): bán sản phẩm với số lượng nhiều hơn hoặc giá cao hơn cho khách hàng hiện tại ❖ Ví dụ 2: Dự báo khách hàng dịch vụ mạng rời bỏYếu tố 2: Cần quyết định điều gì ?➢ Nội dung ❖ Điều gì thực sự cần phải quyết định ❖ Biến quyết định, Đầu ra (Output) ❖ Quan trọng: Phân biệt biến đầu ra và biến đầu vào➢ Trường hợp dễ xác định ❖ Ví dụ 1. Bán chéo” Các tập mục hàng đồng xuất hiện cao➢ Trường hợp khó xác định ❖ Ví dụ 2. Dự báo khách hàng dịch vụ mạng rời bỏ: “biến dự báo”, “biến phân lớp” v.v.Yếu tố 3: Cái gì cố gắng để đạt được➢ Nội dung ❖ Cố tìm gì trong không gian lời giải ? ❖ Cái gì cần đạt được ? ❖ Hàm mục tiêu, Mô hình mục tiêu ❖ Có thể là đa mục tiêu.➢ Ví dụ❖ Ví dụ 1. Tập con các mục hàng đồng xuất hiện vượt qua một ngưỡng❖ Ví dụ 2. Mô hình dự báo nhận diện lại tốt với dữ liệu kiểm thửYếu tố 4: Cái gì cản trở giải bài toán➢ Nội dung ❖ Hạn chế về tài nguyên ❖ các ràng buộc➢ Ví dụ ❖ Ví dụ 1. Số mục hàng và giao dịch lớn ❖ Ví dụ 2. Dữ liệu mẫu giống nhau song cho kết quả khác nhauYếu tố 5: Cái gì tìm hiểu thêm được➢ Nội dung ❖ 4 câu hỏi trên cho xây dựng mô hình ❖ Phân tích bối cảnh mô hình rộng hơn: nâng cao ý nghĩa của mô hình. Các khía cạnh phi mô hình➢ Ví dụ ❖ Ví dụ 1. Thay đổi ngưỡng ❖ Ví dụ 2. Các phân khúc khách hàng 2. Hiểu dữ liệu: hai phiên bản sách ◼ Thay đổi đáng kể phiên bản 2006 tới 2011 ◼ Phiên bản 2011 nhấn mạnh Hiểu dữ liệu !July 12, 2021 Công nghệ tri thức 9 Một mô hình KPDL hướng ứng dụng ◼ Khai phá DL hướng miền ứng dụng [CYZ10] ◼ Bước P1 “Hiểu và định nghĩa vấn đề”, Bước P2 “Phân tích ràng buộc” ◼ Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu”July 12, 2021 Công nghệ tri thức 10 Vấn đề và ràng buộc ◼ Vấn đề ◼ Câu hỏi mục tiêu kinh doanh (Xem chương 1) ◼ Thường từ 1-3 mục tiêu cụ thể ◼ Phạm vi dữ liệu liên quan tới câu hỏi ◼ Đăt bài toán sơ bộ: biến mục tiêu, dữ liệu điều kiện, mô tả sơ bộ ràng buộc dữ liệu điều kiện tới biến mục tiêu ◼ Phân tích ràng buộc ◼ Ràng buộc kinh doanh: Làm rõ hơn mối liên quan giữa dữ liệu với mục tiêu kinh doanh ◼ Ràng buộc nội tại: Ràng buộc dữ liệu về kiểu, ràng buộc liên quan dữ liệuJuly 12, 2021 Công nghệ tri thức 11 Kiểu dữ liệu ◼ Bản ghi ◼ Bản ghi quan hệ timeout season coa ...
Tìm kiếm theo từ khóa liên quan:
Nhập môn khai phá dữ liệu Khai phá dữ liệu Bài giảng Nhập môn khai phá dữ liệu Hiểu dữ liệu Tiền xử lý dữ liệuTài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 353 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 235 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 233 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 178 0 0 -
8 trang 133 0 0
-
4 trang 118 0 0
-
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 64 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 49 0 0 -
68 trang 47 0 0
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 trang 46 0 0