Bài giảng Khai phá dữ liệu: Chương 4 - Phan Mạnh Thường
Số trang: 44
Loại file: pdf
Dung lượng: 1.41 MB
Lượt xem: 11
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục tiêu chính của chương 4 Phân lớp (Classification) thuộc bài giảng Khai phá dữ liệu trình bày về phân lớp và dự báo, cây quyết định quy nạp, phân lớp Bayes và bài tập lý thuyết...mời các bạn tham khảo tài liệu hữu ích này để biết sâu hơn về phân lớp.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Chương 4 - Phan Mạnh Thường Chương 4 Phân lớp (Classification) Nội dung1 Phân lớp và dự báo2 Cây quyết định quy nạp3 Phân lớp Bayes4 Bài tập lý thuyết Chương 4 Phân lớp Phân lớp và dự báo Có thể dùng phân lớp và dự báo để xác lập mô hình/mẫu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai Phân lớp (classification) dự đoán các nhãn phân loại Dự báo (prediction) hàm giá trị liên tục 2 Chương 4 Phân lớp Phân lớp dữ liệu Phân lớp dữ liệu là tiến trình có 2 bước Huấn luyện: Dữ liệu huấn luyện được phân tích bởi thuật tóan phân lớp ( có thuộc tính nhãn lớp) Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp. Nếu độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới. 3 Chương 4 Phân lớp Phân lớp dữ liệu Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng correctly classified test sample Accuracy total number of test sampl 4 Chương 4 Phân lớp Chuẩn bị dữ liệu Làm sạch dữ liệu Lọc nhiễu Thiếu giá trị Phân tích liên quan (chọn đặc trưng) Các thuộc tính không liên quan Các thuộc tính dư thừa Biến đổi dữ liệu 5 Chương 4 Phân lớp Đánh giá phương pháp phân lớp Độ chính xác của dự đoán: khả năng bộ phân lớp dự đoán đúng dữ liệu chưa thấy Tính bền vững: khả năng của bộ phân lớp thực hiện dự đoán đúng với dữ liệu có nhiễu hay thiếu giá trị Tính kích cỡ (scalability): khả năng tạo bộ phân lớp hiệu quả với số lượng dữ liệu lớn Khả năng diễn giải: bộ phân lớp cung cấp tri thức có thể hiểu được 6Cây quyết định(Decision tree) LOGO Chương 4 Phân lớp Cây quyết địnhBài toán: quyết định có đợi 1 bàn ở quán ăn không, dựa trên các thông tin sau:1. Lựa chọn khác: có quán ăn nào khác gần đó không?2. Quán rượu: có khu vực phục vụ đồ uống gần đó không?3. Fri/Sat: hôm nay là thứ sáu hay thứ bảy?4. Đói: chúng ta đã đói chưa?5. Khách hàng: số khách trong quán (không có, vài người, đầy)6. Giá cả: khoảng giá ($, $$, $$$)7. Mưa: ngoài trời có mưa không?8. Đặt chỗ: chúng ta đã đặt trước chưa?9. Loại: loại quán ăn (Pháp, Ý, Thái, quán ăn nhanh)10. Thời gian đợi: 0-10, 10-30, 30-60, >60 8 Chương 4 Phân lớp Cây quyết định Các mẫu được miêu tả dưới dạng các giá trị thuộc tính (logic, rời rạc, liên tục) Ví dụ, tình huống khi đợi 1 bàn ăn Các loại của mẫu là mẫu dương (T) hoặc mẫu âm (F) 9 Chương 4 Phân lớp Cây quyết định Các mẫu được miêu tả dưới dạng các giá trị thuộc tính (logic, rời rạc, liên tục) Ví dụ, tình huống khi đợi 1 bàn ăn Các loại của mẫu là mẫu dương (T) hoặc mẫu âm (F) 10 Chương 4 Phân lớp Cây quyết định Là cách biểu diễn các giả thuyết 11 Chương 4 Phân lớp Cây quyết địnhCây quyết định là cấu trúc cây sao cho: Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính Mỗi nhánh biểu diễn kết quả phép kiểm tra Các nút lá biểu diễn các lớp hay các phân bố lớp Nút cao nhất trong cây là nút gốc. 12 Chương 4 Phân lớpVí dụ cây quyết định 13 Chương 4 Phân lớp Thuật toán quy nạp xây dựng cây quyết định1. Chọn thuộc tính “tốt nhất” theo một độ đo chọn lựa cho trước2. Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính3. Sắp xếp các ví dụ học vào nút lá4. Nếu các ví dụ được phân lớp rõ Thì Stop nguợc lại lặp lại các bước 1-4 cho các nút lá5. Tỉa các nút lá không ổn định Temperature Headache Temperature Flu normal high very high {e1, e4} {e2, e5} {e3,e6} e1 yes normal no e2 yes high yes no Headache Headache e3 yes very high yes yes ...
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Chương 4 - Phan Mạnh Thường Chương 4 Phân lớp (Classification) Nội dung1 Phân lớp và dự báo2 Cây quyết định quy nạp3 Phân lớp Bayes4 Bài tập lý thuyết Chương 4 Phân lớp Phân lớp và dự báo Có thể dùng phân lớp và dự báo để xác lập mô hình/mẫu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai Phân lớp (classification) dự đoán các nhãn phân loại Dự báo (prediction) hàm giá trị liên tục 2 Chương 4 Phân lớp Phân lớp dữ liệu Phân lớp dữ liệu là tiến trình có 2 bước Huấn luyện: Dữ liệu huấn luyện được phân tích bởi thuật tóan phân lớp ( có thuộc tính nhãn lớp) Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp. Nếu độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới. 3 Chương 4 Phân lớp Phân lớp dữ liệu Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng correctly classified test sample Accuracy total number of test sampl 4 Chương 4 Phân lớp Chuẩn bị dữ liệu Làm sạch dữ liệu Lọc nhiễu Thiếu giá trị Phân tích liên quan (chọn đặc trưng) Các thuộc tính không liên quan Các thuộc tính dư thừa Biến đổi dữ liệu 5 Chương 4 Phân lớp Đánh giá phương pháp phân lớp Độ chính xác của dự đoán: khả năng bộ phân lớp dự đoán đúng dữ liệu chưa thấy Tính bền vững: khả năng của bộ phân lớp thực hiện dự đoán đúng với dữ liệu có nhiễu hay thiếu giá trị Tính kích cỡ (scalability): khả năng tạo bộ phân lớp hiệu quả với số lượng dữ liệu lớn Khả năng diễn giải: bộ phân lớp cung cấp tri thức có thể hiểu được 6Cây quyết định(Decision tree) LOGO Chương 4 Phân lớp Cây quyết địnhBài toán: quyết định có đợi 1 bàn ở quán ăn không, dựa trên các thông tin sau:1. Lựa chọn khác: có quán ăn nào khác gần đó không?2. Quán rượu: có khu vực phục vụ đồ uống gần đó không?3. Fri/Sat: hôm nay là thứ sáu hay thứ bảy?4. Đói: chúng ta đã đói chưa?5. Khách hàng: số khách trong quán (không có, vài người, đầy)6. Giá cả: khoảng giá ($, $$, $$$)7. Mưa: ngoài trời có mưa không?8. Đặt chỗ: chúng ta đã đặt trước chưa?9. Loại: loại quán ăn (Pháp, Ý, Thái, quán ăn nhanh)10. Thời gian đợi: 0-10, 10-30, 30-60, >60 8 Chương 4 Phân lớp Cây quyết định Các mẫu được miêu tả dưới dạng các giá trị thuộc tính (logic, rời rạc, liên tục) Ví dụ, tình huống khi đợi 1 bàn ăn Các loại của mẫu là mẫu dương (T) hoặc mẫu âm (F) 9 Chương 4 Phân lớp Cây quyết định Các mẫu được miêu tả dưới dạng các giá trị thuộc tính (logic, rời rạc, liên tục) Ví dụ, tình huống khi đợi 1 bàn ăn Các loại của mẫu là mẫu dương (T) hoặc mẫu âm (F) 10 Chương 4 Phân lớp Cây quyết định Là cách biểu diễn các giả thuyết 11 Chương 4 Phân lớp Cây quyết địnhCây quyết định là cấu trúc cây sao cho: Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính Mỗi nhánh biểu diễn kết quả phép kiểm tra Các nút lá biểu diễn các lớp hay các phân bố lớp Nút cao nhất trong cây là nút gốc. 12 Chương 4 Phân lớpVí dụ cây quyết định 13 Chương 4 Phân lớp Thuật toán quy nạp xây dựng cây quyết định1. Chọn thuộc tính “tốt nhất” theo một độ đo chọn lựa cho trước2. Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính3. Sắp xếp các ví dụ học vào nút lá4. Nếu các ví dụ được phân lớp rõ Thì Stop nguợc lại lặp lại các bước 1-4 cho các nút lá5. Tỉa các nút lá không ổn định Temperature Headache Temperature Flu normal high very high {e1, e4} {e2, e5} {e3,e6} e1 yes normal no e2 yes high yes no Headache Headache e3 yes very high yes yes ...
Tìm kiếm theo từ khóa liên quan:
Phân lớp Bayes quyết định quy nạp Dự báo khuynh hướng Khai phá dữ liệu Nhà kho dữ liệu Phương pháp khai phá dữ liệuGợi ý tài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 350 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 229 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 212 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 162 0 0 -
8 trang 131 0 0
-
4 trang 114 0 0
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 44 0 0 -
68 trang 44 0 0
-
Bài giảng Khai phá dữ liệu (Data mining): Clustering - Trịnh Tấn Đạt
70 trang 39 0 0 -
Trình bày dữ liệu đồ thị trong trực quan hóa dữ liệu
13 trang 37 0 0