Danh mục

Phân lớp và dự đoán

Số trang: 41      Loại file: pdf      Dung lượng: 705.81 KB      Lượt xem: 16      Lượt tải: 0    
Thư viện của tui

Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Phân lớp và dự đoán? Các vấn đề về phân lớp và dự đoán Quy nạp trên cây quyết định Phân lớp Bayes Các phương pháp phân lớp khác Phân lớp là gì ? Dự đoán là gì? Có thể dùng phân lớp và dự đoán để xác lập mô hình/mẫu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai
Nội dung trích xuất từ tài liệu:
Phân lớp và dự đoán Phân lớp và dự đoánNội dung Phân lớp và dự đoán? Các vấn đề về phân lớp và dự đoán Quy nạp trên cây quyết định Phân lớp Bayes Các phương pháp phân lớp khác 2Phân lớp là gì ? Dự đoán là gì?  Có thể dùng phân lớp và dự đoán để xác lập mô hình/mẫu nhằm mô tả các lớp quan trọng hay dự đoán khuynh hướng dữ liệu trong tương lai  Phân lớp(classification) dự đoán các nhãn phân lọai  Dự đoán (prediction) hàm giá trị liên tục 3 Phân lớp là gì? Dự đoán là gì ? Phân lớp dữ liệu là tiến trình có 2 bước  Huấn luyện: Dữ liệu huấn luyện được phân tích bởi thuật tóan phân lớp ( có thuộc tính nhãn lớp)  Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của bộ phân lớp. Nếu độ chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới. 4Phân lớp là gì? Dự đoán là gì ? Độ chính xác (accuracy) của bộ phân lớp trên tập kiểm tra cho trước là phần trăm của các mẫu trong tập kiểm tra được bộ phân lớp xếp lớp đúng correctly classified test sample Accuracy  total number of test sampl 5Chuẩn bị dữ liệu Làm sách dữ liệu  Nhiễu  Thiếu giá trị Phân tích liên quan (chọn đặc trưng)  Các thuộc tính không liên quan  Các thuộc tính dư thừa Biến đổi dữ liệu 6So sánh các phương pháp phân lớp Độ chính xác của dự đoán: khả năng bộ phân lớp dự đoán đúng dữ liệu chưa thấy Tính bền vững: khả năng của bộ phân lớp thực hiện dự đoán đúng với dữ liệu có nhiễu hay thiếu giá trị Tính kích cỡ (scalability): khả năng tạo bộ phân lớp hiệu quả với số lượng dữ liệu lớn Khả năng diễn giải: bộ phân lớp cung cấp tri thức có thể hiểu được 7Cây quyết địnhCây quyết địnhCây quyết định là cấu trúc cây sao cho: Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính Mỗi nhánh biểu diễn kết quả phép kiểm tra Các nút lá biểu diễn các lớp hay các phân bố lớp Nút cao nhất trong cây là nút gốc. 9Cây quyết định 10Sườn chung về quy nạp trên cây quyết định1. Chọn thuộc tính “tốt nhất” theo một độ đo chọn lựa cho trước2. Mở rộng cây bằng cách thêm các nhánh mới cho từng giá trị thuộc tính3. Sắp xếp các ví dụ học vào nút lá4. Nếu các ví dụ được phân lớp rõ Thì Stop nguợc lại lặp lại các bước 1-4 cho các nút lá5. Tỉa các nút lá không ổn định Temperature Flu Headache Temperature normal very high high {e1, e4} {e3,e6} {e2, e5} e1 yes normal no no e2 yes high yes Headache Headache e3 yes very high yes no yes yes no e4 no normal no {e6} {e2} {e3} {e5} e5 no high no yes no yes no e6 no very high no 11Chiến lược cơ bản Bắt đầu từ nút đơn biểu diễn tất cả các mẫu Nếu các mẫu thuộc về cùng một lớp, nút trở thành nút lá và được gán nhãn bằng lớp đó Ngược lại, dùng độ đo thuộc tính để chọn thuộc tính sẽ phân tách tốt nhất các mẫu vào các lớp Một nhánh được tạo cho từng giá trị của thuộc tính được chọn và các mẫu được phân hoạch theo Dùng đệ quy cùng một quá trình để tạo cây quyết định Tiến trình kết thúc chỉ khi bất kỳ điều kiện nào sau đây là đúng  Tất cả các mẫu cho một nút cho trước đều thuộc về cùng một lớp.  Không còn thuộc tính nào mà mẫu có thể dựa vào để phân hoạch xa hơn.  Không còn mẫu nào cho nhánh test_attribute = ai 12Bảng dữ liệu huấn luyệnDay Outlook Tem ...

Tài liệu được xem nhiều: