Thuật toán phân lớp ID3
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Thuật toán phân lớp ID3 1) Thuật toán ID3 Thuật toán ID3 được phát biểu bởi Quinlan (trường đại học Syney, Australia) và được công bố vào cuối thập niên 70 của thế kỷ 20. Sau đó, thuật toán ID3 được giới thiệu và trình bày trong mục Induction on decision trees, machine learning năm 1986. ID3 được xem như là một cải tiến của CLS với khả năng lựa chọn thuộc tính tốt nhất để tiếp tục triển khai cây tại mỗi bước. ID3 xây dựng cây quyết định từ trên- xuống (top -down) [5] . 1.1. Entropy đo tính thuần nhất của tập dữ liệu : dùng để đo tính thuần nhất của một tập dữ liệu. Entropy của một tập S được tính theo công thức (1) Entropy(S)= - P + log 2 ( P ) P - log 2 ( P ) (2.1) Trong trường hợp các mẫu dữ liệu có hai thuộc tính phân lớp yes (+), no (-). Ký hiệu p+ là để chỉ tỷ lệ các mẫu có giá trị của thuộc tính quyết định là yes, và p- là tỷ lệ các mẫu có giá trị của thuộc tính quyết định là no trong tập S. Trường hợp tổng quát, đối với tập con S có n phân lớp thì ta có công thức sau: n Entropy(S)= (- P log i=1 i 2 ( Pi )) (2.2) Trong đó Pi là tỷ lệ các mẫu thuộc lớp i trên tập hợp S các mẫu kiểm tra. Các trường hợp đặc biệt - Nếu tất cả các mẫu thành viên trong tập S đều thuộc cùng một lớp thì Entropy(S) =0 - Nếu trong tập S có số mẫu phân bổ đều nhau vào các lớp thì Entropy(S) =1 - Các trường hợp còn lại 0< Entropy(S) n Information(A i ) = - log 2 ( pi ) Entropy(S) (2.3) i=1 - Giá trị Gain của thuộc tính A trong tập S ký hiệu là Gain(S,A) và được tính theo công thức sau: Sv Gain(S , A) Information(A) - Entropy(A)= Entropy(S)- vvalue(A) S Entropy(Sv ) (2.4) Trong đó : S là tập hợp ban đầu với thuộc tính A. Các giá trị của v tương ứng là các giá trị của thuộc tính A. Sv bằng tập hợp con của tập S mà có thuộc tính A mang giá trị v. |Sv| là số phần tử của tập Sv. |S| là số phần tử của tập S. Trong quá trình xây dựng cây quyết định theo thuật toán ID3 tại mỗi bước triển khai cây, thuộc tính được chọn để triển khai là thuộc tính có giá trị Gain lớn nhất. Hàm xây dựng cây quyết định trong thuật toán ID3 [2] Function induce_tree(tập_ví_dụ, tập_thuộc_tính) begin if mọi ví dụ trong tập_ví_dụ đều nằm trong cùng một lớp then return một nút lá được gán nhãn bởi lớp đó else if tập_thuộc_tính là rỗng then return nút lá được gán nhãn bởi tuyển của tất cả các lớp trong tập_ví_dụ else begin chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại; xóa P ra khỏi tập_thuộc_tính; với mỗi giá trị V của P begin tạo một nhánh của cây gán nhãn V; Đặt vào phân_vùng các ví dụ trong tập_ví_dụ có giá trị V V tại thuộc tính P; Gọi induce_tree(phân_vùng , tập_thuộc_tính), gắn kết quả V vào nhánh V end end end Ví dụ minh họa Chúng ta hãy xét bài toán phân loại xem ta có đi chơi tennis ứng với thời tiết nào đó không. Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví dụ sau: Quang Ngày Nhiệt độ Độ ảm Gió Chơi Tennis cảnh Dl Nắng Nóng Cao Nhẹ Không D2 Nắng Nóng Cao Mạnh Không D3 Âm u Nóng Cao Nhẹ Có D4 Mưa Ấm áp Cao Nhẹ Có D5 Mưa Mát Trung bình Nhẹ Có D6 Mưa Mát Trung bình Mạnh Không D7 Âm u Mát Trung bình Mạnh Có D8 Nắng Ấm áp Cao Nhẹ Không D9 Nắng Mát Trung bình Nhẹ Có Dl0 Mưa Ấm áp Trung bình Nhẹ Có Dl1 Nắng Ấm áp Trung bình Mạnh Có Dl2 Âm u Ấm áp Cao Mạnh Có Dl3 Âm u Nóng Trung bình Nhẹ Có Dl4 Mưa Ấm áp Cao Mạnh Không Bảng 2.1. Tập dữ liệu ví dụ cho chơi Tennis Tập dữ liệu này bao gồm 14 ví dụ. Mỗi ví dụ biểu diễn cho tình trạng thời tiết gồm các thuộc tính quang cảnh, nhiệt độ, độ ẩm và gió; và đều có một thuộc tính phân loại ‘chơi Tennis’(có, không). ‘Không’ nghĩa là không đi chơi tennis ứng với thời tiết đó, ‘Có’ nghĩa là chơi tennis ứng với thời tiết đó. Giá trị phân loại ở đây chỉ có hai loại (có, không), hay còn ta nói phân loại của tập ví dụ của khái niệm này thành hai lớp (classes). Thuộc tính ‘Chơi tennis’ còn được gọi là thuộc tính đích (target attribute). Mỗi thuộc tính đều có một tập các giá trị hữu hạn. Thuộc tính quang cảnh có ba giá tr ...
Tìm kiếm theo từ khóa liên quan:
Thuật toán ID3 Cây quyết định Tập dữ liệu Tính thuần nhất Khả năng lựa chọn thuộc tính Xây dựng cây quyết địnhGợi ý tài liệu liên quan:
-
23 trang 225 0 0
-
Nâng cao hiệu quả tra cứu ảnh nhãn hiệu sử dụng cây quyết định và phản hồi liên quan
10 trang 173 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 trang 93 0 0 -
Bài giảng Khai phá web - Bài 2: Học máy (Phần 1)
53 trang 50 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 trang 42 0 0 -
Một tiếp cận nhanh và hiệu quả cho nhận dạng số hiệu container
7 trang 34 0 0 -
7 trang 34 0 0
-
Phân tích cấu trúc dữ liệu: Phần 2
226 trang 32 0 0 -
4 trang 31 0 0
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 8: Cây quyết định và rừng ngẫu nhiên
43 trang 29 0 0 -
Bài giảng Nhập môn trí tuệ nhân tạo: Chương 7 - TS. Ngô Hữu Phúc
91 trang 27 0 0 -
Kiến thức cơ bản về cấu trúc dữ liệu và giải thuật: Phần 1
144 trang 27 0 0 -
Nhận dạng một số nhãn hàng trên kệ hàng siêu thị sử dụng kỹ thuật học sâu
27 trang 27 0 0 -
Bài giảng Chương 4: Phân loại dữ liệu
56 trang 26 0 0 -
Một số tính chất của phủ suy dẫn từ họ phủ tập thô
11 trang 25 0 0 -
So sánh thuật toán tăng cường độ dốc (XGBoost) với một số thuật toán học máy khác
7 trang 23 0 0 -
Bài giảng Trí tuệ nhân tạo: Bài 12 - Trương Xuân Nam
44 trang 23 0 0 -
Cấu trúc dữ liệu và giải thuật: Phần 1
144 trang 22 0 0 -
Định giá đất hàng loạt ứng dụng mô hình cây quyết định: Trường hợp nghiên cứu thành phố Vũng Tàu
11 trang 22 0 0 -
Bài giảng Khai phá dữ liệu - Chương 4: Phân lớp và dự báo
47 trang 22 0 0