Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 11 - Nguyễn Nhật Quang
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 11 - Nguyễn Nhật Quang Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021 Nội dung môn học: Giới thiệu về Học máy và Khai phá dữ liệu Tiền xử lý dữ liệu Đánh giá hiệu năng của hệ thống Hồi quy Phân lớp Phân cụm Phát hiện luật kết hợp Bài toán phát hiện luật kết hợp Giải thuật Apriori Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2 Phát hiện các luật kết hợp – Giới thiệu ◼ Bài toán phát hiện luật kết hợp (Association rule mining) ❑ Với một tập các giao dịch (transactions) cho trước, cần tìm các luật dự đoán khả năng xuất hiện trong một giao dịch của các mục (items) này dựa trên việc xuất hiện của các mục khác TID Items Các ví dụ của luật kết hợp: 1 Bread, Milk {Diaper} → {Beer} 2 Bread, Diaper, Beer, Eggs {Milk, Bread} → {Eggs, Coke} 3 Milk, Diaper, Beer, Coke {Beer, Bread} → {Milk} 4 Bread, Milk, Diaper, Beer 5 Bread, Milk, Diaper, Coke Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3 Các định nghĩa cơ bản (1) ◼ Tập mục (Itemset) ❑ Một tập hợp gồm một hoặc nhiều mục ◼ Ví dụ: {Milk, Bread, Diaper} TID Items ❑ Tập mục mức k (k-itemset) 1 Bread, Milk ◼ Một tập mục gồm k mục 2 Bread, Diaper, Beer, Eggs ◼ Tổng số hỗ trợ (Support count) 3 Milk, Diaper, Beer, Coke ❑ Số lần xuất hiện của một tập mục 4 Bread, Milk, Diaper, Beer ❑ Ví dụ: ({Milk, Bread, Diaper}) = 2 5 Bread, Milk, Diaper, Coke ◼ Độ hỗ trợ (Support) s ❑ Tỷ lệ các giao dịch chứa một tập mục ❑ Ví dụ: s({Milk, Bread, Diaper}) = 2/5 ◼ Tập mục thường xuyên (Frequent/large itemset) ❑ Một tập mục mà độ hỗ trợ lớn hơn hoặc bằng một giá trị ngưỡng minsup Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 4 Các định nghĩa cơ bản (2) ◼ Luật kết hợp (Association TID Items rule) 1 Bread, Milk ❑ Một biểu thức kéo theo có 2 Bread, Diaper, Beer, Eggs dạng: X → Y, trong đó X và Y 3 Milk, Diaper, Beer, Coke là các tập mục 4 Bread, Milk, Diaper, Beer ❑ Ví dụ: {Milk, Diaper} → {Beer} 5 Bread, Milk, Diaper, Coke ◼ Các độ đo đánh giá luật ❑ Độ hỗ trợ (Support) s {Milk , Diaper} → Beer ◼ Tỷ lệ các giao dịch chứa cả X và Y đối với tất cả các (Milk , Diaper, Beer ) 2 giao dịch s= = = 0.4 |T| 5 ❑ Độ tin cậy (Confidence) c ◼ Tỷ lệ các giao dịch chứa cả (Milk, Diaper, Beer ) 2 X và Y đối với các giao dịch c= = = 0.67 (Milk , Diaper ) 3 chứa X Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 5 Phát hiện các luật kết hợp ◼ Với một tập các giao dịch T, mục đích của bài toán phát hiện luật kết hợp là tìm ra tất cả các luật có: ❑ độ hỗ trợ ≥ giá trị ngưỡng minsup, và ❑ độ tin cậy ≥ giá trị ngưỡng minconf ◼ Cách tiếp cận vét cạn (Brute-force) ❑ Liệt kê tất cả các luật kết hợp có thể ❑ Tính toán độ hỗ trợ và độ tin cậy cho mỗi luật ❑ Loại bỏ đi các luật có độ hỗ trợ nhỏ hơn minsup hoặc có độ tin cậy nhỏ hơn minconf Phương pháp vét cạn này có chi phí tính toán quá lớn, không áp dụng được trong thực tế! Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 6 Phát hiện luật kết hợp TID Items Các luật kết hợp: 1 Bread, Milk {Milk, Diaper} → {Beer} (s=0.4, c=0.67) 2 Bread, Diaper, Beer, Eggs {Milk, Beer} → {Diaper} (s=0.4, c=1.0) 3 Milk, Diaper, Beer, Coke {Diaper, Beer} → {Milk} (s=0.4, c=0.67) 4 Bread, Milk, Diaper, Beer {Beer} → {Milk, Diaper} (s=0.4, c=0.67) {Diaper} → {Milk, Beer} (s=0.4, c=0.5) 5 Bread, Milk, Diaper, Coke {Milk} → {Diaper, Beer} (s=0.4, c=0.5) ◼ Tất cả các luật trên đều là sự phân tách (thành 2 tập con) của cùng tập mục : {Milk, Diaper, Beer} ◼ Các luật sinh ra từ cùng một tập mục sẽ ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu Nhập môn Học máy và Khai phá dữ liệu Bài toán phát hiện luật kết hợp Giải thuật Apriori Chiến lược sinh tập mục thường xuyên Tập mục thường xuyênGợi ý tài liệu liên quan:
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 trang 91 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 3 - Nguyễn Nhật Quang
19 trang 50 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9 - Nguyễn Nhật Quang
48 trang 47 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 trang 41 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 6 - Nguyễn Nhật Quang
32 trang 39 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 4 - Nguyễn Nhật Quang
15 trang 32 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 trang 30 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 3: Hồi quy tuyến tính (Linear regression)
24 trang 30 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang
24 trang 30 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 8 - Nguyễn Nhật Quang
69 trang 29 0 0