DFS-Apriori: Khai thác nhanh tập phổ biến áp dụng chiến lược tìm kiếm theo chiều sâu
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
DFS-Apriori: Khai thác nhanh tập phổ biến áp dụng chiến lược tìm kiếm theo chiều sâu Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022) DFS-Apriori: Khai Thác Nhanh Tập Phổ Biến Áp Dụng Chiến Lƣợc Tìm Kiếm Theo Chiều Sâu Phan Thành Huấn1,2,4, Đặng Thanh Minh1,4, Nguyễn Nhƣ Đồng3 1 Khoa Toán – Tin học, Trƣờng Đại học Khoa học Tự nhiên, ĐHQG.HCM-VN 2 Bộ môn Tin học, Trƣờng Đại học Khoa học Xã hội và Nhân văn, ĐHQG.HCM-VN 3 Trung tâm Giáo dục Nghề nghiệp – Giáo dục Thƣờng xuyên, Tp. Thủ Đức 4 Đại học Quốc gia Tp. Hồ Chí Minh Email: huanphan@hcmussh.edu.vn; minhthanhdang1982@gmail.com; dongnhunguyen74@gmail.com Tóm tắt - Khai thác tập phổ biến là giai đoạn cốt lõi trong khai đƣợc nhiều nhà nghiên cứu cải tiến và áp dụng khai phá trên thác luật kết hợp từ dữ liệu giao dịch nhị phân. Agrawal cùng nhiều loại dữ liệu khác nhau: chuỗi [3], định lượng [4], đồ thị đồng sự đề xuất thuật toán Apriori . Đây là thuật toán cơ sở cho [5], thuộc tính có trọng số [6],… nhiều cải tiến, cũng như được sử dụng khai thác trên nhiều loại Qua khảo sát các nghiên cứu liên quan đến cải tiến thuật dữ liệu khác nhau. Ngoài ra, những năm gần đây thuật toán toán Apriori khai thác tập phổ biến trên DLGD nhị phân, gồm Apriori là thuật toán được nhiều nhà nghiên cứu lựa chọn để mở hai hướng tiếp cận chính: rộng cho khai thác tập phổ biến từ dữ liệu lớn trên môi trường Định dạng dữ liệu theo chiều ngang: Đây là định dạng phân tán. Thuật toán Apriori dựa theo chiến lược tìm kiếm theo theo thuật toán Apriori gốc. Các thuật toán cải tiến Apriori chiều rộng (Breadth First Search – BFS) – điều này làm hạn chế trong thực hiện tính toán phân tán. Trong bài viết này, nhóm tác thƣờng sử dụng chiến lƣợc rút gọn giao dịch và rút gọn giả khảo sát một số thuật toán Apriori cải tiến và trình bày cách không gian sinh các ứng viên tiềm năng k-itemset. Tuy tiếp cận mới cải tiến hiệu quả thuật toán Apriori dựa theo chiến nhiên, vấn đề tính độ phổ biến của k-itemset vẫn chƣa thật lược tìm kiếm theo chiều sâu (Depth First Search – DFS) – dễ sự hiệu quả. dàng mở rộng trên môi trường tính toán phân tán. Đồng thời, Định dạng dữ liệu theo chiều dọc: Năm 1995, Savasere thuật toán đề xuất kỹ thuật rút gọn các ứng viên, tính nhanh độ [7] cùng đồng sự đề xuất thuật toán Parition sử dụng định phổ biến của ứng viên và biểu diễn dữ liệu dạng bit - giúp đẩy dạng dữ liệu theo chiều dọc. Định dạng này, giúp tính độ nhanh tốc độ tính toán và giảm thiểu truy xuất dữ liệu. Thuật phổ biến dễ dàng và hạn chế đối với DLGD có mật độ cao. toán cải tiến được gọi là DFS-Apriori. Nhóm tác giả tiến hành Bảng 1. Một số công trình cải tiến thuật toán Apriori [7-16] thực nghiệm thuật toán trên bộ dữ liệu thực của UCI và dữ liệu Tác giả Định dạng Thuật toán Năm giả lập của trung tâm nghiên cứu IBM Almaden, cho thấy thuật đứng đầu dữ liệu toán cải tiến hiệu quả. A. Savasere Partition dọc 1995 J. Lei HDO-Apriori ngang 2006 Từ khóa – luật kết hợp, tập phổ biến, thuật toán DFS-Apriori. W.Yu RATT ngang 2008 Y. Guo IApriori dọc 2010 I. GIỚI THIỆU J. Singh SOT-Apriori ngang 2013 Năm 1993, Agrawal cùng đồng sự đề xuất mô hình đầu tiên H. Singh MBAT ngang 2013 của bài toán khai thác luật kết hợp – khai thác luật kết hợp trên M. A. Maolegi M-Apriori dọc 2014 dữ liệu giao dịch (DLGD) nhị phân [1]. Khai thác luật kết hợp V.Vijayalakshmi CBTRA ngang 2015 là khai phá các luật kết hợp có độ phổ biến (support) cũng nhƣ S. Aditya LOT-Apriori ngang 2017 độ tin cậy (confidence) lớn hơn hoặc bằng một ngƣỡng phổ L. Xu MD-Apriori dọc 2019 biến tối thiểu (minsup) và ngƣỡng tin cậy tối thiểu (minconf). Bảng 1, liệt kê một số thuật toán cải tiến Apriori. Các đặc Bài toán đƣợc chia thành hai pha: trƣng của thuật toán cải tiến: i) rút gọn giao dịch dựa vào số Pha 1: Tìm tất cả các kết hợp thỏa ngƣỡng phổ biến tối lƣợng items trên mỗi giao dịch – SOT-Aprioir [11], CBTRA thiểu minsup (sinh tập phổ biến FI - Frequent Itemset); [14], LOT-Apriori [15] ; ii) rút gọn tập ứng viên tiềm năng – Pha 2: Sinh luật kết hợp lần lƣợt từ các kết hợp thỏa Partition [7], HDO-Apriori [8], Iapriori [11], M-Ap ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu Hội nghị Quốc gia lần thứ 25 Hội nghị Điện tử - Truyền thông - Công nghệ Thông tin Chiến lược tìm kiếm theo chiều sâu Khai thác tập phổ biến Luật kết hợp Thuật toán DFS-AprioriTài liệu cùng danh mục:
-
2 trang 433 6 0
-
Giải bài toán người du lịch qua phép dẫn về bài toán chu trình Hamilton
7 trang 380 0 0 -
Đề thi kết thúc môn học Nhập môn Toán rời rạc năm 2020-2021 có đáp án - Trường ĐH Đồng Tháp
3 trang 345 14 0 -
Giáo trình Giải tích Toán học: Tập 1 (Phần 1) - GS. Vũ Tuấn
107 trang 336 0 0 -
Giáo trình Xác suất thống kê: Phần 1 - Trường Đại học Nông Lâm
70 trang 323 5 0 -
Giáo trình Toán kinh tế: Phần 1 - Trường ĐH Kinh doanh và Công nghệ Hà Nội (năm 2022)
59 trang 295 0 0 -
5 trang 265 0 0
-
Cách tính nhanh giá trị riêng của ma trận vuông cấp 2 và cấp 3
4 trang 252 0 0 -
Đề xuất mô hình quản trị tuân thủ quy trình dựa trên nền tảng điện toán đám mây
8 trang 245 0 0 -
Đề thi giữa kỳ Toán cao cấp C1 (trình độ đại học): Mã đề thi 134
4 trang 238 3 0
Tài liệu mới:
-
Văn hóa doanh nhân: Từ đời sống thực tế đến khái niệm học thuật
5 trang 0 0 0 -
3 trang 0 0 0
-
Sáng kiến kinh nghiệm THCS: Một vài giải pháp quan trọng nhằm nâng cao chất lượng phục vụ bạn đọc
20 trang 1 0 0 -
Đề thi học kì 1 môn KHTN lớp 6 năm 2024-2025 có đáp án - Trường THCS Nguyễn Trãi, Núi Thành
14 trang 1 0 0 -
52 trang 0 0 0
-
7 trang 0 0 0
-
11 trang 0 0 0
-
54 trang 0 0 0
-
Đề thi học kì 2 môn GDCD lớp 6 năm 2023-2024 - Trường TH&THCS Đại Sơn, Đại Lộc
2 trang 0 0 0 -
7 trang 0 0 0