Một số cải tiến thuật toán Index-BitTableFI cho khai thác tập tin phổ biến

Số trang: 9 Loại file: pdf Dung lượng: 184.85 KB Lượt xem: 16 Lượt tải: 0

Thư viện của tui

Phí lưu trữ: 5,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết trình bày một số cải tiến của thuật toán Index-BitTbaleFI bao gồm: 1) Chỉ tổ chức dữ liệu BitTable theo chiều dọc để tiết kiệm bộ nhớ; 2) Kiểm tra subsume đơn giản bằng cách xét xem g(item) có là con của g(j) hay không? Công việc này không tốn nhiều thời gian; 3) Cải tiến phương pháp duyệt theo chiều sâu nhằm hạn chế việc tính phần giao giữa các tid.
Nội dung trích xuất từ tài liệu:
Một số cải tiến thuật toán Index-BitTableFI cho khai thác tập tin phổ biếnCác công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013Một số cải tiến thuật toán Index-BitTableFI cho khai thác tập tin phổ biến Improvements of Index-BittableFI Algorithm for Mining Frequent Itemsets Lê Hoài Bắc, Nguyễn Thị Bảo Chi, Võ Đình Bảy Abstract: Index-BitTableFI is an algorithm based những chi phí bất thường như chi phí tính toán lớn,on BitTable which is very effective in recent (Song & việc lưu trữ các ứng viên đòi hỏi không gian bộ nhớYang, 2008). It finds out itemsets based on BitTable in lớn và tính toán độ hỗ trợ của các ứng viên này rấtvertical and horizontal, and also sets up sorting array phức tạp. Để giải quyết vấn đề này, thuật toán Index-and equivalent computing method to fast identify BitTableFI được đề xuất, cấu trúc BitTable được sửitemsets which occur concurrently with representative dụng theo cả chiều ngang và chiều dọc, sự tìm kiếmitems. Although Index-BitTableFI algorithm reduces kép được thực hiện và không gian tìm kiếm được giảmconsiderablely cost of finding out candidate itemsets đáng kể.and computing the support, but if number of Tuy nhiên, ngoài việc nén dữ liệu BitTable theotransactions and items is large then intersection chiều dọc ta cần nén dữ liệu theo chiều ngang để vậncomputing of vector-bits in BitTable still costs time. dụng phương pháp tính toán tương đương, trong khi sốBesides, finding out frequent itemsets in depth has not lượng item thường nhỏ hơn rất nhiều lần so với sốused property of equivalent computing method yet. To lượng giao tác. Mặt khác thuật toán chưa vận dụngresolve this problem, some improvements for triệt để tính chất của phương pháp tính toán tươngimproving more performance of Index-BitTableFI đương, vì thế trong bài báo này, chúng tôi đề xuất mộtalgorithm are proposed in this research. số cải tiến bao gồm: không cần lưu trữ dữ liệu theo chiều ngang, việc tính toán tương đương dựa trên dữI. GIỚI THIỆU liệu dọc sẵn có, đồng thời vận dụng triệt để phương Từ khi bài toán khai thác luật kết hợp được đề xuất pháp này khi tìm kiếm các itemset phổ biến theo chiềuvào năm 1993 đến nay, đã có nhiều thuật toán được sâu.phát triển để khai thác tập phổ biến như: Apriori [2], II. TẬP PHỔ BIẾN VÀ THUẬT TOÁN INDEX-DCP[5], CBAR[7], FP-growth [4], Eclat [8], v.v… . BITTABLEFIGần đây, các tiếp cận dựa trên định dạng dữ liệu dọcđược đề xuất, trong số này phải kể đến hai thuật toán II.1. Một số định nghĩalà BitTableFI [3] và Index-BitTableFI [6]. Với thuật Cho cơ sở dữ liệu (CSDL) D gồm tập các item là Itoán BitTableFI, cấu trúc BitTable được dùng theo cả = {i1, i2, …, in} và tập các giao tác T = {t1, t2, …, tm}chiều ngang và chiều dọc để nén dữ liệu. Việc phát trong đó mỗi giao tác t chứa một tập các item, nghĩa làsinh các tập ứng viên trở nên nhanh hơn và việc tính t = {ik1, ik2,...., ikj}. Trong đó ikj ∈ I (1≤ kj ≤ n).toán độ hỗ trợ tương ứng cũng thực thi hiệu quả hơn Định nghĩa 1: độ hỗ trợ của một itemset X, kí hiệuso với thuật toán Apriori [1]. Tuy nhiên trong tình sup(X), chính là số các giao tác trong D có chứa X.huống với số lượng lớn tập phổ biến, tập nhiều phần tửhoặc ngưỡng hỗ trợ nhỏ, thuật toán này phải chịu - 30 -Các công trình nghiên cứu, phát triển và ứng dụng CNTT-TT Tập V-1, Số 9 (29), tháng 6/2013Định nghĩa 2: Cho X là một itemset, X được gọi là Bảng 2. Minh họa dữ liệu được nén vàotập phổ biến nếu sup(X) ≥ minsup, trong đó minsup là bảng BitTablengưỡng độ hỗ trợ tối thiểu do người dùng xác định. Tid A B C D E F G 1 1 1 1 0 1 1 0 Nhiệm vụ chính của quá trình khai thác tập phổ 2 1 0 1 0 0 0 1biến là tìm tất cả các itemset trong CSDL có độ hỗ trợ 3 0 0 0 0 1 0 0lớn hơn hoặc bằng minsup. 4 1 0 1 0 1 0 1 5 1 0 1 0 1 0 1Bổ đề [1]: Mọi tập con của một tập phổ biến đều là tập 6 0 0 0 0 1 0 0phổ biến, mọi tập cha của một tập không phổ biến ...