Thuật toán khai thác tập phổ biến từ cơ sở dữ liệu số lượng có sự phân cấp các mục

Số trang: 8 Loại file: pdf Dung lượng: 472.25 KB Lượt xem: 15 Lượt tải: 0

10.10.2023

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Thuật toán khai thác tập phổ biến từ cơ sở dữ liệu số lượng có sự phân cấp các mục đề xuất bài toán khai thác tập phổ biến trên CSDL số lượng có sự phân cấp item, đồng thời đề xuất thuật toán để giải quyết bài toán này và áp dụng kĩ thuật diffset hai cấu trúc MByS, MBiS trong lưu trữ tidset của các itemset.
Nội dung trích xuất từ tài liệu:
Thuật toán khai thác tập phổ biến từ cơ sở dữ liệu số lượng có sự phân cấp các mục Kỷ yếu Hội nghị Quốc gia lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 DOI: 10.15625/vap.2015.000208 THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Nguyễn Duy Hàm1, Võ Đình Bảy2, Nguyễn Thị Hồng Minh3 1 Bộ môn Toán Tin học, Trường Đại học An ninh Nhân dân 2 Khoa Công nghệ Thông tin, Trường Đai học Công nghệ TP.HCM 3 Khoa Sau đại học, Đại học Quốc gia Hà Nội duyham@gmail.com, bayvodinh@gmail.com, minhnth@gmail.com TÓM TẮT: Khai thác tập phổ biến để tìm mối quan hệ giữa các item (mục) trong cơ sở dữ liệu (CSDL) là bài toán quan trọng trong khai thác dữ liệu. Bên cạnh khai thác tập phổ biến từ các CSDL truyền thống, khai thác tập phổ biến trên CSDL trọng số và CSDL số lượng đã nhận được nhiều quan tâm từ các nhóm nghiên cứu. Tuy nhiên, các nghiên cứu này mới chỉ khai thác trên các CSDL mà các mục không có mối quan hệ nào với nhau. Trong bài báo này, chúng tôi đề xuất bài toán khai thác tập phổ biến trên CSDL số lượng có sự phân cấp item, đồng thời đề xuất thuật toán để giải quyết bài toán này và áp dụng kĩ thuật diffset hai cấu trúc MByS, MBiS trong lưu trữ tidset của các itemset. Kết quả thực nghiệm cho thấy thuật toán sử dụng cấu trúc MBiS hiệu quả nhất về mặt thời gian xử lý. Từ khóa: CSDL số lượng, CSDL có sự phân cấp mục, tập phổ biến, itemsets. I. GIỚI THIỆU Khai thác tập phổ biến là bài toán quan trọng trong khai thác dữ liệu nói chung. Từ tập phổ biến người ta có thể khai thác luật kết hợp, gom cụm hay phân lớp, .v.v. Do đó, bài toán khai thác tập phổ biến được nhiều nhóm nghiên cứu trên thế giới quan tâm [1-11]. Khai thác tập phổ biến trọng số hữu ich FWUI (frequent weighted utility itemsets) được đề xuất lần đầu tiên năm 2008 [4]. Sau đó Vo và các đồng sự [12] đề xuất sử dụng hướng tiếp cận khai thác theo CSDL chiều dọc với chỉ một lần đọc dữ liệu. Hàm và các đồng sự [9, 10] đề xuất các cấu trúc mới trong khai thác tập phổ biến trên CSDL số lượng, các đề xuất này đã đạt được một số kết quả nhất định. Tuy nhiên các nghiên cứu này chưa đặt các mục vào trong các mối quan hệ khách quan của nó. Bài toán khai thác luật kết hợp dựa trên khai thác tập phổ biến trên CSDL có sự phân cấp các mục được đề xuất lần đầu tiên năm 1995 bởi Han và các đồng sự trong [5], các tác giả đưa ra định nghĩa về CSDL có nhiều cấp của các item, và đề xuất bài toán khai thác luật kết hợp trên CSDL dạng này với chỉ một ngưỡng hỗ trợ. Trong [6,7] đưa ra các đề xuất về khai thác tập phổ biến với nhiều ngưỡng hỗ trợ khác nhau. Vo và các đồng sự trong [8] đề xuất hướng tiếp cận CSDL chiều dọc với chỉ một lần đọc CSDL cho hiệu quả tốt về thời gian xử lý. Tuy nhiên, cho đến hiện nay, các nghiên cứu trên CSDL có sự phân cấp các mục mới chỉ đề cập đến CSDL nhị phân, chưa quan tâm đến CSDL số lượng với các mục có trọng số, và trên mỗi giao dịch thể hiện số lượng của các mục. Trong bài báo này, chúng tôi đề xuất bài toán “Khai thác tập phổ biến trên CSDL số lượng có sự phân cấp các mục”, đồng thời đưa ra thuật toán để giải quyết bài toán này. Đây là bài toán chưa được đặt ra trước đây. Phần còn lại của bài báo được cấu trúc như sau: Phần II, trình bày các nghiên cứu liên quan. Một số định nghĩa được trình bày trong phần III. Phần IV đưa ra thuật toán khai thác hiệu quả trên CSDL số lượng có sự phân cấp các mục. Kết quả thực nghiệm được trình bày trong phần V. Phần VI trình bày kết luận và hướng phát triển. II. KIẾN THỨC CƠ BẢN VÀ CÁC NGHIÊN CỨU LIÊN QUAN A. Khai thác tập phổ biến trên CSDL số lượng Khan và các đồng sự [4] đưa ra bài toán khai thác tập phổ biến trọng số hữu ích FWUI (frequent weight utility itemsets) từ CSDL số lượng. Nhóm tác giả đề xuất độ đo trọng số hữu ích của giao dịch twu (transaction weight utility) và độ hỗ trợ trọng số hữu ích wus (weight utility support). Đồng thời đưa ra một “framework” để khai thác FWUI dựa trên các độ đo đã đề xuất. Theo đó, twu của mỗi giao dịch tk được xác định theo công thức sau: twu(tk) = ∑ ∈ Trong đó, là số lượng của mục ij trong giao dịch tk, wj là trọng số của mục ij, và phần tử có mặt trong giao dịch tk. (1) là tổng số lượng các Tiếp theo, wus của mỗi itemset X được tính theo công thức: wus(X) = ∑ ∈ ∑ ∈ (2) Vo và các đồng sự [12] đề xuất hướng tiếp cận theo thuật toán Eclat [2] với chỉ một lần đọc dữ liệu, với việc đề xuất cấu trúc MWIT-tree là một mở rộng của IT-tree [2]. Mỗi nút trên WIT-tree gồm 3 thành phần tidset(X), X, wus(X) 680 THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC Hàm và các đồng sự [9] đề xuất cấu trúc MByS là một cải tiến của cấu trúc DBV[3], MByS bao gồm các đoạn byte khác 0 liên tiếp trong biểu diễn tidset của các itemset dưới dạng bit vecto. Đồng thời nhóm đề xuất cấu trúc MByS-tree trong khai thác FWUI với chỉ một lần đọc dữ liệu. Hàm và các đồng sự [10] đề xuất cấu trúc MBiS là một cải tiến khác của DBV[3], MBiS bao gồm các đoạn bit 1 liên tiếp trong biểu diễn tidset của các itemset dưới dạng bit vecto. Đồng thời, nhóm tác giả đề xuất cấu trúc MBiS-tree trong khai thác FWUI với chỉ 1 lần đọc dữ liệu. B. Khai thác tập phổ biến trên CSDL có sự phân cấp các mục Han và các đồng sự [5] đề xuất bài toán khai thác tâp phổ biến trên CSDL có sự phân cấp các mục và sử dụng hướng tiếp cận Apriori. Đồng thời đề xuất sử dụng chung một ngưỡng hỗ trợ duy nhất cho tất cả các mục như khai thác trên CSDL truyền thống. Cách tiếp cận này không hiệu quả do tốn thời gian đọc CSDL. Liu và các đồng sự [6] đề xuất một tiếp cận khác với việc khai thác tập phổ biến với nhiều ngưỡng hỗ trợ khác nhau. Cách tiếp cận này khá thực tế, bởi CSDL có sự phân cấp thì các mục cha ở mỗi mức có một giá trị ảnh hưởng khác nhau. Tseng và các đồng sự [7] đề xuất hướng tiếp cận sử dụng FP-tree với thuật toán FP-Growth trong khai thác tập phổ biến với nhiều ngưỡng hỗ trợ. Cách tiếp cận này khá tốt với chỉ hai lần đọc CSDL, tuy nhiê ...