Chiến lược hiệu quả ẩn các tập mục hữu ích cao nhạy cảm trên cơ sở dữ liệu giao tác
Số trang: 11
Loại file: pdf
Dung lượng: 455.26 KB
Lượt xem: 17
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết này đề xuất chiến lược sửa đổi một cách hiệu quả để ẩn các tập mục độ hữu ích cao nhạy cảm làm giảm thiểu các hiệu ứng phụ trên các thông tin không nhạy cảm và làm tăng độ tương tự về cơ sở dữ liệu.
Nội dung trích xuất từ tài liệu:
Chiến lược hiệu quả ẩn các tập mục hữu ích cao nhạy cảm trên cơ sở dữ liệu giao tác Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0084 CHIẾN LƯỢC HIỆU QUẢ ẨN CÁC TẬP MỤC HỮU ÍCH CAO NHẠY CẢM TRÊN CƠ SỞ DỮ LIỆU GIAO TÁC Nguyễn Khắc Chiến1, Nguyễn Trọng Nghĩa2 1 Khoa Ngoại ngữ - Tin học, Trường Đại học Cảnh sát nhân dân 2 Trường Đại học Thủ Dầu Một nkchienster@gmail.com, trongnghia939@gmail.com TÓM TẮT: Bài toán ẩn các tập mục độ hữu ích cao nhạy cảm đang là chủ đề được nhiều nhà nghiên cứu quan tâm. Mục tiêu của bài toán là bảo vệ các thông tin nhạy cảm trong các cơ sở dữ liệu giao tác, sao cho chúng không thể khám phá được bằng các phương pháp khai thác tập mục độ hữu ích cao với cùng một ngưỡng độ hữu ích tối thiểu do người dùng đưa vào. Bên cạnh đó, các phương pháp ẩn tập mục độ hữu ích cao nhạy cảm cố gắng giảm thiểu các hiệu ứng phụ trên các thông tin không nhạy cảm và tính toàn vẹn của cơ sở dữ liệu ban đầu. Một số phép đo hiệu ứng phụ thường được sử dụng như chi phí ẩn nhầm các tập mục không nhạy cảm (MC), độ tương tự về độ hữu ích của cơ sở dữ liệu trước và sau quá trình ẩn (DUS), độ tương tự về độ hữu ích của các tập mục độ hữu ích cao trước và sau quá trình ẩn (IUS),... Hiện đã có một số phương pháp ẩn hiệu quả để giải quyết vấn đề này, tuy nhiên những phương pháp này vẫn còn tạo ra các hiệu ứng phụ không mong muốn, như ẩn nhầm nhiều tập mục không nhạy cảm, các độ tương tự về độ hữu ích của cơ sở dữ liệu thấp... Bài báo này đề xuất chiến lược sửa đổi một cách hiệu quả để ẩn các tập mục độ hữu ích cao nhạy cảm làm giảm thiểu các hiệu ứng phụ trên các thông tin không nhạy cảm và làm tăng độ tương tự về cơ sở dữ liệu. Kết quả thực nghiệm cho thấy thuật toán đề xuất hiệu quả hơn các thuật toán hiện có về mặt các hiệu ứng phụ, như ẩn nhầm các thông tin không nhạy cảm ít hơn, đảm bảo chất lượng của cơ sở dữ liệu sau quá trình ẩn. Từ khóa: High utility itemset, high utility mining, hiding high utility itemset, privacy-preserving utility mining. I. GIỚI THIỆU Khai phá dữ liệu được sử dụng để khám phá tri thức và thông tin ra quyết định từ dữ liệu khổng lồ [3]. Trong các dự án hợp tác, dữ liệu được chia sẻ giữa các công ty khác nhau để cùng có lợi. Tuy nhiên, điều này mang lại nguy cơ để lộ thông tin nhạy cảm chứa trong cơ sở dữ liệu (CSDL) [13]. Các thông tin nhạy cảm có thể được biểu diễn dưới dạng tập hợp các mẫu phổ biến và các mẫu có độ hữu ích cao có tính bảo mật. Do đó, người sở hữu dữ liệu muốn che giấu thông tin nhạy cảm này đi trước khi chia sẻ CSDL này với đối tác. Để giải quyết bài toán này, khai thác dữ liệu bảo vệ tính riêng tư đã được đề xuất và trở thành một hướng nghiên cứu quan trọng [1]. Các phương pháp khai thác dữ liệu bảo vệ tính riêng tư đã được áp dụng trong nhiều lĩnh vực khác nhau, chẳng hạn như trong điện toán đám mây, sức khỏe điện tử, mạng cảm biến không dây và các dịch vụ định vị [12]. Phương pháp để che giấu các thông tin nhạy cảm là sửa đổi CSDL ban đầu thành một CSDL đã sửa đổi bằng cách sửa đổi một số mục trong CSDL ban đầu. Atallah và cộng sự [2] đã chứng minh bài toán che giấu các thông tin nhạy cảm trong CSDL tối ưu là bài toán NP-khó và nhóm tác giả đã đề xuất một thuật toán sửa đổi dữ liệu dựa trên chiến lược heuristic. Sau đó, đã có nhiều công trình nghiên cứu về lĩnh vực này. Tuy nhiên, hiện có rất ít công trình nghiên cứu về phương pháp ẩn thông tin nhạy cảm để bảo vệ các tập mục độ hữu ích cao nhạy cảm trong CSDL giao tác dựa trên khái niệm về độ hữu ích. Yeh và cộng sự (2010) [17] lần đầu tiên đưa ra hai thuật toán heuristic HHUIF và MSICF để ẩn các tập mục có độ hữu ích cao nhạy cảm. Hai thuật toán này mới chỉ xem xét đến các mục có độ hữu ích cao để sửa đổi, chưa xem xét việc ảnh hưởng đến các hiệu ứng phụ như ẩn nhầm các tập mục không nhạy cảm hay độ tương tự về dữ liệu trước và sau quá trình sửa đổi. Sau đó cũng có một số công trình khác đã được công bố, như [16], [14], [8], [10], [5] và [11] nhằm cải tiến các thuật toán trong [17] và quan tâm cải thiện các hiệu ứng phụ như giảm thiểu chi phí ẩn nhầm các thông tin không nhạy cảm và tăng độ tương tự của dữ liệu trước và sau quá trình ẩn các tập mục nhạy cảm. Các hiệu ứng phụ được tạo ra khi thực hiện sửa đổi một số mục trong cơ sở dữ liệu giao tác nhằm làm giảm độ hữu ích của các tập mục nhạy cảm xuống dưới ngưỡng độ hữu ích tối thiểu do người dùng đưa vào. Trong công trình [11] đã đề xuất ba thuật toán heuristic SMAU, SMIU và SMSE nhằm để ẩn các tập mục độ hữu ích cao nhạy cảm đồng thời làm giảm thiểu các hiệu ứng phụ tạo ra trong quá trình ẩn. Tuy nhiên, các thuật toán trong [11] vẫn tạo ra các hiệu ứng phụ không mong muốn. Bài báo này đề xuất phương pháp cải tiến các thuật toán SMAU và SMIU trong [11] nhằm giảm thiểu các hiệu ứng phụ, như giảm số tập mục không nhạy cảm bị ẩn nhầm và tăng độ tương tự của cơ sở dữ liệu trước và sau quá trình ẩn. Thuật toán đề xuất sẽ tập trung vào việc lựa chọn các tập mục nhạy cảm nào được ẩn trước, đưa ra chiến lược chọn lựa giao tác sửa đổi và mục cần phải sửa đổi một cách hiệu quả để giảm thiểu các hiệu ứng phụ không mong muốn và bảo đảm chất lượng CSDL cao nhất có thể. Kết quả thực nghiệm đã cho thấy thuật toán đề xuất hiệu quả hơn các thuật toán trong [11] về chi phí ẩn nhầm các thông tin không nhạy cảm và tính ổn định của CSDL sau khi sửa đổi. Phần còn lại của bài báo được tổ chức như sau. Phần II đánh giá các công trình liên quan. Trong Phần III các khái niệm cơ bản và phát biểu bài toán ẩn tập mục độ hữu ích cao nhạy cảm. Phần IV đề xuất thuật toán ẩn tập mục độ h ...
Nội dung trích xuất từ tài liệu:
Chiến lược hiệu quả ẩn các tập mục hữu ích cao nhạy cảm trên cơ sở dữ liệu giao tác Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0084 CHIẾN LƯỢC HIỆU QUẢ ẨN CÁC TẬP MỤC HỮU ÍCH CAO NHẠY CẢM TRÊN CƠ SỞ DỮ LIỆU GIAO TÁC Nguyễn Khắc Chiến1, Nguyễn Trọng Nghĩa2 1 Khoa Ngoại ngữ - Tin học, Trường Đại học Cảnh sát nhân dân 2 Trường Đại học Thủ Dầu Một nkchienster@gmail.com, trongnghia939@gmail.com TÓM TẮT: Bài toán ẩn các tập mục độ hữu ích cao nhạy cảm đang là chủ đề được nhiều nhà nghiên cứu quan tâm. Mục tiêu của bài toán là bảo vệ các thông tin nhạy cảm trong các cơ sở dữ liệu giao tác, sao cho chúng không thể khám phá được bằng các phương pháp khai thác tập mục độ hữu ích cao với cùng một ngưỡng độ hữu ích tối thiểu do người dùng đưa vào. Bên cạnh đó, các phương pháp ẩn tập mục độ hữu ích cao nhạy cảm cố gắng giảm thiểu các hiệu ứng phụ trên các thông tin không nhạy cảm và tính toàn vẹn của cơ sở dữ liệu ban đầu. Một số phép đo hiệu ứng phụ thường được sử dụng như chi phí ẩn nhầm các tập mục không nhạy cảm (MC), độ tương tự về độ hữu ích của cơ sở dữ liệu trước và sau quá trình ẩn (DUS), độ tương tự về độ hữu ích của các tập mục độ hữu ích cao trước và sau quá trình ẩn (IUS),... Hiện đã có một số phương pháp ẩn hiệu quả để giải quyết vấn đề này, tuy nhiên những phương pháp này vẫn còn tạo ra các hiệu ứng phụ không mong muốn, như ẩn nhầm nhiều tập mục không nhạy cảm, các độ tương tự về độ hữu ích của cơ sở dữ liệu thấp... Bài báo này đề xuất chiến lược sửa đổi một cách hiệu quả để ẩn các tập mục độ hữu ích cao nhạy cảm làm giảm thiểu các hiệu ứng phụ trên các thông tin không nhạy cảm và làm tăng độ tương tự về cơ sở dữ liệu. Kết quả thực nghiệm cho thấy thuật toán đề xuất hiệu quả hơn các thuật toán hiện có về mặt các hiệu ứng phụ, như ẩn nhầm các thông tin không nhạy cảm ít hơn, đảm bảo chất lượng của cơ sở dữ liệu sau quá trình ẩn. Từ khóa: High utility itemset, high utility mining, hiding high utility itemset, privacy-preserving utility mining. I. GIỚI THIỆU Khai phá dữ liệu được sử dụng để khám phá tri thức và thông tin ra quyết định từ dữ liệu khổng lồ [3]. Trong các dự án hợp tác, dữ liệu được chia sẻ giữa các công ty khác nhau để cùng có lợi. Tuy nhiên, điều này mang lại nguy cơ để lộ thông tin nhạy cảm chứa trong cơ sở dữ liệu (CSDL) [13]. Các thông tin nhạy cảm có thể được biểu diễn dưới dạng tập hợp các mẫu phổ biến và các mẫu có độ hữu ích cao có tính bảo mật. Do đó, người sở hữu dữ liệu muốn che giấu thông tin nhạy cảm này đi trước khi chia sẻ CSDL này với đối tác. Để giải quyết bài toán này, khai thác dữ liệu bảo vệ tính riêng tư đã được đề xuất và trở thành một hướng nghiên cứu quan trọng [1]. Các phương pháp khai thác dữ liệu bảo vệ tính riêng tư đã được áp dụng trong nhiều lĩnh vực khác nhau, chẳng hạn như trong điện toán đám mây, sức khỏe điện tử, mạng cảm biến không dây và các dịch vụ định vị [12]. Phương pháp để che giấu các thông tin nhạy cảm là sửa đổi CSDL ban đầu thành một CSDL đã sửa đổi bằng cách sửa đổi một số mục trong CSDL ban đầu. Atallah và cộng sự [2] đã chứng minh bài toán che giấu các thông tin nhạy cảm trong CSDL tối ưu là bài toán NP-khó và nhóm tác giả đã đề xuất một thuật toán sửa đổi dữ liệu dựa trên chiến lược heuristic. Sau đó, đã có nhiều công trình nghiên cứu về lĩnh vực này. Tuy nhiên, hiện có rất ít công trình nghiên cứu về phương pháp ẩn thông tin nhạy cảm để bảo vệ các tập mục độ hữu ích cao nhạy cảm trong CSDL giao tác dựa trên khái niệm về độ hữu ích. Yeh và cộng sự (2010) [17] lần đầu tiên đưa ra hai thuật toán heuristic HHUIF và MSICF để ẩn các tập mục có độ hữu ích cao nhạy cảm. Hai thuật toán này mới chỉ xem xét đến các mục có độ hữu ích cao để sửa đổi, chưa xem xét việc ảnh hưởng đến các hiệu ứng phụ như ẩn nhầm các tập mục không nhạy cảm hay độ tương tự về dữ liệu trước và sau quá trình sửa đổi. Sau đó cũng có một số công trình khác đã được công bố, như [16], [14], [8], [10], [5] và [11] nhằm cải tiến các thuật toán trong [17] và quan tâm cải thiện các hiệu ứng phụ như giảm thiểu chi phí ẩn nhầm các thông tin không nhạy cảm và tăng độ tương tự của dữ liệu trước và sau quá trình ẩn các tập mục nhạy cảm. Các hiệu ứng phụ được tạo ra khi thực hiện sửa đổi một số mục trong cơ sở dữ liệu giao tác nhằm làm giảm độ hữu ích của các tập mục nhạy cảm xuống dưới ngưỡng độ hữu ích tối thiểu do người dùng đưa vào. Trong công trình [11] đã đề xuất ba thuật toán heuristic SMAU, SMIU và SMSE nhằm để ẩn các tập mục độ hữu ích cao nhạy cảm đồng thời làm giảm thiểu các hiệu ứng phụ tạo ra trong quá trình ẩn. Tuy nhiên, các thuật toán trong [11] vẫn tạo ra các hiệu ứng phụ không mong muốn. Bài báo này đề xuất phương pháp cải tiến các thuật toán SMAU và SMIU trong [11] nhằm giảm thiểu các hiệu ứng phụ, như giảm số tập mục không nhạy cảm bị ẩn nhầm và tăng độ tương tự của cơ sở dữ liệu trước và sau quá trình ẩn. Thuật toán đề xuất sẽ tập trung vào việc lựa chọn các tập mục nhạy cảm nào được ẩn trước, đưa ra chiến lược chọn lựa giao tác sửa đổi và mục cần phải sửa đổi một cách hiệu quả để giảm thiểu các hiệu ứng phụ không mong muốn và bảo đảm chất lượng CSDL cao nhất có thể. Kết quả thực nghiệm đã cho thấy thuật toán đề xuất hiệu quả hơn các thuật toán trong [11] về chi phí ẩn nhầm các thông tin không nhạy cảm và tính ổn định của CSDL sau khi sửa đổi. Phần còn lại của bài báo được tổ chức như sau. Phần II đánh giá các công trình liên quan. Trong Phần III các khái niệm cơ bản và phát biểu bài toán ẩn tập mục độ hữu ích cao nhạy cảm. Phần IV đề xuất thuật toán ẩn tập mục độ h ...
Tìm kiếm theo từ khóa liên quan:
Bài toán ẩn các tập mục Cơ sở dữ liệu giao tác Khai phá dữ liệu Dịch vụ định vị Mạng cảm biến không dâyTài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 351 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 234 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 225 0 0 -
Chuyên đề tốt nghiệp: Định tuyến trong mạng cảm biến và so sánh bằng mô phỏng
103 trang 182 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 175 0 0 -
Định vị nguồn phát sóng vô tuyến bằng phương pháp DRSSI cải tiến
7 trang 153 0 0 -
8 trang 131 0 0
-
4 trang 116 0 0
-
FHURIM: Thuật toán khai phá tập mục hữu ích cao hiếm
9 trang 89 0 0 -
Ứng dụng giải thuật di truyền cho tối ưu lịch trình mạng cảm biến không dây theo thời gian
7 trang 87 0 0