Thông tin tài liệu:
Bảo vệ tính riêng tư trong khai phá tập mục hữu ích trung bình cao (PPAUIM) có mục đích che giấu đi các thông tin riêng tư/nhạy cảm ẩn chứa trong cơ sở dữ liệu (CSDL) sao cho chúng không thể được khai thác bởi các thuật toán khai phá tập mục hữu ích trung bình cao (HAUIM) khi chia sẻ CSDL ra bên ngoài. Bài viết này tập trung nghiên cứu và đề xuất thuật toán ẩn tập mục hữu ích trung bình cao nhạy cảm có tên gọi là EHSHA-UI dựa trên phương pháp tối ưu cục bộ.
Nội dung trích xuất từ tài liệu:
Ẩn tập mục hữu ích trung bình cao nhạy cảm
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021
DOI: 10.15625/vap.2021.0063
ẨN TẬP MỤC HỮU ÍCH TRUNG BÌNH CAO NHẠY CẢM
Huỳnh Triệu Vỹ1, Lê Quốc Hải2, Trương Ngọc Châu3, Lê Quốc Hiếu4
Trường Đại học Phạm Văn Đồng
1
Trường Cao đẳng Sư phạm Quảng Trị
2
3
Trường Đại học Bách khoa Đà Nẵng
4
Trường Đại học Kinh tế Luật, Đại học Quốc gia TP. Hồ Chí Minh
htvy@pdu.edu.vn, hailq79@gmail.com, truongngocchau@yahoo.com, hieulq@uel.edu.vn
TÓM TẮT: Bảo vệ tính riêng tư trong khai phá tập mục hữu ích trung bình cao (PPAUIM) có mục đích che giấu đi các
thông tin riêng tư/nhạy cảm ẩn chứa trong cơ sở dữ liệu (CSDL) sao cho chúng không thể được khai thác bởi các thuật toán khai
phá tập mục hữu ích trung bình cao (HAUIM) khi chia sẻ CSDL ra bên ngoài. Có nhiều phương pháp tiếp cận để giải quyết vấn đề
này, trong đó phương pháp phổ biến nhất hiện nay là sử dụng kỹ thuật sửa đổi một số mục dữ liệu tại một số giao tác của CSDL gốc
để tạo ra một bản sao CSDL sao cho các thông tin riêng tư/nhạy cảm không thể khai thác được từ bản sao CSDL. Việc sửa đổi các
mục dữ liệu có thể gây ra các hiệu ứng phụ đối với bản sao CSDL như: làm mất đi các mục không nhạy cảm hoặc sinh ra các mục
dữ liệu mới, làm thay đổi về cấu trúc của CSDL gốc. Vì vậy, mục tiêu của các thuật toán trong PPAUIM là giấu đi các thông tin
riêng tư/nhạy cảm sao cho hiệu ứng phụ là thấp nhất. Bài báo này tập trung nghiên cứu và đề xuất thuật toán ẩn tập mục hữu ích
trung bình cao nhạy cảm có tên gọi là EHSHA-UI dựa trên phương pháp tối ưu cục bộ. Để giảm hiệu ứng phụ, chúng tôi đưa ra các
điều kiện lựa chọn mục mục tiêu và giao tác mục tiêu hiệu quả cho từng trường hợp sửa các mục dữ liệu. Thuật toán được chạy thực
nghiệm trên 4 CSDL thực. Kết quả cho thấy thuật toán mà chúng tôi đề xuất có hiệu ứng phụ thấp hơn thuật toán hiện tại.
Từ khóa: Che giấu dữ liệu, khai phá hữu ích cao, tập mục hữu ích trung bình cao, tập mục hữu ích trung bình cao nhạy cảm.
I. GIỚI THIỆU
Khai phá tập mục hữu ích cao (HUIM) là kỹ thuật trích chọn những tập mục có độ hữu ích không nhỏ hơn
ngưỡng hữu ích tối thiểu [1-5]. Giá trị hữu ích của tập mục được định nghĩa là tổng hữu ích của các mục trong tập mục
đó tại các giao tác chứa tập mục. Điều này có nghĩa là giá trị hữu ích của một tập mục trong cùng một giao tác sẽ tăng
lên theo độ dài của nó. Như vậy, khai phá tập mục hữu ích cao chỉ dựa trên cùng một ngưỡng hữu ích tối thiểu để áp
dụng cho tất cả các tập mục có độ dài khác nhau là không mang tính phổ quát cao [6]. Để khắc phục hạn chế này, Hong
Tzung-Pei và cộng sự [6] đề xuất một mô hình khai phá mới dựa trên hữu ích trung bình của tập mục gọi là khai phá tập
mục hữu ích trung bình cao với thuật toán hai pha: Pha thứ nhất tìm tập ứng viên, trong pha này sử dụng đơn vị đo chặn
trên của hữu ích trung bình (average utility upper bound) để tỉa tập ứng viên; pha thứ hai thực hiện quét qua CSDL 1 lần
để kiểm tra các ứng viên có phải là hữu ích trung bình cao hay không. Dựa trên nền tảng này nhiều thuật toán khai phá
tập mục hữu ích trung bình cao hiệu quả hơn cũng được đề xuất [7-10].
Trong thời đại công nghệ số phát triển thì lĩnh vực khai phá dữ liệu càng trở nên hữu ích đối với cuộc sống của
con người. Các công cụ khai phá và phân tích dữ liệu được sử dụng để trích xuất ra các thông tin hữu ích ẩn chứa trong
các CSDL mà con người không thể nhìn thấy được bằng mắt thường hoặc các công cụ phân tích đơn giản. Các thông tin
khai thác được có thể bao gồm các thông tin mang tính chất riêng tư hoặc nhạy cảm mà chủ sở hữu hay các đối tượng
liên quan không muốn bị tiết lộ ra bên ngoài (ví dụ: Thông tin về bí mật kinh doanh trong CSDL kinh doanh, thông tin
về bệnh án của bệnh nhân,...) bởi vì các thông tin này có thể gây ra các mối đe dọa về quyền riêng tư hoặc bí mật kinh
doanh. Chính vì vậy, vấn đề bảo vệ quyền riêng tư trong quản lý dữ liệu là một vấn đề quan trọng. Phương pháp được sử
dụng phổ biến hiện nay để thực hiện bảo vệ quyền riêng tư trong khai phá dữ liệu là kỹ thuật chuyển đổi dữ liệu để đảm
bảo thông tin riêng tư/nhạy cảm không bị khai thác từ CSDL chuyển đổi [11].
Để giải quyết bài toán che giấu dữ liệu trong khai phá tập mục hữu ích cao (PPUIM), Jieh-Shan Yeh và cộng sự
[12] đề xuất phương pháp ẩn tập mục hữu ích cao nhạy cảm bằng phương pháp giảm hữu ích nội của mục hoặc xóa mục
trong tập mục nhạy cảm với hai thuật toán có tên là HHUIF (Hiding High Utility Item First Algorithm) và MSICF
(Maximum Sensitive Itemsets Conflict First Algorithm). Dựa trên nền tảng này nhiều thuật toán hiệu quả hơn cũng được
đề xuất [13-15].
Không thể áp dụng các thuật toán PPUIM để giải quyết bài toán che giấu dữ liệu trong khai phá tập mục hữu ích
trung bình cao vì tính chất của hai bài toán này là khác nhau. Chính vì vậy, năm 2018 các tác giả trong [16] đề xuất
phương pháp và thuật toán ẩn tập mục hữu ích trung bình cao nhạy cảm có tên là HHAUSI. Phương pháp tiếp cận của
thuật toán này là sửa cơ sở dữ liệu gốc để giảm giá trị hữu ích trung bình của tập mục nhạy cảm xuống thấp hơn ngưỡng
hữu ích trung bình tối thiểu. Thuật toán HHAUSI sử dụng ba đơn vị đo lường để đánh giá hiệu ứng phụ của thuật toán,
gồm: HF (Tỷ lệ tập mục hữu ích trung bình cao nhạy cảm không ẩn được); MC (Tỷ lệ tập mục hữu ích trung bình cao
không nhạy cảm bị mất); DIF (Tỷ lệ sai khác giữa CSDL gốc so với CSDL sửa đổi). Phương pháp chọn mục mục tiêu và
giao tác mục tiêu để sửa dữ liệu của thu ...