Danh mục

Tóm tắt luận án Tiến sĩ Máy tính: Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy

Số trang: 26      Loại file: pdf      Dung lượng: 1.32 MB      Lượt xem: 17      Lượt tải: 0    
tailieu_vip

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục tiêu của luận án là đề xuất giải pháp khai phá các mẫu dãy có trọng số có khoảng cách thời gian giữa các dãy trong các CSDL dãy có khoảng cách thời gian và CSDL dãy định lượng có khoảng cách thời gian. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Máy tính: Khai phá mẫu dãy có trọng số trong cơ sở dữ liệu dãy BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ……..….***………… TRẦN HUY DƯƠNG KHAI PHÁ MẪU DÃY CÓ TRỌNG SỐ TRONG CƠ SỞ DỮ LIỆU DÃY Chuyên ngành: Hệ thống thông tin Mã số: 62 48 01 04 TÓM TẮT LUẬN ÁN TIẾN SỸ NGÀNH MÁY TÍNH Hà Nội – 2021 Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học 1: TS. Nguyễn Trường Thắng Người hướng dẫn khoa học 2: GS.TS. Vũ Đức Thi Phản biện 1: … Phản biện 2: … Phản biện 3: …. Luận án sẽ được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi … giờ ..’, ngày … tháng … năm 201…. Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học và Công nghệ - Thư viện Quốc gia Việt Nam 1 MỞ ĐẦU 1. Tổng quan Khai phá các mẫu dãy thường xuyên là một trong những vấn đề quan trọng và được nhiều học giả nghiên cứu trong lĩnh vực khai phá dữ liệu. Trong nhiều lĩnh vực như khai phá văn bản, phân tích trình tự gen, chống xâm nhập mạng trái phép dựa trên phân tích nhật ký truy cập... thì thứ tự của các mục đóng vai trò rất quan trọng. Để có thể giải quyết vấn đề này, bài toán khai phá mẫu dãy thường xuyên đã được Agrawal và Srikant đề xuất trong [2]. Các mẫu dãy thường xuyên không chỉ thể hiện số lần xuất hiện của các phần tử trong nó mà còn thể hiện được thứ tự của các phần tử đó. Khai phá mẫu dãy thường xuyên được ứng dụng trong nhiều lĩnh vực như phân tích hành vi mua sắm, phân tích các mẫu truy cập web, phân tích thảm họa tự nhiên, phân tích sự hình thành các chuỗi protein... Thông thường, khai phá mẫu dãy thường xuyên cổ điển thực hiện khai phá mẫu dãy thường xuyên mà không có thêm các thông tin mở rộng khác. Trong khi đó, việc mở rộng các thông tin của dãy dữ liệu rất đa dạng như đưa thêm các thông tin về trọng số của các mục trong dãy, thông tin về định lượng của các mục trong dãy, thông tin về khoảng cách thời gian giữa các thành phần trong dãy … Đối với các CSDL dãy có yếu tố thời gian tức là có thêm thông tin về khoảng cách thời gian xuất hiện của các dãy dữ liệu cho phép phân tích xem sau khoảng thời gian bao lâu thì các mẫu dãy sẽ xuất hiện. Các nghiên cứu đến nay đều tập trung phát hiện các mẫu dãy có khoảng cách thời gian xảy ra giữa các thành phần trong các CSDL dãy có khoảng cách thời gian, ở đó khoảng cách thời gian là giá trị số được xác định rõ ràng. Các thuật toán khai phá mẫu dãy cổ điển thông thường không quan tâm tới mức độ quan trọng của từng mục dữ liệu trong dãy (trọng số) cũng như số lượng dữ liệu của từng mục dữ liệu trong dãy (định lượng) . Tuy nhiên trên thực tế, mỗi dãy dữ liệu đều có độ quan trọng khác nhau bao gồm cả giá trị lợi ích trong (định lượng) và lợi ích ngoài (trọng số) của các dãy dữ liệu trong CSDL. Đến nay chưa có nhiều các nghiên cứu về khai phá mẫu dãy có trọng số trong CSDL dãy có khoảng cách thời gian trong đó quan tâm đến cả đến trọng số của mỗi mục trong dãy dữ liệu và khoảng cách thời gian giữa các dãy. Đồng thời cũng chưa có nhiều nghiên cứu về khai phá mẫu dãy lợi ích cao trong CSDL dãy định lượng có khoảng cách thời gian trong đó quan tâm đến cả đến trọng số của mỗi mục trong dãy dữ liệu, giá trị định lượng của các mục xuất hiện và khoảng cách thời gian giữa các dãy trong CSDL dãy định lượng có khoảng cách thời gian. Đó là lý do đề xuất luận án “Khai phá mẫu dãy có trọng số trong Cơ sở dữ liệu dãy”. Luận án đề xuất và giải quyết vấn đề về khai phá mẫu dãy thường xuyên trọng số trong CSDL dãy có khoảng cách thời gian và khai phá mẫu dãy lợi ích cao trong CSDL dãy định lượng có khoảng cách thời gian. Việc nghiên cứu giải quyết những vấn đề đó là thực sự cần thiết không chỉ ở phương diện phát triển lý thuyết mà cả ở phương diện ứng dụng thực tế. 2 2. Mục tiêu và phạm vi nghiên cứu của luận án Mục tiêu của luận án là đề xuất giải pháp khai phá các mẫu dãy có trọng số có khoảng cách thời gian giữa các dãy trong các CSDL dãy có khoảng cách thời gian và CSDL dãy định lượng có khoảng cách thời gian. Cụ thể luận án tập trung đề xuất các giải pháp nhằm: • Phát hiện các mẫu dãy có trọng số trong các CSDL dãy khoảng cách thời gian. Các mẫu dãy tìm được khi đó được gọi là mẫu dãy thường xuyên trọng số với khoảng cách thời gian. • Phát hiện các mẫu dãy có trọng số trong các CSDL dãy định lượng có khoảng cách thời gian. Các mẫu dãy tìm được khi đó được gọi là mẫu dãy thường xuyên lợi ích cao với khoảng cách thời gian. NCS tập trung vào nghiên cứu đề xuất các thuật toán mới để khai phá các mẫu dãy thường xuyên; chứng minh tính đúng đắn và tính đầy đủ, phân tích độ phức tạp tính toán của các thuật toán; thử nghiệm và phân tích ý nghĩa của mẫu dãy thường xuyên khai phá được. 3. Phương pháp nghiên cứu Luận án nghiên cứu các mẫu dãy, trọng số của các mục trong dãy, khoảng cách thời gian giữa các dãy, các CSDL dãy có khoảng cách thời gian và CSDL dãy định lượng có khoảng cách thời gian. Các nghiên cứu, thuật toán và phương pháp khai phá mẫu dãy hiện nay trên CSDL dãy, CSDL dãy định lượng có các yếu tố khoảng cách thời gian, trọng số, lợi ích cao. 4. Các đóng góp của luận án Những đóng góp chính của luận án là đề xuất và giải quyết các vấn đề sau: • Đề xuất 01 thuật toán khai phá top-k mẫu dãy có tính đến trọng số của các mục và khoảng cách thời gian trong các CSDL dãy có khoảng cách thời gian. Kết quả công trình được đăng trong kết quả tại [CT1]. • Đề xuấ ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: