Tóm tắt Luận án tiến sĩ Kỹ thuật: Thiết kế cơ sở dữ liệu phân tán theo tiếp cận khai phá dữ liệu
Số trang: 27
Loại file: pdf
Dung lượng: 741.90 KB
Lượt xem: 15
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục đích nghiên cứu của luận án nhằm nghiên cứu cải tiến thuật toán phân mảnh dọc và phân mảnh ngang dựa vào các kỹ thuật phân cụm tích hợp trong khai phá dữ liệu. Nghiên cứu đề xuất mới thuật toán phân mảnh dọc dựa trên kỹ thuật phân cụm thô KR và phân cụm đàn kiến VFAC.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án tiến sĩ Kỹ thuật: Thiết kế cơ sở dữ liệu phân tán theo tiếp cận khai phá dữ liệu BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LƢƠNG VĂN NGHĨA THIẾT KẾ CƠ SỞ DỮ LIỆUPHÂN TÁN THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62 48 01 01TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2019 Công trình được hoàn thành tại: ĐẠI HỌC ĐÀ NẴNGNgười hướng dẫn khoa học: 1. PGS.TS. Lê Văn SơnPGS.TS. Lê Văn Sơn 2. PGS.TS. Đoàn Văn BanPGS.TS. Đoàn Văn BanPhản biện 1: ………………………..;……………………Phản biện 2: ………………………………………………Phản biện 3: ………………………………………………Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Đại họcĐà NẵngVào hồi …... giờ ....... ngày ........tháng ……năm ……. Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng 1 MỞ ĐẦU1. TÍNH CẤP THIẾT CỦA VIỆC NGHIÊN CỨU Ngày nay, với việc dữ liệu đa dạng, được phân tán ở nhiều nơi trêntoàn cầu làm cho các ứng dụng cơ sở dữ liệu (CSDL), các phương phápquản trị và khai thác CSDL phân tán truyền thống tỏ ra ít hiệu quả, khôngđáp ứng được mục tiêu chia sẻ và còn khó khăn trong việc tích hợp và traođổi thông tin. Để khắc phục được những hạn chế trên, các CSDL phân táncần được thiết kế sao cho phù hợp hơn với yêu cầu sử dụng, truy xuất vàxử lý dữ liệu phân tán. Điều này có thể thực hiện được nhờ vào kỹ thuậtkhai phá dữ liệu (KPDL), cụ thể là dựa vào các kỹ thuật phân cụm phục vụcho việc phân mảnh và phân tán, định vị dữ liệu trong thiết kế CSDL phân tán. Hiện có nhiều nghiên cứu liên quan đến bài toán thiết kế CSDL phântán dựa vào các kỹ thuật phân cụm trong lĩnh vực KPDL, cụ thể: - Bài toán phân mảnh dữ liệu dựa vào phân cụm đã được nhiều tácgiả quan tâm và sau đó được phát triển tiếp bởi Özsu M. Tamer và cáccộng sự. Tuy nhiên, các kỹ thuật phân mảnh dựa vào các đối tượng đượcphân cụm có cùng độ tương đồng giữa các nhóm thuộc tính dừng lại chobài toán phân mảnh dọc dữ liệu trên các lược đồ quan hệ. - Hui ma và các cộng sự đề xuất thuật toán phân cụm CA (ClusteredAffinity) để nhóm thuộc tính có mối quan hệ chặt chẽ với nhau (ái lực) vàsau đó Navathe và các cộng sự phát triển thuật toán BEA (Bond EnegyAlgorithm), phục vụ cho bài toán phân mảnh dọc dữ liệu phân tán. Cácthuật toán trên dựa theo ý tưởng các thuộc tính có tần suất xuất hiện đồngthời càng lớn thì thường thuộc về một cụm (phân mảnh). Phương án giảiquyết bài toán này đưa về tối ưu hóa một biểu thức bậc 2 có độ phức tạpkhá lớn. - Bài toán tối ưu hóa thuật toán phân mảnh được Navathe và cáccộng sự đề xuất tìm điểm phân tách t sao cho biểu thức q = CTQ * CBQ - 2COQ2 là cực đại. Tuy nhiên, với các quan hệ có số thuộc tính lớn, bài toánkhông thể giải quyết bằng phân hoạch thành hai mảnh, cần phải thực hiệntheo một phân mảnh hỗn hợp, gổm ít nhất một phân mảnh ngang và mộtphân mảnh dọc. - Các nghiên cứu gần đây, một số tác giả kết hợp giải bài toán phânmảnh và bài toán định vị bằng các kỹ thuật tối ưu, kết hợp với các kỹ thuậtheuristic. Thời gian thực hiện các thuật toán này giảm đáng kể so với cácthuật toán ban đầu. Tuy nhiên, các độ đo sự liên kết các thuộc tính là chưađược sự nhất trí chung của các nhà khoa học. - Thuật toán tối ưu đàn kiến heuristic - ACO (Ant ColonyOptimazation) lần đầu tiên Dorigo và các cộng sự đề xuất năm 2011, đượcứng dụng nhiều trong tìm kiếm và khai phá dữ liệu. Hầu hết các nghiêncứu gần đây về ACO chỉ tập trung vào việc phát triển các biến thể của thuậttoán để làm tăng hiệu năng tính toán của thuật toán hệ kiến AS (AntSystem) ban đầu. - Một số nghiên cứu trong nước về ACO tập trung giải quyết các bàitoán tối ưu rời rạc như bài toán người bán hàng, bài toán lập lịch, bài toánan ninh mạng.... Một số hướng tiếp cận khác theo kỹ thuật phân cụm mờcũng đang tập trung giải quyết cho một số bài toán kỹ thuật công nghệ cao.Tuy nhiên, cách tiếp cận và các thử nghiệm trong bài toán phân cụm haysử dụng các tiếp cận tìm kiếm heuristic để tìm lời giải tối ưu cục bộ chocác bài toán phân mảnh dữ liệu phân tán, cho kết quả nhanh nhưng khôngthể cải thiện thêm lời giải tìm được. - Về kỹ thuật phân cụm tích hợp, các nghiên cứu trong nước gần đâyđược nhiều nhóm tác giả quan tâm và đã đề xuất các thuật toán hiệu năngcao. Trong luận án này, tác giả đã vận dụng tích hợp giữa thuật toán tối ưuhóa đàn kiến ACO và phân cụm thô với các kỹ thuật phân cụm nguyên 3thủy để đề xuất các thuật toán phân cụm dọc dữ liệu phân tán nhằm tối ưucác chi phí tính toán và chất lượng sau phân cụm cho các bộ dữ liệu lớn. Để tham gia giải quyết những vấn đề nêu trên, đề tài luận án “Thiếtkế cơ sở dữ liệu phân tán t ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án tiến sĩ Kỹ thuật: Thiết kế cơ sở dữ liệu phân tán theo tiếp cận khai phá dữ liệu BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG LƢƠNG VĂN NGHĨA THIẾT KẾ CƠ SỞ DỮ LIỆUPHÂN TÁN THEO TIẾP CẬN KHAI PHÁ DỮ LIỆU Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 62 48 01 01TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng - 2019 Công trình được hoàn thành tại: ĐẠI HỌC ĐÀ NẴNGNgười hướng dẫn khoa học: 1. PGS.TS. Lê Văn SơnPGS.TS. Lê Văn Sơn 2. PGS.TS. Đoàn Văn BanPGS.TS. Đoàn Văn BanPhản biện 1: ………………………..;……………………Phản biện 2: ………………………………………………Phản biện 3: ………………………………………………Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Đại họcĐà NẵngVào hồi …... giờ ....... ngày ........tháng ……năm ……. Có thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng 1 MỞ ĐẦU1. TÍNH CẤP THIẾT CỦA VIỆC NGHIÊN CỨU Ngày nay, với việc dữ liệu đa dạng, được phân tán ở nhiều nơi trêntoàn cầu làm cho các ứng dụng cơ sở dữ liệu (CSDL), các phương phápquản trị và khai thác CSDL phân tán truyền thống tỏ ra ít hiệu quả, khôngđáp ứng được mục tiêu chia sẻ và còn khó khăn trong việc tích hợp và traođổi thông tin. Để khắc phục được những hạn chế trên, các CSDL phân táncần được thiết kế sao cho phù hợp hơn với yêu cầu sử dụng, truy xuất vàxử lý dữ liệu phân tán. Điều này có thể thực hiện được nhờ vào kỹ thuậtkhai phá dữ liệu (KPDL), cụ thể là dựa vào các kỹ thuật phân cụm phục vụcho việc phân mảnh và phân tán, định vị dữ liệu trong thiết kế CSDL phân tán. Hiện có nhiều nghiên cứu liên quan đến bài toán thiết kế CSDL phântán dựa vào các kỹ thuật phân cụm trong lĩnh vực KPDL, cụ thể: - Bài toán phân mảnh dữ liệu dựa vào phân cụm đã được nhiều tácgiả quan tâm và sau đó được phát triển tiếp bởi Özsu M. Tamer và cáccộng sự. Tuy nhiên, các kỹ thuật phân mảnh dựa vào các đối tượng đượcphân cụm có cùng độ tương đồng giữa các nhóm thuộc tính dừng lại chobài toán phân mảnh dọc dữ liệu trên các lược đồ quan hệ. - Hui ma và các cộng sự đề xuất thuật toán phân cụm CA (ClusteredAffinity) để nhóm thuộc tính có mối quan hệ chặt chẽ với nhau (ái lực) vàsau đó Navathe và các cộng sự phát triển thuật toán BEA (Bond EnegyAlgorithm), phục vụ cho bài toán phân mảnh dọc dữ liệu phân tán. Cácthuật toán trên dựa theo ý tưởng các thuộc tính có tần suất xuất hiện đồngthời càng lớn thì thường thuộc về một cụm (phân mảnh). Phương án giảiquyết bài toán này đưa về tối ưu hóa một biểu thức bậc 2 có độ phức tạpkhá lớn. - Bài toán tối ưu hóa thuật toán phân mảnh được Navathe và cáccộng sự đề xuất tìm điểm phân tách t sao cho biểu thức q = CTQ * CBQ - 2COQ2 là cực đại. Tuy nhiên, với các quan hệ có số thuộc tính lớn, bài toánkhông thể giải quyết bằng phân hoạch thành hai mảnh, cần phải thực hiệntheo một phân mảnh hỗn hợp, gổm ít nhất một phân mảnh ngang và mộtphân mảnh dọc. - Các nghiên cứu gần đây, một số tác giả kết hợp giải bài toán phânmảnh và bài toán định vị bằng các kỹ thuật tối ưu, kết hợp với các kỹ thuậtheuristic. Thời gian thực hiện các thuật toán này giảm đáng kể so với cácthuật toán ban đầu. Tuy nhiên, các độ đo sự liên kết các thuộc tính là chưađược sự nhất trí chung của các nhà khoa học. - Thuật toán tối ưu đàn kiến heuristic - ACO (Ant ColonyOptimazation) lần đầu tiên Dorigo và các cộng sự đề xuất năm 2011, đượcứng dụng nhiều trong tìm kiếm và khai phá dữ liệu. Hầu hết các nghiêncứu gần đây về ACO chỉ tập trung vào việc phát triển các biến thể của thuậttoán để làm tăng hiệu năng tính toán của thuật toán hệ kiến AS (AntSystem) ban đầu. - Một số nghiên cứu trong nước về ACO tập trung giải quyết các bàitoán tối ưu rời rạc như bài toán người bán hàng, bài toán lập lịch, bài toánan ninh mạng.... Một số hướng tiếp cận khác theo kỹ thuật phân cụm mờcũng đang tập trung giải quyết cho một số bài toán kỹ thuật công nghệ cao.Tuy nhiên, cách tiếp cận và các thử nghiệm trong bài toán phân cụm haysử dụng các tiếp cận tìm kiếm heuristic để tìm lời giải tối ưu cục bộ chocác bài toán phân mảnh dữ liệu phân tán, cho kết quả nhanh nhưng khôngthể cải thiện thêm lời giải tìm được. - Về kỹ thuật phân cụm tích hợp, các nghiên cứu trong nước gần đâyđược nhiều nhóm tác giả quan tâm và đã đề xuất các thuật toán hiệu năngcao. Trong luận án này, tác giả đã vận dụng tích hợp giữa thuật toán tối ưuhóa đàn kiến ACO và phân cụm thô với các kỹ thuật phân cụm nguyên 3thủy để đề xuất các thuật toán phân cụm dọc dữ liệu phân tán nhằm tối ưucác chi phí tính toán và chất lượng sau phân cụm cho các bộ dữ liệu lớn. Để tham gia giải quyết những vấn đề nêu trên, đề tài luận án “Thiếtkế cơ sở dữ liệu phân tán t ...
Tìm kiếm theo từ khóa liên quan:
Luận án tiến sĩ Luận án tiến sĩ Kỹ thuật Khoa học máy tính Thiếtkế cơ sở dữ liệu phân tán Cơ sở dữ liệu phân tánGợi ý tài liệu liên quan:
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 474 1 0 -
205 trang 428 0 0
-
Luận án Tiến sĩ Tài chính - Ngân hàng: Phát triển tín dụng xanh tại ngân hàng thương mại Việt Nam
267 trang 384 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 377 6 0 -
174 trang 328 0 0
-
206 trang 303 2 0
-
228 trang 271 0 0
-
32 trang 228 0 0
-
Báo cáo bài tập lớn môn Cơ sở dữ liệu phân tán: Hệ thống quản lý vật tư
61 trang 228 1 0 -
Luận án tiến sĩ Ngữ văn: Dấu ấn tư duy đồng dao trong thơ thiếu nhi Việt Nam từ 1945 đến nay
193 trang 222 0 0