Tóm tắt luận án Tiến sĩ Toán học: Phương pháp đánh chỉ số cho tài liệu XML tin sinh học dựa trên R-Tree

Số trang: 27 Loại file: pdf Dung lượng: 1.30 MB Lượt xem: 24 Lượt tải: 0

Hoai.2512

Phí lưu trữ: 3,000 VND

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Đề tài nghiên cứu phương pháp đánh chỉ số dựa trên phương pháp R-tree đế nhằm tăng hiệu quả các truy vấn Xpath trên dữ liệu XML, thông qua dữ liệu trung gian được chuyển đổi về dạng tọa độ số của các tags. Dữ liệu XML mục tiêu là từ một tài liệu XML tin sinh học, sử dụng phương pháp chuyển đổi dữ liệu văn bản có cấu trúc XML về dữ liệu dạng số mà biểu diễn được trên không gian 2 chiều (có thể mở rộng lên nhiều chiều).
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Toán học: Phương pháp đánh chỉ số cho tài liệu XML tin sinh học dựa trên R-TreeBỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ------------------------------- ĐINH ĐỨC LƢƠNG PHƢƠNG PHÁP ĐÁNH CHỈ SỐ CHO TÀI LIỆU XML TIN SINH HỌC DỰA TRÊN R-TREE Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9 46 01 10 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2019 Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người hướng dẫn khoa học 1: TS. Hoàng Đỗ Thanh Tùng Người hướng dẫn khoa học 2: PGS.TS. Đặng Hữu Đạo Phản biện 1: Phản biện 2: Phản biện 3:Luận án được bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp tại Họcviện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệViệt Nam vào hồi giờ, ngày tháng nămCó thể tìm hiểu luận án tại:- Thư viện Học viện Khoa học và Công nghệ- Thư viện Quốc gia Việt Nam Danh mục các công trình của tác giả liên quan đến Luận án1 Dinh Duc Luong, Hoang Do Thanh Tung, “A Survey on Indexing for Gene Database”, International Clustering Workshop: Teaching, Research, Business, December 27-29, 2014, pp. 50-54.2 Hoang Do Thanh Tung, Dinh Duc Luong, “A proposed Indexing Method for Treefarm database”, International Conference on Information and Convergence Technology for Smart Society, Vol.2 No.1, Jan, 19-21,2016 in Ho Chi Minh, Vietnam, pp. 79-81.3 Vương Quang Phương, Lê Thị Thùy Giang, Đinh Đức Lương, Ngô Văn Bình, Hoàng Đỗ Thanh Tùng, “Giải pháp công nghệ quản lý nguồn gốc giống heo”, Kỷ yếu Hội thảo Quốc gia lần thứ XXI:Một số vấn đề chọn lọc của CNTT và TT, Thanh Hóa, 27-28/7/2018, Tr. 110-116.4 Hoang Do Thanh Tung, Dinh Duc Luong, “An Improved Indexing Method for Xpath Queries”, Indian Journal of Science and Technology, Vol 9(31), DOI:10.17485/ijst/2016/v9i31/92731, August 2016, pp. 1-7 (SCOPUS).5 Dinh Duc Luong, Vuong Quang Phuong, Hoang Do Thanh Tung, “A new Indexing technique XR+tree for Bioinformatic XML data compression”, International Journal of Engineering and Advanced Technology (IJEAT), ISSN: 2249-8958 (Online), Volume-8, Issue-5, June 2019, pp. 1-7 (SCOPUS). MỞ ĐẦU Tài liệu XML là dữ liệu văn bản có cấu trúc, hay còn gọi là dữ liệu bán cấu trúc, chúngđã phổ biến hàng thập kỷ nay vì khả năng lưu trữ dữ liệu rất linh hoạt và dễ dàng chia sẻ, sửdụng qua internet. Trước đây, các tài liệu XML thường có kích thước không lớn, nhưng nhữngnăm gần đây bắt đầu xuất hiện các tài liệu XML tin sinh học có kích thước rất lớn có thể lêntới Giga, Tera Byte bởi sự phát triển như vũ bảo của công nghệ sinh học trong kỷ nguyên này.Dữ liệu đó có thể tìm thấy từ các nguồn dữ liệu uy tín như SRA (công khai các trình tự đượcgiải mã), NCBI Genome (các loài đã được giải trình tự), ensembl.org (tổng hợp rất nhiều dữliệu thành BioMart)… Các tài liệu XML tin sinh học là dữ liệu gồm có 2 phần, dữ liệu sinh học (DNA, Protein,phân loài,…) và các dữ liệu mô tả dữ liệu sinh học. Cấu trúc dữ liệu được định nghĩa theo cácthẻ (tag) và các cấu trúc dữ liệu này thường linh hoạt, có thể khác biệt bởi vì chúng được tùybiến theo các cá nhân, tổ chức sinh học thực hiện. Vì có kích thước lớn như vậy, các tài liệu cơ bản phải lưu trữ và khai thác trên đĩa cứng,hoặc trong hệ thống lưu trữ phân tán, trước khi có thế truy xuất 1 phần nhỏ để đưa lên bộ nhớchính (RAM) mỗi khi cần phân tích sâu hơn. Cơ chế truy xuất đĩa cứng là tuần tự và thời giantiêu tốn chậm hơn rất nhiều lần so với truy xuất trên RAM. Do vậy, các phương pháp truy vấncần truy xuất đĩa cứng luôn tìm cách sao cho tối thiểu số lần cần truy xuất đĩa cứng và tối đatận dụng bộ nhớ chính, như là Cache, Buffer. Các truy xuất thực thi theo thuật toán của các truy vấn đặc thù, được thiết kế để đạt kếtquả mong muốn trong thời gian ngắn và phù hợp với truy vấn. Ví dụ: 1. Truy vấn Xpath cho 01 tài liệu XML (tìm kiếm chính xác): trích xuất tất cả các dữ liệu có tags có quan hệ cùng nguồn gốc/anh em với nhau của 1 loại Chuột Bạch hoặc trích xuất toàn bộ các dữ liệu là hậu duệ của heo giống Châu Phi. 1. Truy vấn tương đồng cho dữ liệu các đoạn DNA (tìm kiếm xấp xỉ): tìm kiếm tất cả các Gen tương đồng với 1 đoạn Gen mẫu của một loài mới. Giải pháp truyền thống cho các truy vấn như trên là lựa chọn và cài đặt các phương phápđánh chỉ số (indexing) phù hợp một số loại dữ liệu và truy vấn đặc thù. Các phương pháp nàycó nhưng gặp nhiều hạn chế với dữ liệu văn bản kích thước lớn như v ...