Nghiên cứu kỹ thuật tiền xử lý dữ liệu trong tối ưu truy vấn cơ sở dữ liệu có kích thước lớn
Số trang: 12
Loại file: pdf
Dung lượng: 292.18 KB
Lượt xem: 21
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất kỹ thuật tiền xử lý dữ liệu nhằm tạo ra các dữ liệu có những định dạng phù hợp mà có thể kết hợp với những kỹ thuật truyền thống nhằm tối ưu các truy vấn cơ sở dữ liệu có kích thước lớn. Bài viết đồng thời cũng phân lớp và đề xuất mô hình triển khai cho việc tiền xử lý dữ liệu một cách hiệu quả.
Nội dung trích xuất từ tài liệu:
Nghiên cứu kỹ thuật tiền xử lý dữ liệu trong tối ưu truy vấn cơ sở dữ liệu có kích thước lớnCông nghệ thông tin NGHIÊN CỨU KỸ THUẬT TIỀN XỬ LÝ DỮ LIỆU TRONG TỐI ƯU TRUY VẤN CƠ SỞ DỮ LIỆU CÓ KÍCH THƯỚC LỚN Cao Đăng Huy*, Nguyễn Nhật An Tóm tắt: Tối ưu hóa cơ sở dữ liệu là một vấn đề rất quan trọng trong việc xây dựng các ứng dụng cơ sở dữ liệu. Có nhiều công nghệ và kỹ thuật được áp dụng cho việc tối ưu cơ sở dữ liệu như đặt chỉ mục, phân mảnh dữ liệu…vv; tuy nhiên với ứng dụng có dữ liệu quá lớn hoặc có tần suất truy cập đồng thời rất cao và những truy vấn dữ liệu khá phức tạp thì những kỹ thuật này chỉ có thể đạt đến một giới hạn nhất định nào đó. Trong bài viết này chúng tôi đề xuất kỹ thuật tiền xử lý dữ liệu nhằm tạo ra các dữ liệu có những định dạng phù hợp mà có thể kết hợp với những kỹ thuật truyền thống nhằm tối ưu các truy vấn cơ sở dữ liệu có kích thước lớn. Bài viết đồng thời cũng phân lớp và đề xuất mô hình triển khai cho việc tiền xử lý dữ liệu một cách hiệu quả. Kết quả thử nghiệm cho bài toán reverse geocode trên dữ liệu không gian trên tập dữ liệu mẫu mà chúng tôi đề xuất có thể cải thiện tốc độ hơn 54 lần và việc triển khai nó trong thực tế cho phép chúng tôi có thể tạo ra được những báo cáo về dữ liệu của hàng trăm triệu đến hàng chục tỷ bản ghi trong thời gian chấp nhận được. Điều này cho thấy cách tiếp cận này là rất khả quan.Từ khóa: Tối ưu cơ sở dữ liệu; Tiền xử lý; Phân mảnh dữ liệu. 1. ĐẶT VẤN ĐỀ Tối ưu hóa về cơ sở dữ liệu là một chủ đề rất được quan tâm và nghiên cứu.Khi xây dựng một hệ thống phần mềm với một cơ sở dữ liệu lớn, có nhiều truy vấnvà cập nhật đồng thời thì vấn đề này là cực kỳ quan trọng vì nó ảnh hưởng rất lớnđến sự đáp ứng của hệ thống, trải nghiệm người dùng, thậm chí là sự ổn định, tồnvong của cả một hệ thống phần mềm. Có nhiều giải pháp để tối ưu hóa cơ sở dữ liệu như chuẩn hóa thiết kế, đặtchỉ mục index hợp lý, thiết lập cấu hình hệ thống, tối ưu các câu hỏi truy vấn vàphân mảnh dữ liệu [4]. Tuy nhiên với dữ liệu có kích thước quá lớn hoặc có tầnsuất truy cập rất cao mà câu hỏi truy vấn dữ liệu lại phức tạp thì những giải phápnày chỉ đạt đến một giới hạn nhất định. Đòi hỏi phải có một giải pháp mới để xử lývấn đề này và chúng tôi đề xuất là sử dụng kỹ thuật tiền xử lý dữ liệu. Tiền xử lý dữ liệu là quá trình biến đổi dữ liệu sang một định dạng mớiphục vụ cho một quá trình phân tích, xử lý dữ liệu nào đó. Thuật ngữ này là kháphổ biến trong khai phá dữ liệu, trí tuệ nhân tạo, xử lý ngôn ngữ và học máy…vv.Tuy nhiên trong bài viết này đề cập đến một phạm vi hẹp là sử dụng kỹ thuật tiềnxử lý dữ liệu để tối ưu các truy vấn dữ liệu. Như chúng ta đã biết hiện nay đa số các cơ sở dữ liệu dựa trên mô hình dữliệu quan hệ bởi tính tiện lợi, toàn vẹn và nhất quán của dữ liệu. trong đó tất cả cácthông tin của nó được lưu trữ trong các bảng có các cột và hàng và có mối quan hệvới nhau. Các truy vấn đến dữ liệu được thông qua ngôn ngữ truy vấn có cấu trúcSQL để trích xuất một phần hoặc toàn bộ dữ liệu trong các bảng này. Ngôn ngữtruy vấn có cấu trúc SQL chủ yếu dựa trên các phép toán của đại số quan hệ. Gồm208 C. Đ. Huy, N. N. An, “Nghiên cứu kỹ thuật tiền xử lý … dữ liệu có kích thước lớn.”Thông tin khoa học công nghệcác phép toán 1 ngôi như chọn, phép chiếu, phép gán, phép đổi tên và các phéptoán 2 ngôi như tích decac, giao (Intersection), hợp (union), hiệu (minus), nối(join), chia (Division). Ngoài ra các hệ quản trị cơ sở dữ liệu hiện đại còn tích hợpthêm một số phép toán như các hàm tập hợp (Aggregate function), Gom nhóm cácbộ dữ liệu (Grouping) và Phép kết mở rộng (Outer Join). Các thực thể trong cơ sởdữ liệu quan hệ được phân biệt với nhau thông qua giá trị của nó do vậy cơ sở dữliệu quan hệ là cơ sở dữ liệu hướng giá trị (value oriented). Các bộ hay bản ghi củadữ liệu được phân biệt với nhau bởi các giá trị của nó do vậy việc lựa chọn tríchxuất dữ liệu trong cơ sở dữ liệu hoàn toàn dựa vào giá trị của dữ liệu Việc truy vấn dựa trên giá trị của dữ liệu sẽ có những hạn chế nhất định vềmặt tốc độ nhất là khi dữ liệu có kích thước lớn do phải thực hiện việc quét (scan)dữ liệu trong các bảng. Hiệu năng của một truy vấn được dựa trên chi phí (cost) màtruy vấn đó chiếm dụng tài nguyên hệ thống: cA(all)=cD(lưu trữ)+cM(Memory)+cN(Networking)+cL(lock)+cC(CPU) [7] Trong đó: cD: là chi phí đọc ghi đĩa lưu trữ (bộ nhớ ngoài) liên quan đến truy vấn cM: chi phí thao tác đến bộ nhớ trong liên quan đến truy vấn cN: chi phí về truyền thông mạng là số băng thông mạng mà truy vấn chiếmdụng cL: là chi phí liên quan đến tranh chấp khóa của truy vấn. Các cơ sở dữ liệuhiện đại đưa các khóa (lock) vào để quản lý việc truy cập đồng thời và các chỉ mục(index) để tối ưu truy vấn và việc thay đổi cũng n ...
Nội dung trích xuất từ tài liệu:
Nghiên cứu kỹ thuật tiền xử lý dữ liệu trong tối ưu truy vấn cơ sở dữ liệu có kích thước lớnCông nghệ thông tin NGHIÊN CỨU KỸ THUẬT TIỀN XỬ LÝ DỮ LIỆU TRONG TỐI ƯU TRUY VẤN CƠ SỞ DỮ LIỆU CÓ KÍCH THƯỚC LỚN Cao Đăng Huy*, Nguyễn Nhật An Tóm tắt: Tối ưu hóa cơ sở dữ liệu là một vấn đề rất quan trọng trong việc xây dựng các ứng dụng cơ sở dữ liệu. Có nhiều công nghệ và kỹ thuật được áp dụng cho việc tối ưu cơ sở dữ liệu như đặt chỉ mục, phân mảnh dữ liệu…vv; tuy nhiên với ứng dụng có dữ liệu quá lớn hoặc có tần suất truy cập đồng thời rất cao và những truy vấn dữ liệu khá phức tạp thì những kỹ thuật này chỉ có thể đạt đến một giới hạn nhất định nào đó. Trong bài viết này chúng tôi đề xuất kỹ thuật tiền xử lý dữ liệu nhằm tạo ra các dữ liệu có những định dạng phù hợp mà có thể kết hợp với những kỹ thuật truyền thống nhằm tối ưu các truy vấn cơ sở dữ liệu có kích thước lớn. Bài viết đồng thời cũng phân lớp và đề xuất mô hình triển khai cho việc tiền xử lý dữ liệu một cách hiệu quả. Kết quả thử nghiệm cho bài toán reverse geocode trên dữ liệu không gian trên tập dữ liệu mẫu mà chúng tôi đề xuất có thể cải thiện tốc độ hơn 54 lần và việc triển khai nó trong thực tế cho phép chúng tôi có thể tạo ra được những báo cáo về dữ liệu của hàng trăm triệu đến hàng chục tỷ bản ghi trong thời gian chấp nhận được. Điều này cho thấy cách tiếp cận này là rất khả quan.Từ khóa: Tối ưu cơ sở dữ liệu; Tiền xử lý; Phân mảnh dữ liệu. 1. ĐẶT VẤN ĐỀ Tối ưu hóa về cơ sở dữ liệu là một chủ đề rất được quan tâm và nghiên cứu.Khi xây dựng một hệ thống phần mềm với một cơ sở dữ liệu lớn, có nhiều truy vấnvà cập nhật đồng thời thì vấn đề này là cực kỳ quan trọng vì nó ảnh hưởng rất lớnđến sự đáp ứng của hệ thống, trải nghiệm người dùng, thậm chí là sự ổn định, tồnvong của cả một hệ thống phần mềm. Có nhiều giải pháp để tối ưu hóa cơ sở dữ liệu như chuẩn hóa thiết kế, đặtchỉ mục index hợp lý, thiết lập cấu hình hệ thống, tối ưu các câu hỏi truy vấn vàphân mảnh dữ liệu [4]. Tuy nhiên với dữ liệu có kích thước quá lớn hoặc có tầnsuất truy cập rất cao mà câu hỏi truy vấn dữ liệu lại phức tạp thì những giải phápnày chỉ đạt đến một giới hạn nhất định. Đòi hỏi phải có một giải pháp mới để xử lývấn đề này và chúng tôi đề xuất là sử dụng kỹ thuật tiền xử lý dữ liệu. Tiền xử lý dữ liệu là quá trình biến đổi dữ liệu sang một định dạng mớiphục vụ cho một quá trình phân tích, xử lý dữ liệu nào đó. Thuật ngữ này là kháphổ biến trong khai phá dữ liệu, trí tuệ nhân tạo, xử lý ngôn ngữ và học máy…vv.Tuy nhiên trong bài viết này đề cập đến một phạm vi hẹp là sử dụng kỹ thuật tiềnxử lý dữ liệu để tối ưu các truy vấn dữ liệu. Như chúng ta đã biết hiện nay đa số các cơ sở dữ liệu dựa trên mô hình dữliệu quan hệ bởi tính tiện lợi, toàn vẹn và nhất quán của dữ liệu. trong đó tất cả cácthông tin của nó được lưu trữ trong các bảng có các cột và hàng và có mối quan hệvới nhau. Các truy vấn đến dữ liệu được thông qua ngôn ngữ truy vấn có cấu trúcSQL để trích xuất một phần hoặc toàn bộ dữ liệu trong các bảng này. Ngôn ngữtruy vấn có cấu trúc SQL chủ yếu dựa trên các phép toán của đại số quan hệ. Gồm208 C. Đ. Huy, N. N. An, “Nghiên cứu kỹ thuật tiền xử lý … dữ liệu có kích thước lớn.”Thông tin khoa học công nghệcác phép toán 1 ngôi như chọn, phép chiếu, phép gán, phép đổi tên và các phéptoán 2 ngôi như tích decac, giao (Intersection), hợp (union), hiệu (minus), nối(join), chia (Division). Ngoài ra các hệ quản trị cơ sở dữ liệu hiện đại còn tích hợpthêm một số phép toán như các hàm tập hợp (Aggregate function), Gom nhóm cácbộ dữ liệu (Grouping) và Phép kết mở rộng (Outer Join). Các thực thể trong cơ sởdữ liệu quan hệ được phân biệt với nhau thông qua giá trị của nó do vậy cơ sở dữliệu quan hệ là cơ sở dữ liệu hướng giá trị (value oriented). Các bộ hay bản ghi củadữ liệu được phân biệt với nhau bởi các giá trị của nó do vậy việc lựa chọn tríchxuất dữ liệu trong cơ sở dữ liệu hoàn toàn dựa vào giá trị của dữ liệu Việc truy vấn dựa trên giá trị của dữ liệu sẽ có những hạn chế nhất định vềmặt tốc độ nhất là khi dữ liệu có kích thước lớn do phải thực hiện việc quét (scan)dữ liệu trong các bảng. Hiệu năng của một truy vấn được dựa trên chi phí (cost) màtruy vấn đó chiếm dụng tài nguyên hệ thống: cA(all)=cD(lưu trữ)+cM(Memory)+cN(Networking)+cL(lock)+cC(CPU) [7] Trong đó: cD: là chi phí đọc ghi đĩa lưu trữ (bộ nhớ ngoài) liên quan đến truy vấn cM: chi phí thao tác đến bộ nhớ trong liên quan đến truy vấn cN: chi phí về truyền thông mạng là số băng thông mạng mà truy vấn chiếmdụng cL: là chi phí liên quan đến tranh chấp khóa của truy vấn. Các cơ sở dữ liệuhiện đại đưa các khóa (lock) vào để quản lý việc truy cập đồng thời và các chỉ mục(index) để tối ưu truy vấn và việc thay đổi cũng n ...
Tìm kiếm theo từ khóa liên quan:
Tối ưu cơ sở dữ liệu Tiền xử lý Phân mảnh dữ liệu Cơ sở dữ liệu có kích thước lớn Truy vấn cơ sở dữ liệuGợi ý tài liệu liên quan:
-
Luận văn Thạc sĩ Công nghệ thông tin: Tối ưu hóa truy vấn cơ sở dữ liệu hướng đối tượng
80 trang 101 0 0 -
Bài giảng Lập trình mã nguồn mở: Phần 2 - ĐH Sư phạm kỹ thuật Nam Định
99 trang 39 0 0 -
Nghiên cứu công nghệ GIS: Phần 2
189 trang 27 0 0 -
36 trang 25 0 0
-
ĐỀ TÀI ỨNG DỤNG SÓNG SIÊU ÂM TRONG TIỀN XỬ LÝ BÙN THẢI
57 trang 25 0 0 -
OCA: Oracle Database 11g Administrator Certified Associate Study Guide- P17
50 trang 24 0 0 -
OCA: Oracle Database 11g Administrator Certified Associate Study Guide- P16
50 trang 24 0 0 -
Chương 3: Thiết kế cơ sở dữ liệu phân tán
41 trang 23 0 0 -
Bài tập Thực hành SPSS - Quản lý thư viện
6 trang 22 0 0 -
Đề thi học kì 1 môn Tin học lớp 11 năm 2023-2024 - Trường THPT Cẩm Lý, Bắc Giang
4 trang 21 0 0