Danh mục

Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu

Số trang: 9      Loại file: pdf      Dung lượng: 476.65 KB      Lượt xem: 14      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 4,000 VND Tải xuống file đầy đủ (9 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong quá trình tìm hiểu về các thành phần, quy trình xây dựng kho tài liệu và vai trò của kho tài liệu, từ đó thấy được sự cần thiết của kho tài liệu đối với các doanh nghiệp và tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tương đồng giữa các giai đoạn trong quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu, bài viết này đã đề xuất kiến trúc kho tài liệu.
Nội dung trích xuất từ tài liệu:
Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệuTẠP CHÍ KHOA HỌC, Đại học Huế, Tập 74B, Số 5, (2012), 55-63XÂY DỰNG KIẾN TRÚC KHO TÀI LIỆU DỰA TRÊN MỐI LIÊN HỆ GIỮAKHO DỮ LIỆU TRUYỀN THỐNG VÀ KHO TÀI LIỆULê Văn HòaKhoa Du lịch, Đại học HuếTóm tắt. Trong quá trình tìm hiểu về các thành phần, quy trình xây dựng kho tài liệu và vaitrò của kho tài liệu, từ đó thấy được sự cần thiết của kho tài liệu đối với các doanh nghiệpvà tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tươngđồng giữa các giai đoạn trong quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu,bài viết này đã đề xuất kiến trúc kho tài liệu. Kiến trúc kho tài liệu đề xuất có độ tin cậy vàđộ chính xác cao nhờ việc tham khảo các công trình nghiên cứu, các công trình này đãchứng minh sự tương đồng giữa các quy trình xây dựng kho dữ liệu truyền thống và kho tàiliệu.1. Đặt vấn đềTheo [3], người ta đã thống kê chỉ có 20% dữ liệu là dữ liệu có cấu trúc và đượclưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là dữ liệu không có cấu trúcvăn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bàibáo tin tức, e-mail, và các trang web là chủ yếu. Chính vì dữ liệu có cấu trúc trong cáctổ chức và doanh nghiệp chiếm tỉ lệ thấp do đó khi xây dựng kho dữ liệu truyền thốngsẽ ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định.Chính vì những lý do đó, kho tài liệu được đề xuất để có thể đưa dữ liệu bán cấu trúc vàphi cấu trúc vào kho. Chính nhờ những khẳng định thuyết phục của Sullivan [5] về mốitương đồng giữa các quy trình trong quá trình xây dựng kho dữ liệu truyền thống và khotài liệu, bài viết này đã đề xuất kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữliệu truyền thống và kho tài liệu.2. Kho dữ liệu truyền thống và những vấn đề tồn tạiKho dữ liệu là tập hợp dữ liệu hướng chủ thể, tích hợp, biến thời gian và bềnvững hỗ trợ ra quyết định [2]. Theo [1], mục tiêu chính của kho dữ liệu là nhằm đáp ứngcác tiêu chuẩn cơ bản sau:-Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng.-Hỗ trợ để có thể thực hiện tốt và có hiệu quả công việc, như có những quyếtđịnh hợp lý, nhanh giúp cho năng suất cao hơn, thu được lợi nhuận cao hơn,v.v.55Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ…56-Giúp cho tổ chức xác định, quản lý và điều hành các dự án, các nghiệp vụmột cách hiệu quả và chính xác.-Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.Theo [1], kiến trúc hệ thống kho dữ liệu truyền thống gồm 3 tầng:-Tầng thu thập-Tầng xử lý phân tích trực tuyến (OLAP)-Tầng thể hiệnHình 1. Kiến trúc hệ thống kho dữ liệu truyền thốngKho dữ liệu truyền thống và những vấn đề đang tồn tại:Theo [3], dữ liệu có cấu trúc được thể hiện trong một hình thức quan hệ và phicấu trúc trong văn bản. Theo thống kê chỉ có 20% các dữ liệu sẵn có được cấu trúc vàđược lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là không có cấu trúcvăn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bàibáo tin tức, e-mail, và các trang web. Chính vì dữ liệu có cấu trúc chiếm tỉ lệ thấp do đóảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định.Vì vậy, để có được thông tin tri thức nghiệp vụ hoàn chỉnh, kết hợp và phân tíchdữ liệu văn bản là rất cần thiết. Thông qua phân tích các dữ liệu có cấu trúc, chẳng hạnthông tin ở đâu, khi nào, ai, và bằng cách nào để có thể được trích xuất. Thông qua phântích các thông tin để đưa ra lý do tại sao nó đã được thực hiện.LÊ VĂN HÒA573. Kiến trúc kho tài liệu3.1. Các thành phần chính của kho tài liệuTheo [5], thành phần của kho tài liệu bao gồm 5 thành phần chính:-Nguồn tài liệu-Máy chủ xử lý văn bản-Văn bản cơ sở và các kho lưu trữ khác-Kho siêu dữ liệu-Hồ sơ người sử dụng.3.1.1. Nguồn tài liệuNguồn tài liệu là các văn bản. Có ba kiểu nguồn tài liệu phân biệt bao gồm:Nguồn bên trong, internet và các dịch vụ.Nguồn bên trong: Trong một tổ chức, tài liệu và các loại văn bản khác như:email, máy chủ file, trong kho tài liệu, và trong hệ thống quản lý tài liệu. Trong khinhững hệ thống quản lý file, chúng không thể cung cấp đặc trưng phân tích tổng hợpvăn bản trong khai phá văn bản và truy xuất thông tin thông minh.Internet: Internet là nguồn văn bản tích hợp có khả năng lớn nhất cung cấp chochúng ta. Một vài kiểu khác nhau của kho văn bản trên internet, bao gồm: WWW, máychủ Gopher, và máy chủ FTP. Trong đó, dữ liệu tại WWW thật khó để phân loại toàn bộnội dung của WWW.Các dịch vụ: Các dịch vụ cung cấp truy cập đến CSDL riêng cho những kháchhàng của các doanh nghiệp và các tổ chức.3.1.2. Máy chủ xử lý văn bảnTrong môi trường kho tài liệu, có 4 kiểu máy chủ phân biệt: Máy chủ thu thậptài liệu, máy chủ phân tích văn bản, máy chủ xuất bản và phân tán, máy chủ lưu trữ.3.1.2 ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: