Danh mục

Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh tại các cơ quan - doanh nghiệp (Enterprise data warehouse in smart data analytics and management)

Số trang: 14      Loại file: pdf      Dung lượng: 627.84 KB      Lượt xem: 12      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết "Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh tại các cơ quan - doanh nghiệp (Enterprise data warehouse in smart data analytics and management)" giới thiệu giải pháp tổ chức hình thành hệ thống Kho dữ liệu (Data Warehouse) tại các cơ quan, doanh nghiệp phục vụ cho việc quản trị dữ liệu thông minh và phân tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh tại các cơ quan - doanh nghiệp (Enterprise data warehouse in smart data analytics and management) KHO DỮ LIỆU TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG MINH TẠI CÁC CƠ QUAN - DOANH NGHIỆP (Enterprise Data Warehouse in Smart Data Analytics and Management) VÕ XUÂN THỂ Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email: vxthe@ufm.edu.vn Tóm tắt: Bài viết này giới thiệu giải pháp tổ chức hình thành hệ thống Kho dự liệu (Data Warehouse) tại các cơ quan, doanh nghiệp phục vụ cho việc quản trị dữ liệu thông minh và phân tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu. Đây là một giải pháp thuộc lĩnh vực Khoa học dữ liệu – Data Science – cung cấp nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản lý và là cơ sở hình thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần thứ 4 (CMCN 4.0). Nền tảng chính của việc quản trị dữ liệu thông minh nhờ Data Warehouse là Mô hình CSDL đa chiều (Dimensional Modeling) và luồng công việc tích hợp dữ liệu (Data Integration Workflows) thông qua OLTP (On-Line Transaction Processing: Xử lý giao dịch trực tuyến). Nền tảng chính của việc phân tích dữ liệu thông minh nhờ Data Warehouse là hệ thống công cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing: OLAP)và ngôn ngữ vấn tin phân tích với các dạng SQL Subtotal, SQL Analytic và Materialized View. Từ khóa: Kho dữ liệu – Data Warehouse, Phân tích dữ liệu thông minh – Smart Data analytics, Quản trị dữ liệu thông tin – Smart Data Management. 1. GIỚI THIỆU CHUNG Kho dự liệu (còn gọi là Nhà kho dữ liệu: Data Warehouse) là mô hình nền tảng tổ chức hình thành hệ thống dữ liệu lâu dài phục vụ cho việc quản trị dữ liệu thông minh và phân tích dữ liệu thông minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu tại các cơ quan, doanh nghiệp. Đây cũng là nền tảng hình thành BigData. Kho dự liệu cung cấp một giải pháp thuộc lĩnh vực Khoa học dữ liệu – Data Science – là nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản lý và là cơ sở hình thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần thứ 4 (CMCN 4.0). 1. Nền tảng chính của việc quản trị dữ liệu thông minh nhờ Data Warehouse là + Mô hình CSDL đa chiều (Dimensional Modeling) và 336 + Luồng công việc tích hợp dữ liệu (Data Integration Workflows) thông qua OLTP (On-Line Transaction Processing: Xử lý giao dịch trực tuyến). 2. Nền tảng chính của việc phân tích dữ liệu thông minh nhờ Data Warehouse là + Hệ thống công cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing: OLAP) và + ngôn ngữ vấn tin phân tích với các dạng SQL Subtotal, SQL Analytic và Materialized View. Bài viết này nhằm giới thiệu tổng quan và minh họa tổ chức cài đặt Kho dữ liệu trong thực tiễn nhằm giúp người đọc có cái nhìn tổng quan về Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh. Đối tượng tham khảo bài viết này gồm: các giảng viên đại học, người học, nhà nghiên cứu thuộc chuyên ngành Khoa học dữ liệu và Khoa học máy tính nói chung. 2. GIỚI THIỆU VỀ KHO DỮ LIỆU 2.1. “Kho dữ liệu” (Data Warehouse: DWH) 1 “Kho dữ liệu” còn gọi là “Nhà kho dữ liệu” là một lĩnh vực Khoa học dữ liệu nghiên cứu và ứng dụng các mô hình tổ chức hệ thống dữ liệu tích hợp (Integrated) từ nhiều nguồn khác nhau từ các các Hệ quản trị Cơ sở dữ liệu khác nhau; trên cơ sở đó hình thành một cơ sở dữ liệu có cố lượng (nhiều table với lượng mẫu tin) rất lớn. Hệ thống dữ liệu này phục vụ cho cơ chế phân tích đánh giá các dữ liệu tích hợp (Factors) theo nhiều chiều (Dims) khác nhau phục vụ cho hoạch định chiến lược, chiến thuật hoạt động của các cơ quan – doanh nghiệp, như Hình 2. Như vậy có thể xem Data warehouse là cơ sở nền tảng cho Data Mining (Khai phá dữ liệu). Hình 2. Mô hình kho dữ liệu 1 Có nhiều khái niệm về DWH (theo nhiều góc độ khác nhau), đây là khái niệm được tổng hợp và biên tập bởi tác giải bài viết này. 337 Theo khái niệm của wikipedia: Kho dữ liệu (tiếng Anh: data warehouse) là kho lưu trữ dữ liệu lưu trữ bằng thiết bị điện tử của một tổ chức. Các kho dữ liệu được thiết kế để hỗ trợ việc phân tích dữ liệu và lập báo cáo. Định nghĩa cổ điển này về kho dữ liệu tập trung vào việc lưu trữ dữ liệu. Tuy nhiên, các phương tiện cho việc lấy và phân tích, trích rút, biến đổi, nạp dữ liệu, và quản lý dữ liệu từ điển cũng được coi là các thành phần cốt yếu của một hệ thống kho dữ liệu. Nhiều người sử dụng thuật ngữ 'kho dữ liệu' với ngữ cảnh rộng hơn. Một định nghĩa mở rộng cho kho dữ liệu bao gồm cả các công cụ thông minh, các công cụ để trích, biến đổi và nạp dữ liệu vào kho, và các công cụ để quản lý và lấy siêu dữ liệu (meta data). Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày càng nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ trợ cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Quá trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm sau: 1. Dữ liệu tích hợp (Atomicity): Dữ liệu tập hợp từ nhiều nguồn khác nhau. Điều này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu. 2. Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tập hợp, người ta chỉ lấy những dữ liệu có ích. 3. Biến thời gian (Isolation): Các ...

Tài liệu được xem nhiều:

Tài liệu liên quan: