Danh mục

Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 2

Số trang: 97      Loại file: pdf      Dung lượng: 5.26 MB      Lượt xem: 10      Lượt tải: 0    
Thư viện của tui

Xem trước 10 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nối tiếp phần 1, Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 2 tiếp tục trình bày những nội dung về công nghệ kho dữ liệu và xử lý phân tích trực tuyến; mô hình dữ liệu đa chiều; cài đặt kho dữ liệu; xây dựng kho dữ liệu với mục đích hỗ trợ quyết định (DSS); khai phá dữ liệu; tiền xử lý dữ liệu trước khi khai phá; phương pháp khai phá bằng luật kết hợp; phương pháp cây quyết định;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu (2014): Phần 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG -------------------- KHOA CÔNG NGHỆ THÔNG TIN BÀI GIẢNG KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU NGUYỄN QUỲNH CHI HàNội 2014 Chương 3: Công nghệ kho dữ liệu và xử lý phân tích trực tuyếnNội dung chương này bao gồm: 1. Khái niệm về kho dữ liệu 2. Mô hình dữ liệu đa chiều 3. Kiến trúc kho dữ liệu 4. Cài đặt kho dữ liệu 5. Tương lai phát triển công nghệ khối dữ liệu 6. Từ công nghệ kho dữ liệu đến khai phá dữ liệu3.1 Khái niệm về kho dữ liệu Kho dữ liệu được định nghĩa theo nhiều cách khác nhau, nhưng không chặt chẽ:- Có thể được coi như một cơ sở dữ liệu hỗ trợ quyết định mà được duy trì một cách riêng biệt từ cơ sở dữ liệu tác nghiệp của một tổ chức.- Hỗ trợ xử lý thông tin bằng cách cung cấp một nền tảng vững chắc dữ liệu lịch sử và hợp nhất cho việc phân tích.Một trong những định nghĩa hay gặp của kho dữ liệu của W.H .Inmon đuợc phát biểu như sau:Một kho dữ liệu là một bộ dữ liệu hướng chủ đề, tích hợp, biến động theo thời gian, vàkhông mất đi được sử dụng để hỗ trợ quá trình ra quyết định quản lý “Khái niệm công nghệ kho dữ liệu được dùng để chỉ quá trình xây dựng và sử dụng kho dữ liệu.Tiếp tới chúng ta cùng phân tích kỹ hơn các đặc điểm của kho dữ liệu được nêu ra trong địnhnghĩa trên.- Đặc điểm hướng chủ đề của khi dữ liệu được thể hiện: o Qua việc cung cấp một khung nhìn xúc tích và đơn giản xung quanh các vấn đề của một chủ đề cụ thể. Chúng ta có thể thực hiện đặc điểm này bằng cách loại trừ các dữ liệu không hữu ích trong tiến trình hỗ trợ quyết định. o Qua việc được tổ chức xung quanh các đối tượng chính, chẳng hạn như khách hàng, sản phẩm, bán hàng. o Qua viêc tập trung vào mô hình hóa và phân tích các dữ liệu cho những người ra quyết định, không phải cho các hoạt động tác nghiệp hàng ngày hoặc cho xử lý giao dịch.- Kho dữ liệu có tính tích hợp được thể hiện qua các đặc điểm sau: 79 o Được xây dựng bằng cách tích hợp nhiều nguồn dữ liệu không đồng nhất như cơ sở dữ liệu quan hệ, các tệp lưu trữ bằng văn bản, các bản ghi của giao dịch trực tuyến o Dữ liệu được làm sạch và tích hợp bằng các kỹ thuật tích hợp dữ liệu để đảm bảo tính nhất quán trong quy ước đặt tên, mã hóa cấu trúc, các độ đo thuộc tính , v.v…giữa các nguồn dữ liệu khác nhau ví dụ như Giá khách sạn bao gồm đơn vị tiền tệ, thuế, giá ăn sáng ... o Khi dữ liệu được chuyển đến kho, nó cần được chuyển đổi sang một dạng thống nhất.- Kho dữ liệu biến đổi theo thời gian được thể hiện ở các đặc điểm sau: o Trục hoành chỉ thời gian trong các kho dữ liệu dài hơn đáng kể so với các hệ thống tác nghiệp vì trong cơ sở dữ liệu tác nghiệp thể hiện giá trị hiện hành của dữ liệu còn trong kho dữ liệu cung cấp thông tin từ một khung nhìn lịch sử (ví dụ, dữ liệu qua 5- 10 năm) o Tất cả các cấu trúc quan trọng trong kho dữ liệu đều chứa yếu tố về thời gian một cách tường minh hoặc không tường minh. Cách thể hiện thời gian một cách tường minh là trong cấu trúc của dữ liệu có một thuộc tính thời gian, cách không tường minh thường được thể hiện thông qua một số các thuộc tính khác mà không nói rõ đó là thời gian, sự không tường minh được thể hiện khác nhau trong các trường hợp khác nhau. Tuy nhiên, khóa của dữ liệu tác nghiệp có thể chứa hoặc không chứa những yếu tố thời gian.- Kho dữ liệu là không mất đi khi tắt điện được thể hiện ở những đặc điểm sau o Là một kho lưu trữ riêng biệt về mặt vật lý của những dữ liệu được chuyển đổi từ môi trường tác nghiệp vào. o Thao tác cập nhật dữ liệu tác nghiệp không nhất thiết xảy ra trong môi trường kho dữ liệu. Lý do là vì  Kho dữ liệu không chứa thông tin về xử lý giao dịch, phục hồi dữ liệu và các cơ chế kiểm soát việc xảy ra đồng thời.  Thường chỉ đòi hỏi có hai thao tác truy xuất dữ liệu là tải dữ liệu vào kho lúc khởi tạo và truy nhập dữ liệu có sẵn trong kho.So sánh kho dữ liệu với cơ sở dữ liệu hỗn tạp 80Chúng ta dễ nhầm lẫn kho dữ liệu với cơ sở dữ liệu hỗn tạp bởi cả hai đều chứa nhiều loại dữliệu khác nhau và các dữ liệu này được tích hợp lại trong một thể thống nhất. Tuy nhiên kho dữliệu khác hẳn cơ sở dữ liệu hỗn tạp về bản chất:- Việc tích hợp cơ sở dữ liệu hỗn tạp truyền thống cần o Xây dựng một thành phần đóng gói (trung gian, bao bọc) cho toàn bộ các dữ liệu hỗn tạp khác nhau o Có cách tiếp cận hướng truy vấn có nghĩa là một truy v ...

Tài liệu được xem nhiều: