![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc Duy
Số trang: 55
Loại file: pdf
Dung lượng: 1.35 MB
Lượt xem: 15
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tiếp tục chương 2, chương 3 của Bài giảng Kho dữ liệu và khai phá dữ liệu gồm các nội dung về khái niệm kho dữ liệu, mô hình dữ liệu đa chiều, kiến trúc của kho dữ liệu, cài đặt kho dữ liệu và xử lí phân tích trực tuyến, kho dữ liệu hỗ trợ quyết định.Mời các bạn tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc DuyKHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU1 1 Nội dung1. Khái niệm về kho dữ liệu.2. Mô hình dữ liệu đa chiều3. Kiến trúc của kho dữ liệu.4. Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến.5. Liên hệ công nghệ kho dữ liệu với khai pha dữ liệu.6. Xây dựng kho dữ liệu với mục đích hỗ trợ quyết định. 2 Khái niệm về kho dữ liệu Kho dữ liệu (data warehouse) là nơi lưu trữ dữ liệu. Dữ liệu được tích hợp. Dữ liệu được thu thập từ nhiều nguồn: Khác về không gian, Khác về thời gian, Khác về thể hiện và cấu trúc. Lưu trữ dữ liệu, thông tin, tri thức và siêu dữ liệu phục vụ cho phân tích. Các tổ chức có thể chết đuối trong dữ liệu nhưng đói thông tin. 3 Khái niệm về kho dữ liệu Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực hẹp gọi là Data Mart. Một Data warehouse có thể hình thành nhiều Data Mart. Thuật ngữ Data Warehousing: Quá trình xây dựng và sử dụng một kho dữ liệu. 4 Khái niệm về kho dữ liệu Công cụ ETL (Extract – Transform – Load): Rút trích (Extract): Rút trích thông tin từ những nguồn đã có, Những phiên bản phụ thuộc thời gian của dữ liệu, Chọn lựa dữ liệu. Chuyển đổi (Transform): Chuyển đổi các định dạng khác nhau về định dạng cho trước. Tải (Load) Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch. 5 Các đặc tính của kho dữ liệu Dữ liệu hướng chủ thể: Dữ liệu hướng theo từng nhóm đối tượng: khách hang, bệnh nhân, sản phẩm, … Tập trung vào việc mô hình hóa và phân tích các dữ liệu cho các nhà sản xuất quyết định Chuyển từ hướng ứng dụng sang hướng hỗ trợ quyết định. Không dùng cho các hoạt động hang ngày hoặc xử lý giao dịch. 6 Các đặc tính của kho dữ liệu Tính tích hợp: Dữ liệu được tập hợp từ nhiều nguồn: có thể khác kiểu, khác cấu trúc, … Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu trúc, tập tin phẳng, … Cần được chuẩn hóa để đảm bảo tính nhất quán trong quy ước đặt tên, … Việc chuẩn hóa cần thực hiện trước khi tích hợp. 7 Các đặc tính của kho dữ liệu Dữ liệu biến thời gian. Thông tin về quá khứ, hiện tại, So sánh dữ liệu theo chiều thời gian, Hỗ trợ quyết định cho tương lai. Thành phần thời gian có thể tường minh hoặc ngầm định. Dữ liệu mang tính bền vững, chỉ đọc (non volatile): Có thể thêm vào, nhưng không thay thế, Phục vụ việc nghiên cứu, phân tích 8 Sự cần thiết của kho dữ liệu Phục vụ các phân tích dữ liệu phức tạp: Phân tích định hướng, Phân tích chuỗi thời gian, Phân tích rủi ro. Hỗ trợ khám phá thông tin, tri thức ẩn. Hỗ trợ ra quyết định. 9 Mô hình dữ liệu đa chiều Kho dữ liệu dựa trên mô hình dữ liệu đa chiều cho phép nhìn dữ liệu dưới hình thức của một khối dữ liệu Một khối dữ liệu cho phép dữ liệu được mô hình và được nhìn trong nhiều chiều bởi: Các bản chiều (Dimension Tables) như Item (item_name, brand, type); time(day, week, month). Một khối dữ liệu dựa trên n-D (n chiều) được gọi là một cuboid cơ sở. 10 Mô hình dữ liệu đa chiều Cube: một lưới các cuboid 11 Mô hình dữ liệu đa chiều Mô hình ý niệm của Kho dữ liệu Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa nối đến một tập bảng chiều Lược đồ hình bông tuyết (Snowflake schema): Là lược đồ tinh chế từ lược đồ hình sao (một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn). Chòm sao sự kiện (Fact constellation): Nhiều bảng sự kiện chia sẽ các bảng chiều. Một cách gọi khác cho lược đồ này Galaxy schema (lược đồ thiên hà) 12 Mô hình dữ liệu đa chiều Lược đồ hình sao Bảng sự kiện chứa dữ liệu sự kiện ...
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 3 - Nguyễn Ngọc DuyKHÁI NIỆM CHUNG VỀ KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU1 1 Nội dung1. Khái niệm về kho dữ liệu.2. Mô hình dữ liệu đa chiều3. Kiến trúc của kho dữ liệu.4. Cài đặt kho dữ liệu và Xử lý phân tích trực tuyến.5. Liên hệ công nghệ kho dữ liệu với khai pha dữ liệu.6. Xây dựng kho dữ liệu với mục đích hỗ trợ quyết định. 2 Khái niệm về kho dữ liệu Kho dữ liệu (data warehouse) là nơi lưu trữ dữ liệu. Dữ liệu được tích hợp. Dữ liệu được thu thập từ nhiều nguồn: Khác về không gian, Khác về thời gian, Khác về thể hiện và cấu trúc. Lưu trữ dữ liệu, thông tin, tri thức và siêu dữ liệu phục vụ cho phân tích. Các tổ chức có thể chết đuối trong dữ liệu nhưng đói thông tin. 3 Khái niệm về kho dữ liệu Kho dữ liệu dung cho mục đích riêng biệt, lĩnh vực hẹp gọi là Data Mart. Một Data warehouse có thể hình thành nhiều Data Mart. Thuật ngữ Data Warehousing: Quá trình xây dựng và sử dụng một kho dữ liệu. 4 Khái niệm về kho dữ liệu Công cụ ETL (Extract – Transform – Load): Rút trích (Extract): Rút trích thông tin từ những nguồn đã có, Những phiên bản phụ thuộc thời gian của dữ liệu, Chọn lựa dữ liệu. Chuyển đổi (Transform): Chuyển đổi các định dạng khác nhau về định dạng cho trước. Tải (Load) Sắp xếp, hợp nhất, lập chỉ mục, … và phân hoạch. 5 Các đặc tính của kho dữ liệu Dữ liệu hướng chủ thể: Dữ liệu hướng theo từng nhóm đối tượng: khách hang, bệnh nhân, sản phẩm, … Tập trung vào việc mô hình hóa và phân tích các dữ liệu cho các nhà sản xuất quyết định Chuyển từ hướng ứng dụng sang hướng hỗ trợ quyết định. Không dùng cho các hoạt động hang ngày hoặc xử lý giao dịch. 6 Các đặc tính của kho dữ liệu Tính tích hợp: Dữ liệu được tập hợp từ nhiều nguồn: có thể khác kiểu, khác cấu trúc, … Các nguồn: cơ sở dữ liệu quan hệ, tập tin có cấu trúc, tập tin phẳng, … Cần được chuẩn hóa để đảm bảo tính nhất quán trong quy ước đặt tên, … Việc chuẩn hóa cần thực hiện trước khi tích hợp. 7 Các đặc tính của kho dữ liệu Dữ liệu biến thời gian. Thông tin về quá khứ, hiện tại, So sánh dữ liệu theo chiều thời gian, Hỗ trợ quyết định cho tương lai. Thành phần thời gian có thể tường minh hoặc ngầm định. Dữ liệu mang tính bền vững, chỉ đọc (non volatile): Có thể thêm vào, nhưng không thay thế, Phục vụ việc nghiên cứu, phân tích 8 Sự cần thiết của kho dữ liệu Phục vụ các phân tích dữ liệu phức tạp: Phân tích định hướng, Phân tích chuỗi thời gian, Phân tích rủi ro. Hỗ trợ khám phá thông tin, tri thức ẩn. Hỗ trợ ra quyết định. 9 Mô hình dữ liệu đa chiều Kho dữ liệu dựa trên mô hình dữ liệu đa chiều cho phép nhìn dữ liệu dưới hình thức của một khối dữ liệu Một khối dữ liệu cho phép dữ liệu được mô hình và được nhìn trong nhiều chiều bởi: Các bản chiều (Dimension Tables) như Item (item_name, brand, type); time(day, week, month). Một khối dữ liệu dựa trên n-D (n chiều) được gọi là một cuboid cơ sở. 10 Mô hình dữ liệu đa chiều Cube: một lưới các cuboid 11 Mô hình dữ liệu đa chiều Mô hình ý niệm của Kho dữ liệu Lược đồ hình sao (Star schema): Một bảng sự kiện ở giữa nối đến một tập bảng chiều Lược đồ hình bông tuyết (Snowflake schema): Là lược đồ tinh chế từ lược đồ hình sao (một vài chiều có sự phân cấp được chuẩn hóa thành một tập các bảng chiều nhỏ hơn). Chòm sao sự kiện (Fact constellation): Nhiều bảng sự kiện chia sẽ các bảng chiều. Một cách gọi khác cho lược đồ này Galaxy schema (lược đồ thiên hà) 12 Mô hình dữ liệu đa chiều Lược đồ hình sao Bảng sự kiện chứa dữ liệu sự kiện ...
Tìm kiếm theo từ khóa liên quan:
Kho dữ liệu và khai phá dữ liệu Bài giảng Khai phá dữ liệu Khái niệm kho dữ liệu Kiến trúc của kho dữ liệu Xử lí phân tích trực tuyếnTài liệu liên quan:
-
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 64 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 49 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Clustering - Trịnh Tấn Đạt
70 trang 44 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Data preprocessing - Trịnh Tấn Đạt
71 trang 37 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Linear regression - Trịnh Tấn Đạt
64 trang 37 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Naïve Bayes Classification - Trịnh Tấn Đạt
36 trang 36 0 0 -
Bài giảng Khai phá dữ liệu: Chương 7 - TS. Võ Thị Ngọc Châu
40 trang 30 0 0 -
Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu
26 trang 29 0 0 -
81 trang 27 0 0
-
Bài giảng Khai phá dữ liệu (Data mining): Association rule - Trịnh Tấn Đạt
76 trang 27 0 0