Danh mục

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh

Số trang: 47      Loại file: pdf      Dung lượng: 1.94 MB      Lượt xem: 6      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 7,000 VND Tải xuống file đầy đủ (47 trang) 0
Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh. Chương này cung cấp cho học viên những kiến thức về: lựa chọn mẫu, làm sạch dữ liệu, tích hợp và biến đổi dữ liệu; tổ chức và cài đặt kho dữ liệu (Data warehouse), tổ chức và cài đặt Data Mart;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh Đọc sách: Business Intelligence Concepts and Applications BI for Better Decisions : Decision Types BI Tools BI Skills BI Applications : Customer Relationship Management; Health Care and Wellness ; Education; Retail; Banking; Financial Services; Insurance; Manufacturing; Telecom; Government. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 41 Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh2.1. Tiền xử lý dữ liệu 2.1.1. Lựa chọn mẫu 2.1.2. Làm sạch dữ liệu 2.1.3. Tích hợp và biến đổi dữ liệu2.2. Tổ chức dữ liệu 2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse) 2.2.2. Tổ chức và cài đặt Data Mart KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 42 212.1. Tiền xử lý dữ liệuLàm cho dữ liệu có được ban đầu qua thu thập dữliệu (gọi là dữ liệu gốc original data) có thể áp dụngđược (thích hợp) với các mô hình khai phá dữ liệu(data mining model) cụ thể.Các công việc:◦ Filtering Attributes (rút gọn thuộc tính)◦ Filtering samples (rút gọn dữ liệu)◦ Clean data (làm sạch dữ liệu)◦ Transformation:◦ Discretization (rời rạc hóa dữ liệu): KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 432.1.1. Lựa chọn mẫuMục đích loại bỏ những thuộc tính không cần thiết,dư thừa khỏi quá trình học.Những vấn đề gặp phải: ◦ Sự đa dạng và không đồng nhất: nhiều dạng, nhiều nguồn ◦ Quy mô dữ liệu: dung lượng và quy mô của dữ liệu lớn đòi hỏi các công cụ quản lý và khai phá dữ liệu phải được cải tiến, nâng cấp cho phù hợp ◦ Tốc độ/tính chuyển động liên tục của dữ liệu: các dòng dữ liệu (data stream) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44 22 Tính chính xác và tin cậy Bảo mật dữ liệu Sự tương tác KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 45 Các công thức đánh giáConfusion matrixCác độ đo KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 46 23Phân chia tập dữ liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 472.1.2. Làm sạch dữ liệuĐiền giá trị bị thiếu (missing values)Dữ liệu nhiễuHồi quy tuyến tính KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 48 24Một số phương pháp để điềngiá trị thiếuBỏ qua các trường có chứa những giá trị nàyĐiền vào các giá trị thiếu thủ côngSử dụng các giá trị quy ước (NULL/0)Sử dụng những giá trị bình quânSử dụng các giá trị của các bộ cùng loại đểthay thế cho giá trị thiếuSử dụng giá trị có tỉ lệ xuất hiện cao để điềnvào cho các giá trị thiếu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 49Dữ liệu nhiễuDữ liệu nhiễu là các dữ liệu nằm ở nhữngkhoảng không đồng đều, có những giá trịnằm ở nhóm cao thấp, bất thường khôngtheo quy luật.Việc làm mịn một giá trị dữ liệu được xácđịnh thông qua các giá trị xung quanh nóđược gọi là Bin. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 50 25VDOutliers: giá trị 79.29 có thể là 7.929 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 51Ví dụ: Giả sử ta có một danh sách các giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34Ta có thể phân chia thành các binBin 1: 4, 8 , 15Bin 2: 21, 21, 24Bin 3: 25, 28, 34Trong trường hợp làm mịn sử dụng phương pháp trung vị, thì các bin có thể là:Bin 1: 9, 9 ,9Bin 2: 22, 22, 22Bin 3: 29, 29, 29Trong trường hợp làm mịn biênBin 1: 4, 4, 15Bin 2: 21, 21, 24Bin 3: 25, 25, 34 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 52 26Hồi quy tuyến tínhTìm ra được một mối quan hệ tốt nhất giữa haithuộc tính (hoặc các biến), từ đó một thuộctính có thể dùng để dự đoán thuộc tính khác.Phương pháp nhóm cụm: Các giá trị tương tựnhau được tổ chức thành các nhóm hay “cụmtrực quan. Các giá trị rơi ra bên ngoài cácnhóm này sẽ được xem xét để làm mịn. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 53Xây dựng công cụ khảo sátCông cụ thực nghiệm-Phiếu khảo sát:-Qui tắc mã hóa và qui đổi điểm về thang đo các cấp độ hỏi KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 54 27 Thống kê và kiểm định dữ liệu Thống kê dữ liệu Thống kê dữ liệu trong Excel KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 55 Khái niệm về kiểm định giả thiếtCho một tổng thể (tập giá trị quan sát), ta thường chỉ có thể lấy ramột mẫu (tập con các giá trị quan sát) theo lý thuyết lấy mẫu, đểphân tích, xử lí.Từ đặc trưng của mẫu, ta suy ra (ước lượng) tổng thể cũng có đặctrưng như t ...

Tài liệu được xem nhiều: