Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh
Số trang: 47
Loại file: pdf
Dung lượng: 1.94 MB
Lượt xem: 6
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh. Chương này cung cấp cho học viên những kiến thức về: lựa chọn mẫu, làm sạch dữ liệu, tích hợp và biến đổi dữ liệu; tổ chức và cài đặt kho dữ liệu (Data warehouse), tổ chức và cài đặt Data Mart;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh Đọc sách: Business Intelligence Concepts and Applications BI for Better Decisions : Decision Types BI Tools BI Skills BI Applications : Customer Relationship Management; Health Care and Wellness ; Education; Retail; Banking; Financial Services; Insurance; Manufacturing; Telecom; Government. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 41 Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh2.1. Tiền xử lý dữ liệu 2.1.1. Lựa chọn mẫu 2.1.2. Làm sạch dữ liệu 2.1.3. Tích hợp và biến đổi dữ liệu2.2. Tổ chức dữ liệu 2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse) 2.2.2. Tổ chức và cài đặt Data Mart KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 42 212.1. Tiền xử lý dữ liệuLàm cho dữ liệu có được ban đầu qua thu thập dữliệu (gọi là dữ liệu gốc original data) có thể áp dụngđược (thích hợp) với các mô hình khai phá dữ liệu(data mining model) cụ thể.Các công việc:◦ Filtering Attributes (rút gọn thuộc tính)◦ Filtering samples (rút gọn dữ liệu)◦ Clean data (làm sạch dữ liệu)◦ Transformation:◦ Discretization (rời rạc hóa dữ liệu): KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 432.1.1. Lựa chọn mẫuMục đích loại bỏ những thuộc tính không cần thiết,dư thừa khỏi quá trình học.Những vấn đề gặp phải: ◦ Sự đa dạng và không đồng nhất: nhiều dạng, nhiều nguồn ◦ Quy mô dữ liệu: dung lượng và quy mô của dữ liệu lớn đòi hỏi các công cụ quản lý và khai phá dữ liệu phải được cải tiến, nâng cấp cho phù hợp ◦ Tốc độ/tính chuyển động liên tục của dữ liệu: các dòng dữ liệu (data stream) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44 22 Tính chính xác và tin cậy Bảo mật dữ liệu Sự tương tác KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 45 Các công thức đánh giáConfusion matrixCác độ đo KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 46 23Phân chia tập dữ liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 472.1.2. Làm sạch dữ liệuĐiền giá trị bị thiếu (missing values)Dữ liệu nhiễuHồi quy tuyến tính KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 48 24Một số phương pháp để điềngiá trị thiếuBỏ qua các trường có chứa những giá trị nàyĐiền vào các giá trị thiếu thủ côngSử dụng các giá trị quy ước (NULL/0)Sử dụng những giá trị bình quânSử dụng các giá trị của các bộ cùng loại đểthay thế cho giá trị thiếuSử dụng giá trị có tỉ lệ xuất hiện cao để điềnvào cho các giá trị thiếu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 49Dữ liệu nhiễuDữ liệu nhiễu là các dữ liệu nằm ở nhữngkhoảng không đồng đều, có những giá trịnằm ở nhóm cao thấp, bất thường khôngtheo quy luật.Việc làm mịn một giá trị dữ liệu được xácđịnh thông qua các giá trị xung quanh nóđược gọi là Bin. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 50 25VDOutliers: giá trị 79.29 có thể là 7.929 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 51Ví dụ: Giả sử ta có một danh sách các giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34Ta có thể phân chia thành các binBin 1: 4, 8 , 15Bin 2: 21, 21, 24Bin 3: 25, 28, 34Trong trường hợp làm mịn sử dụng phương pháp trung vị, thì các bin có thể là:Bin 1: 9, 9 ,9Bin 2: 22, 22, 22Bin 3: 29, 29, 29Trong trường hợp làm mịn biênBin 1: 4, 4, 15Bin 2: 21, 21, 24Bin 3: 25, 25, 34 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 52 26Hồi quy tuyến tínhTìm ra được một mối quan hệ tốt nhất giữa haithuộc tính (hoặc các biến), từ đó một thuộctính có thể dùng để dự đoán thuộc tính khác.Phương pháp nhóm cụm: Các giá trị tương tựnhau được tổ chức thành các nhóm hay “cụmtrực quan. Các giá trị rơi ra bên ngoài cácnhóm này sẽ được xem xét để làm mịn. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 53Xây dựng công cụ khảo sátCông cụ thực nghiệm-Phiếu khảo sát:-Qui tắc mã hóa và qui đổi điểm về thang đo các cấp độ hỏi KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 54 27 Thống kê và kiểm định dữ liệu Thống kê dữ liệu Thống kê dữ liệu trong Excel KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 55 Khái niệm về kiểm định giả thiếtCho một tổng thể (tập giá trị quan sát), ta thường chỉ có thể lấy ramột mẫu (tập con các giá trị quan sát) theo lý thuyết lấy mẫu, đểphân tích, xử lí.Từ đặc trưng của mẫu, ta suy ra (ước lượng) tổng thể cũng có đặctrưng như t ...
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh Đọc sách: Business Intelligence Concepts and Applications BI for Better Decisions : Decision Types BI Tools BI Skills BI Applications : Customer Relationship Management; Health Care and Wellness ; Education; Retail; Banking; Financial Services; Insurance; Manufacturing; Telecom; Government. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 41 Chương 2: Tiền xử lý và Tổ chức dữ liệu kinh doanh2.1. Tiền xử lý dữ liệu 2.1.1. Lựa chọn mẫu 2.1.2. Làm sạch dữ liệu 2.1.3. Tích hợp và biến đổi dữ liệu2.2. Tổ chức dữ liệu 2.2.1. Tổ chức và cài đặt kho dữ liệu (Data warehouse) 2.2.2. Tổ chức và cài đặt Data Mart KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 42 212.1. Tiền xử lý dữ liệuLàm cho dữ liệu có được ban đầu qua thu thập dữliệu (gọi là dữ liệu gốc original data) có thể áp dụngđược (thích hợp) với các mô hình khai phá dữ liệu(data mining model) cụ thể.Các công việc:◦ Filtering Attributes (rút gọn thuộc tính)◦ Filtering samples (rút gọn dữ liệu)◦ Clean data (làm sạch dữ liệu)◦ Transformation:◦ Discretization (rời rạc hóa dữ liệu): KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 432.1.1. Lựa chọn mẫuMục đích loại bỏ những thuộc tính không cần thiết,dư thừa khỏi quá trình học.Những vấn đề gặp phải: ◦ Sự đa dạng và không đồng nhất: nhiều dạng, nhiều nguồn ◦ Quy mô dữ liệu: dung lượng và quy mô của dữ liệu lớn đòi hỏi các công cụ quản lý và khai phá dữ liệu phải được cải tiến, nâng cấp cho phù hợp ◦ Tốc độ/tính chuyển động liên tục của dữ liệu: các dòng dữ liệu (data stream) KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 44 22 Tính chính xác và tin cậy Bảo mật dữ liệu Sự tương tác KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 45 Các công thức đánh giáConfusion matrixCác độ đo KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 46 23Phân chia tập dữ liệu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 472.1.2. Làm sạch dữ liệuĐiền giá trị bị thiếu (missing values)Dữ liệu nhiễuHồi quy tuyến tính KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 48 24Một số phương pháp để điềngiá trị thiếuBỏ qua các trường có chứa những giá trị nàyĐiền vào các giá trị thiếu thủ côngSử dụng các giá trị quy ước (NULL/0)Sử dụng những giá trị bình quânSử dụng các giá trị của các bộ cùng loại đểthay thế cho giá trị thiếuSử dụng giá trị có tỉ lệ xuất hiện cao để điềnvào cho các giá trị thiếu KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 49Dữ liệu nhiễuDữ liệu nhiễu là các dữ liệu nằm ở nhữngkhoảng không đồng đều, có những giá trịnằm ở nhóm cao thấp, bất thường khôngtheo quy luật.Việc làm mịn một giá trị dữ liệu được xácđịnh thông qua các giá trị xung quanh nóđược gọi là Bin. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 50 25VDOutliers: giá trị 79.29 có thể là 7.929 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 51Ví dụ: Giả sử ta có một danh sách các giá trị sau: 4, 8, 15, 21, 21, 24, 25, 28, 34Ta có thể phân chia thành các binBin 1: 4, 8 , 15Bin 2: 21, 21, 24Bin 3: 25, 28, 34Trong trường hợp làm mịn sử dụng phương pháp trung vị, thì các bin có thể là:Bin 1: 9, 9 ,9Bin 2: 22, 22, 22Bin 3: 29, 29, 29Trong trường hợp làm mịn biênBin 1: 4, 4, 15Bin 2: 21, 21, 24Bin 3: 25, 25, 34 KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 52 26Hồi quy tuyến tínhTìm ra được một mối quan hệ tốt nhất giữa haithuộc tính (hoặc các biến), từ đó một thuộctính có thể dùng để dự đoán thuộc tính khác.Phương pháp nhóm cụm: Các giá trị tương tựnhau được tổ chức thành các nhóm hay “cụmtrực quan. Các giá trị rơi ra bên ngoài cácnhóm này sẽ được xem xét để làm mịn. KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 53Xây dựng công cụ khảo sátCông cụ thực nghiệm-Phiếu khảo sát:-Qui tắc mã hóa và qui đổi điểm về thang đo các cấp độ hỏi KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 54 27 Thống kê và kiểm định dữ liệu Thống kê dữ liệu Thống kê dữ liệu trong Excel KHAI PHÁ DỮ LIỆU TRONG KINH DOANH 55 Khái niệm về kiểm định giả thiếtCho một tổng thể (tập giá trị quan sát), ta thường chỉ có thể lấy ramột mẫu (tập con các giá trị quan sát) theo lý thuyết lấy mẫu, đểphân tích, xử lí.Từ đặc trưng của mẫu, ta suy ra (ước lượng) tổng thể cũng có đặctrưng như t ...
Tìm kiếm theo từ khóa liên quan:
Khai phá dữ liệu trong kinh doanh Bài giảng Khai phá dữ liệu trong kinh doanh Tiền xử lý dữ liệu Tổ chức dữ liệu kinh doanh Làm sạch dữ liệu Cài đặt kho dữ liệuGợi ý tài liệu liên quan:
-
8 trang 131 0 0
-
Bài giảng Phân tích dữ liệu với SPSS - TS. Nguyễn Thị Phương Giang
40 trang 111 0 0 -
8 trang 41 0 0
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
31 trang 41 0 0 -
Đề xuất thuật toán dựa trên chatbot để phát hiện các bình luận nhạy cảm
8 trang 31 0 0 -
Bài giảng Khai phá Web: Giới thiệu môn học - TS. Nguyễn Kiêm Hiếu
3 trang 28 0 0 -
Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu
26 trang 27 0 0 -
Đề cương chi tiết học phần Khai thác dữ liệu (Data mining)
7 trang 27 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 2: Thu thập và tiền xử lý dữ liệu
20 trang 27 0 0 -
Luận văn tốt nghiệp: Khai mỏ dữ liệu và khám phá tri thức - ĐH Tây Đô
104 trang 26 0 0