Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 5 - Nguyễn Hoàng Ân (2018)
Số trang: 172
Loại file: pdf
Dung lượng: 3.75 MB
Lượt xem: 9
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng "Khai phá dữ liệu - Chương 5: Khai phá dữ liệu trong kinh doanh" cung cấp cho người học các kiến thức: Hiểu dữ liệu và chuẩn bị dữ liệu, vai trò của tiền xử lý dữ liệu, nhiệm vụ chính của tiền xử lí dữ liệu. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 5 - Nguyễn Hoàng Ân (2018) Chương 5:Khai phá dữ liệu trong kinh doanhPhần 1:Tiền xử lí dữ liệu1. Hiểu dữ liệu và chuẩn bị dữ liệu2. Vai trò của tiền xử lý dữ liệu3. Nhiệm vụ chính của tiền xử lí dữ liệu1. Những vấn đề cơ bản để hiểu dữliệuCách thu thập được dữ liệu cần thiết để mô hình hóa: Data AcquisitionCách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau Data Integeation.Mô tả dữ liệu Data DescriptionĐánh giá chất lượng (độ sạch) của dữ liệu Data Assessment1.1 Thu thập dữ liệuCách thu thập dữ liệu cần thiết để mô hình hóa (Data Acquisition) Trích chọn dữ liệu theo câu hỏi từ CSDL tới tập tin phẳng (Flat file) Ngôn ngữ hỏi bậc cao truy nhập trực tiếp CSDL Kết nối mức thấp để truy nhập trực tiếp CSDL • Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối lượng lớn dữ liệu • Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa • Rút gọn sự tăng không cần thiết của dữ liệu • Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan tâm đúng đắn1.2 Tích hợp dữ liệuCách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau Data Integeation.1.3 Mô tả dữ liệuGiá trị kỳ vọng (mean) Xu hướng trung tâm của tập dữ liệuĐộ lệch chuẩn (Standard deviation) Phân bố dữ liệu xung quanh kỳ vọngCực tiểu (Minimum) Giá trị nhỏ nhấtCực đại (Maximum) Giá trị lớn nhấtBảng tần suất (Frequency tables) Phân bố tần suất giá trị của các biếnLược đồ (Histograms) Cung cấp kỹ thuật đồ họa biểu diễn tần số giá trị của một biếnMô tả dữ liệu 13, 18, 13, 14, 13, 16, 14, 21, 131.4 Đánh giá và lập hồ sơ dữ liệuĐánh giá dữ liệu Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định cách nắm bắt vấn đề Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề Kiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng của dữ liệu chất lượng kém.Lập hồ sơ dữ liệu (cơ sở căn cứ: phân bố dữ liệu) Tâm của dữ liệu Các ngoại lai tiềm năng bất kỳ Số lượng và phân bố các khoảng trong trong mọi trường hợp Bất cứ dữ liệu đáng ngờ, như mã thiếu (miscodes), dữ liệu học, dữ liệu test, hoặc chỉ đơn giản dữ liệu rác Những phát hiện nên được trình bày dưới dạng các báo cáo và liệt kê như các mốc quan trọng của kế hoạch2. Vai trò của tiền xử lý dữ liệuKhông có dữ liệu tốt, không thể có kết quả khai phá tốt! Quyết định chất lượng phải dựa trên dữ liệu chất lượng • Chẳng hạn, dữ liệu bội hay thiếu là nguyên nhân thống không chính xác, thậm chí gây hiểu nhầm. Kho dữ liệu cần tích hợp nhất quán của dữ liệu chất lượngPhân lớn công việc xây dựng một kho dữ liệu là trích chọn, làm sạch và chuyển đổi dữ liệu —Bill Inmon .Dữ liệu có chất lượng cao nếu như phù hợp với mục đích sử dụng trong điều hành, ra quyết định, và lập kế hoạchCác độ đo về chất lượng dữ liệu:Góc nhìn đa chiềuCác độ đo về chất lượng dữ liệu: Độ chính xác (Accuracy) Tính đầy đủ (Completeness) Tính nhất quán (Consistency) Tính kịp thời (Timeliness) Độ tin cậy (Believability) Giá trị gia tăng (Value added) Biểu diễn được (Interpretability) Tiếp cận được (Accessibility)3. Những nhiệm vụ chính trong tiềnxử lí dữ liệuLàm sạch dữ liệu (Data Cleaning) Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất quánTích hợp dữ liệu (Data Integration) Tích hợp CSDL, khối dữ liệu hoặc tập tin phứcChuyển dạng dữ liệu (Data transformation) Chuẩn hóa và tổng hợpRút gọn dữ liệu (Data Reduction) Thu được trình bày thu gọn về kích thước những sản xuất cùng hoặc tương tự kết quả phân tíchRời rạc hóa dữ liệu (Data Discretization) Bộ phận đặc biệt của rút gọn dữ liệu (rút gọn miền giá trị) nhưng có độ quan trọng riêng, đặc biệt với dữ liệu sốCác thành phần của tiền xử lý dữliệu3.1 Làm sạch dữ liệuLà quá trình xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu chỉnh sửa các sai sót và thiếu sót được phát hiện nâng cao chất lượng dữ liệu.Quá trình bao gồm kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn, xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) hoặc các lỗi khác, đánh giá dữ liệu của các chuyên gia miền chủ đề.Quá trình thường dẫn đến loại bỏ, lập tài liệu và kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi ngờ. Kiểm tra xác nhận có thể được tiến hành nhằm đạt tính phù hợp với các chuẩn áp dụng, các quy luật, và quy tắc.Làm sạch dữ liệuNguyên lý chất lượng dữ liệu cần được áp dụng ở mọi giai đoạn quá trình quản lý dữ liệu (nắm giữ, số hóa, lưu trữ, phân tích, trình bày và sử dụng). Hai vấn đề cốt lõi để cải thiện chất lượng - phòng ngừa và chỉnh sửa Phòng ngừa liên quan chặt chẽ với thu t ...
Nội dung trích xuất từ tài liệu:
Bài giảng Kho dữ liệu và khai phá dữ liệu: Chương 5 - Nguyễn Hoàng Ân (2018) Chương 5:Khai phá dữ liệu trong kinh doanhPhần 1:Tiền xử lí dữ liệu1. Hiểu dữ liệu và chuẩn bị dữ liệu2. Vai trò của tiền xử lý dữ liệu3. Nhiệm vụ chính của tiền xử lí dữ liệu1. Những vấn đề cơ bản để hiểu dữliệuCách thu thập được dữ liệu cần thiết để mô hình hóa: Data AcquisitionCách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau Data Integeation.Mô tả dữ liệu Data DescriptionĐánh giá chất lượng (độ sạch) của dữ liệu Data Assessment1.1 Thu thập dữ liệuCách thu thập dữ liệu cần thiết để mô hình hóa (Data Acquisition) Trích chọn dữ liệu theo câu hỏi từ CSDL tới tập tin phẳng (Flat file) Ngôn ngữ hỏi bậc cao truy nhập trực tiếp CSDL Kết nối mức thấp để truy nhập trực tiếp CSDL • Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối lượng lớn dữ liệu • Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa • Rút gọn sự tăng không cần thiết của dữ liệu • Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối quan tâm đúng đắn1.2 Tích hợp dữ liệuCách kết hợp dữ liệu tìm được từ các nguồn dữ liệu khác nhau Data Integeation.1.3 Mô tả dữ liệuGiá trị kỳ vọng (mean) Xu hướng trung tâm của tập dữ liệuĐộ lệch chuẩn (Standard deviation) Phân bố dữ liệu xung quanh kỳ vọngCực tiểu (Minimum) Giá trị nhỏ nhấtCực đại (Maximum) Giá trị lớn nhấtBảng tần suất (Frequency tables) Phân bố tần suất giá trị của các biếnLược đồ (Histograms) Cung cấp kỹ thuật đồ họa biểu diễn tần số giá trị của một biếnMô tả dữ liệu 13, 18, 13, 14, 13, 16, 14, 21, 131.4 Đánh giá và lập hồ sơ dữ liệuĐánh giá dữ liệu Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định cách nắm bắt vấn đề Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề Kiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng của dữ liệu chất lượng kém.Lập hồ sơ dữ liệu (cơ sở căn cứ: phân bố dữ liệu) Tâm của dữ liệu Các ngoại lai tiềm năng bất kỳ Số lượng và phân bố các khoảng trong trong mọi trường hợp Bất cứ dữ liệu đáng ngờ, như mã thiếu (miscodes), dữ liệu học, dữ liệu test, hoặc chỉ đơn giản dữ liệu rác Những phát hiện nên được trình bày dưới dạng các báo cáo và liệt kê như các mốc quan trọng của kế hoạch2. Vai trò của tiền xử lý dữ liệuKhông có dữ liệu tốt, không thể có kết quả khai phá tốt! Quyết định chất lượng phải dựa trên dữ liệu chất lượng • Chẳng hạn, dữ liệu bội hay thiếu là nguyên nhân thống không chính xác, thậm chí gây hiểu nhầm. Kho dữ liệu cần tích hợp nhất quán của dữ liệu chất lượngPhân lớn công việc xây dựng một kho dữ liệu là trích chọn, làm sạch và chuyển đổi dữ liệu —Bill Inmon .Dữ liệu có chất lượng cao nếu như phù hợp với mục đích sử dụng trong điều hành, ra quyết định, và lập kế hoạchCác độ đo về chất lượng dữ liệu:Góc nhìn đa chiềuCác độ đo về chất lượng dữ liệu: Độ chính xác (Accuracy) Tính đầy đủ (Completeness) Tính nhất quán (Consistency) Tính kịp thời (Timeliness) Độ tin cậy (Believability) Giá trị gia tăng (Value added) Biểu diễn được (Interpretability) Tiếp cận được (Accessibility)3. Những nhiệm vụ chính trong tiềnxử lí dữ liệuLàm sạch dữ liệu (Data Cleaning) Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất quánTích hợp dữ liệu (Data Integration) Tích hợp CSDL, khối dữ liệu hoặc tập tin phứcChuyển dạng dữ liệu (Data transformation) Chuẩn hóa và tổng hợpRút gọn dữ liệu (Data Reduction) Thu được trình bày thu gọn về kích thước những sản xuất cùng hoặc tương tự kết quả phân tíchRời rạc hóa dữ liệu (Data Discretization) Bộ phận đặc biệt của rút gọn dữ liệu (rút gọn miền giá trị) nhưng có độ quan trọng riêng, đặc biệt với dữ liệu sốCác thành phần của tiền xử lý dữliệu3.1 Làm sạch dữ liệuLà quá trình xác định tính không chính xác, không đầy đủ/tính bất hợp lý của dữ liệu chỉnh sửa các sai sót và thiếu sót được phát hiện nâng cao chất lượng dữ liệu.Quá trình bao gồm kiểm tra định dạng, tính đầy đủ, tính hợp lý, miền giới hạn, xem xét dữ liệu để xác định ngoại lai (địa lý, thống kê, thời gian hay môi trường) hoặc các lỗi khác, đánh giá dữ liệu của các chuyên gia miền chủ đề.Quá trình thường dẫn đến loại bỏ, lập tài liệu và kiểm tra liên tiếp và hiệu chỉnh đúng bản ghi nghi ngờ. Kiểm tra xác nhận có thể được tiến hành nhằm đạt tính phù hợp với các chuẩn áp dụng, các quy luật, và quy tắc.Làm sạch dữ liệuNguyên lý chất lượng dữ liệu cần được áp dụng ở mọi giai đoạn quá trình quản lý dữ liệu (nắm giữ, số hóa, lưu trữ, phân tích, trình bày và sử dụng). Hai vấn đề cốt lõi để cải thiện chất lượng - phòng ngừa và chỉnh sửa Phòng ngừa liên quan chặt chẽ với thu t ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Khai phá dữ liệu Khai phá dữ liệu Kho dữ liệu Hiểu dữ liệu Chuẩn bị dữ liệu Xử lý dữ liệuTài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 354 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 236 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 233 0 0 -
69 trang 200 0 0
-
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 178 0 0 -
8 trang 133 0 0
-
4 trang 118 0 0
-
Bài giảng Thiết kế thí nghiệm và xử lý dữ liệu với phần mềm SAS - Đỗ Đức Lực
54 trang 95 0 0 -
Giáo trình Điện toán đám mây (Xuất bản lần thứ hai): Phần 1
64 trang 69 0 0 -
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 64 0 0