Bài giảng Khai phá dữ liệu: Chương 3 - Trường ĐH Phan Thiết
Số trang: 88
Loại file: pdf
Dung lượng: 2.06 MB
Lượt xem: 23
Lượt tải: 0
Xem trước 9 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Khai phá dữ liệu: Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu, cung cấp cho người học những kiến thức như: Vai trò của hiểu dữ liệu; Đối tượng dữ liệu và kiểu thuộc tính; Độ đo tương tự và không tương tự của dữ liệu; Thu thập dữ liệu; Mô tả thống kê cơ bản của dữ liệu; Trực quan hóa dữ liệu; Đánh giá và lập hồ sơ dữ liệu;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Chương 3 - Trường ĐH Phan Thiết Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu Nội dung 1. Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng DL và kiểu thuộc tính Độ đo tương tự và không tương tự của DL Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL 2. Tiền xử lý dữ liệu Vai trò của tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp và chuyển dạng dữ liệu Rút gọn dữ liệu Rời rạc và sinh kiến trúc khái niệm DW DM 125 1. Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng dữ liệu và kiểu thuộc tính Độ đo tương tự và không tương tự Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL DW DM 126 1.1. Vai trò của hiểu dữ liệu: một mô hình KPDL hướng BI Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu dữ liệu và hiểu thương mại điện tử DW DM 127 Vai trò của hiểu dữ liệu: Một mô hình KPDL hướng ứng dụng Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu” DW DM 128 Hiểu dữ liệu qua hai phiên bản sách Thay đổi đáng kể từ phiên bản 2006 tới phiên bản 2011: Phiên bản 2011 nhấn mạnh Hiểu dữ liệu ! DW DM 129 1.2. Kiểu tập dữ liệu Bản ghi Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng timeout season coach game score team ball lost pla wi chéo… n y Dữ liệu tài liệu: Tài liệu văn bản dùng vector tần số từ … Document 1 3 0 5 0 2 6 0 2 0 2 Dữ liệu giao dịch Đồ thị và mạng Document 2 0 7 0 2 1 0 0 3 0 0 World Wide Web Document 3 0 1 0 0 1 2 2 0 3 0 Mạng xã hội và mạng thông tin Cấu trúc phân tử Thứ tự TID Items Dữ liệu Video: dãy các ảnh 1 Bread, Coke, Milk Dữ liệu thời gian: chuỗi thời gian 2 Beer, Bread Dữ liệu dãy: dãy giao dịch 3 Beer, Coke, Diaper, Milk Dữ liệu dãy gene Không gian, ảnh và đa phương tiện: 4 Beer, Bread, Diaper, Milk DL không gian: bản đồ 5 Coke, Diaper, Milk Dữ liệu ảnh, DW Dữ liệu Video DM 130 Đặc trưng quan trọng của DL có cấu trúc Kích thước Tai họa của kích thước lớn Thưa Chỉ mang tính hiện diện Phân tích Mẫu phụ thuộc quy mô Phân bố Tập trung và phân tán DW DM 131 Đối tượng dữ liệu Tập DL được tạo nên từ các đối tượng DL. Mỗi đối tượng dữ liệu (data object) trình bày một thực thể. Ví dụ: CSDL bán hàng: Khách hàng, mục lưu, doanh số CSDL y tế: bệnh nhân, điều trị CSDL đại học: sinh viên, giáo sư, môn học Tên khác: mẫu (samples ), ví dụ (examples), thể hiện (instances), điểm DL (data points), đối tượng (objects), bộ (tuples). Đối tượng DL được mô tả bằng các thuộc tính (attributes) Dòng CSDL -& ...
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Chương 3 - Trường ĐH Phan Thiết Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu Nội dung 1. Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng DL và kiểu thuộc tính Độ đo tương tự và không tương tự của DL Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL 2. Tiền xử lý dữ liệu Vai trò của tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp và chuyển dạng dữ liệu Rút gọn dữ liệu Rời rạc và sinh kiến trúc khái niệm DW DM 125 1. Hiểu dữ liệu Vai trò của hiểu dữ liệu Đối tượng dữ liệu và kiểu thuộc tính Độ đo tương tự và không tương tự Thu thập dữ liệu Mô tả thống kê cơ bản của DL Trực quan hóa DL Đánh giá và lập hồ sơ DL DW DM 126 1.1. Vai trò của hiểu dữ liệu: một mô hình KPDL hướng BI Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu dữ liệu và hiểu thương mại điện tử DW DM 127 Vai trò của hiểu dữ liệu: Một mô hình KPDL hướng ứng dụng Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu” DW DM 128 Hiểu dữ liệu qua hai phiên bản sách Thay đổi đáng kể từ phiên bản 2006 tới phiên bản 2011: Phiên bản 2011 nhấn mạnh Hiểu dữ liệu ! DW DM 129 1.2. Kiểu tập dữ liệu Bản ghi Bản ghi quan hệ Ma trận DL, chẳng hạn, ma trận số, bảng timeout season coach game score team ball lost pla wi chéo… n y Dữ liệu tài liệu: Tài liệu văn bản dùng vector tần số từ … Document 1 3 0 5 0 2 6 0 2 0 2 Dữ liệu giao dịch Đồ thị và mạng Document 2 0 7 0 2 1 0 0 3 0 0 World Wide Web Document 3 0 1 0 0 1 2 2 0 3 0 Mạng xã hội và mạng thông tin Cấu trúc phân tử Thứ tự TID Items Dữ liệu Video: dãy các ảnh 1 Bread, Coke, Milk Dữ liệu thời gian: chuỗi thời gian 2 Beer, Bread Dữ liệu dãy: dãy giao dịch 3 Beer, Coke, Diaper, Milk Dữ liệu dãy gene Không gian, ảnh và đa phương tiện: 4 Beer, Bread, Diaper, Milk DL không gian: bản đồ 5 Coke, Diaper, Milk Dữ liệu ảnh, DW Dữ liệu Video DM 130 Đặc trưng quan trọng của DL có cấu trúc Kích thước Tai họa của kích thước lớn Thưa Chỉ mang tính hiện diện Phân tích Mẫu phụ thuộc quy mô Phân bố Tập trung và phân tán DW DM 131 Đối tượng dữ liệu Tập DL được tạo nên từ các đối tượng DL. Mỗi đối tượng dữ liệu (data object) trình bày một thực thể. Ví dụ: CSDL bán hàng: Khách hàng, mục lưu, doanh số CSDL y tế: bệnh nhân, điều trị CSDL đại học: sinh viên, giáo sư, môn học Tên khác: mẫu (samples ), ví dụ (examples), thể hiện (instances), điểm DL (data points), đối tượng (objects), bộ (tuples). Đối tượng DL được mô tả bằng các thuộc tính (attributes) Dòng CSDL -& ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Khai phá dữ liệu Khai phá dữ liệu Xử lý dữ liệu Trực quan hóa dữ liệu Vai trò của hiểu dữ liệu Tiền xử lý dữ liệuGợi ý tài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 351 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 230 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 222 0 0 -
69 trang 185 0 0
-
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 170 0 0 -
8 trang 131 0 0
-
4 trang 114 0 0
-
Bài giảng Tin học ứng dụng: Chương 3 - Nguyễn Thị Thùy Liên
34 trang 93 0 0 -
Bài giảng Thiết kế thí nghiệm và xử lý dữ liệu với phần mềm SAS - Đỗ Đức Lực
54 trang 81 0 0 -
Giáo trình Điện toán đám mây (Xuất bản lần thứ hai): Phần 1
64 trang 65 0 0