Danh mục

Bài giảng Khai phá dữ liệu: Chương 3 - Trường ĐH Phan Thiết

Số trang: 88      Loại file: pdf      Dung lượng: 2.06 MB      Lượt xem: 23      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 3,000 VND Tải xuống file đầy đủ (88 trang) 0
Xem trước 9 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Khai phá dữ liệu: Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu, cung cấp cho người học những kiến thức như: Vai trò của hiểu dữ liệu; Đối tượng dữ liệu và kiểu thuộc tính; Độ đo tương tự và không tương tự của dữ liệu; Thu thập dữ liệu; Mô tả thống kê cơ bản của dữ liệu; Trực quan hóa dữ liệu; Đánh giá và lập hồ sơ dữ liệu;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Chương 3 - Trường ĐH Phan Thiết Chương 3 Hiểu dữ liệu và tiền xử lý dữ liệu Nội dung 1. Hiểu dữ liệu  Vai trò của hiểu dữ liệu  Đối tượng DL và kiểu thuộc tính  Độ đo tương tự và không tương tự của DL  Thu thập dữ liệu  Mô tả thống kê cơ bản của DL  Trực quan hóa DL  Đánh giá và lập hồ sơ DL 2. Tiền xử lý dữ liệu  Vai trò của tiền xử lý dữ liệu  Làm sạch dữ liệu  Tích hợp và chuyển dạng dữ liệu  Rút gọn dữ liệu  Rời rạc và sinh kiến trúc khái niệm DW DM 125 1. Hiểu dữ liệu  Vai trò của hiểu dữ liệu  Đối tượng dữ liệu và kiểu thuộc tính  Độ đo tương tự và không tương tự  Thu thập dữ liệu  Mô tả thống kê cơ bản của DL  Trực quan hóa DL  Đánh giá và lập hồ sơ DL DW DM 126 1.1. Vai trò của hiểu dữ liệu: một mô hình KPDL hướng BI  Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09]: Hiểu dữ liệu và hiểu thương mại điện tử DW DM 127 Vai trò của hiểu dữ liệu: Một mô hình KPDL hướng ứng dụng  Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]: Bước P3 “Hiểu dữ liệu”, Bước P4 “Tiền xử lý dữ liệu” DW DM 128 Hiểu dữ liệu qua hai phiên bản sách  Thay đổi đáng kể từ phiên bản 2006 tới phiên bản 2011: Phiên bản 2011 nhấn mạnh Hiểu dữ liệu ! DW DM 129 1.2. Kiểu tập dữ liệu  Bản ghi  Bản ghi quan hệ  Ma trận DL, chẳng hạn, ma trận số, bảng timeout season coach game score team ball lost pla wi chéo… n y  Dữ liệu tài liệu: Tài liệu văn bản dùng vector tần số từ … Document 1 3 0 5 0 2 6 0 2 0 2  Dữ liệu giao dịch  Đồ thị và mạng Document 2 0 7 0 2 1 0 0 3 0 0  World Wide Web Document 3 0 1 0 0 1 2 2 0 3 0  Mạng xã hội và mạng thông tin  Cấu trúc phân tử  Thứ tự TID Items  Dữ liệu Video: dãy các ảnh 1 Bread, Coke, Milk  Dữ liệu thời gian: chuỗi thời gian 2 Beer, Bread  Dữ liệu dãy: dãy giao dịch 3 Beer, Coke, Diaper, Milk  Dữ liệu dãy gene  Không gian, ảnh và đa phương tiện: 4 Beer, Bread, Diaper, Milk  DL không gian: bản đồ 5 Coke, Diaper, Milk  Dữ liệu ảnh, DW  Dữ liệu Video DM 130 Đặc trưng quan trọng của DL có cấu trúc Kích thước  Tai họa của kích thước lớn Thưa  Chỉ mang tính hiện diện Phân tích  Mẫu phụ thuộc quy mô Phân bố  Tập trung và phân tán DW DM 131 Đối tượng dữ liệu  Tập DL được tạo nên từ các đối tượng DL.  Mỗi đối tượng dữ liệu (data object) trình bày một thực thể.  Ví dụ:  CSDL bán hàng: Khách hàng, mục lưu, doanh số  CSDL y tế: bệnh nhân, điều trị  CSDL đại học: sinh viên, giáo sư, môn học  Tên khác: mẫu (samples ), ví dụ (examples), thể hiện (instances), điểm DL (data points), đối tượng (objects), bộ (tuples).  Đối tượng DL được mô tả bằng các thuộc tính (attributes)  Dòng CSDL -& ...

Tài liệu được xem nhiều: