Danh mục

Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang

Số trang: 31      Loại file: pdf      Dung lượng: 555.07 KB      Lượt xem: 42      Lượt tải: 0    
tailieu_vip

Phí tải xuống: 1,000 VND Tải xuống file đầy đủ (31 trang) 0
Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2, chương này cung cấp cho học viên những nội dung về: tập dữ liệu; các kiểu tập dữ liệu; các kiểu giá trị thuộc tính; biểu đồ histogram; đồ thị rải rác (Scatter plot); các nhiệm vụ chính của tiền xử lý dữ liệu;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu về Học máy và Khai phá dữ liệu ◼ Tiền xử lý dữ liệu ◼ Đánh giá hiệu năng của hệ thống ◼ Hồi quy ◼ Phân cụm ◼ Phân lớp ◼ Phát hiện luật kết hợp Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2 Tập dữ liệu ◼ Một tập dữ liệu (dataset) là một tập hợp các đối tượng (objects) và các Các thuộc tính thuộc tính của chúng ◼ Mỗi thuộc tính (attribute) mô tả một Tid Refund Marital Status Taxable Income Cheat đặc điểm của một đối tượng 1 Yes Single 125K No ❑ Vd: Các thuộc tính Refund, Marital 2 No Married 100K No Status, Taxable Income, Cheat 3 No Single 70K No 4 Yes Married 120K No Các ◼ Một tập các giá trị của các thuộc 5 No Divorced 95K Yes đối tính mô tả một đối tượng tượng 6 No Married 60K No 7 Yes Divorced 220K No ❑ Khái niệm “đối tượng” còn được 8 No Single 85K Yes tham chiếu đến với các tên gọi khác: 9 No Married 75K No bản ghi (record), điểm dữ liệu (data 10 No Single 90K Yes point), trường hợp (case), mẫu 10 (Tan, Steinbach, Kumar - (sample), thực thể (entity), hoặc ví Introduction to Data Mining) dụ (instance) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3 Các kiểu tập dữ liệu ◼ Bản ghi (Record) ❑ Các bản ghi trong csdl quan hệ timeout season coach game score team play ball lost wi n ❑ Ma trận dữ liệu ❑ Biểu diễn văn bản (document) Document 1 3 0 5 0 2 6 0 2 0 2 ❑ Dữ liệu giao dịch Document 2 0 7 0 2 1 0 0 3 0 0 Đồ thị (Graph) Document 3 0 1 0 0 1 2 2 0 3 0 ◼ ❑ World Wide Web TID Items ❑ Mạng thông tin, hoặc mạng xã hội 1 Bread, Coke, Milk ❑ Các cấu trúc phân tử (Molecular structures) 2 Beer, Bread 3 Beer, Coke, Diaper, Milk ◼ Có trật tự (Ordered) 4 Beer, Bread, Diaper, Milk ❑ Dữ liệu không gian (vd: bản đồ) 5 Coke, Diaper, Milk ❑ Dữ liệu thời gian (vd: time-series data) ❑ Dữ liệu chuỗi (vd: chuỗi giao dịch) ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: