Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang
Số trang: 31
Loại file: pdf
Dung lượng: 555.07 KB
Lượt xem: 42
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2, chương này cung cấp cho học viên những nội dung về: tập dữ liệu; các kiểu tập dữ liệu; các kiểu giá trị thuộc tính; biểu đồ histogram; đồ thị rải rác (Scatter plot); các nhiệm vụ chính của tiền xử lý dữ liệu;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu về Học máy và Khai phá dữ liệu ◼ Tiền xử lý dữ liệu ◼ Đánh giá hiệu năng của hệ thống ◼ Hồi quy ◼ Phân cụm ◼ Phân lớp ◼ Phát hiện luật kết hợp Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2 Tập dữ liệu ◼ Một tập dữ liệu (dataset) là một tập hợp các đối tượng (objects) và các Các thuộc tính thuộc tính của chúng ◼ Mỗi thuộc tính (attribute) mô tả một Tid Refund Marital Status Taxable Income Cheat đặc điểm của một đối tượng 1 Yes Single 125K No ❑ Vd: Các thuộc tính Refund, Marital 2 No Married 100K No Status, Taxable Income, Cheat 3 No Single 70K No 4 Yes Married 120K No Các ◼ Một tập các giá trị của các thuộc 5 No Divorced 95K Yes đối tính mô tả một đối tượng tượng 6 No Married 60K No 7 Yes Divorced 220K No ❑ Khái niệm “đối tượng” còn được 8 No Single 85K Yes tham chiếu đến với các tên gọi khác: 9 No Married 75K No bản ghi (record), điểm dữ liệu (data 10 No Single 90K Yes point), trường hợp (case), mẫu 10 (Tan, Steinbach, Kumar - (sample), thực thể (entity), hoặc ví Introduction to Data Mining) dụ (instance) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3 Các kiểu tập dữ liệu ◼ Bản ghi (Record) ❑ Các bản ghi trong csdl quan hệ timeout season coach game score team play ball lost wi n ❑ Ma trận dữ liệu ❑ Biểu diễn văn bản (document) Document 1 3 0 5 0 2 6 0 2 0 2 ❑ Dữ liệu giao dịch Document 2 0 7 0 2 1 0 0 3 0 0 Đồ thị (Graph) Document 3 0 1 0 0 1 2 2 0 3 0 ◼ ❑ World Wide Web TID Items ❑ Mạng thông tin, hoặc mạng xã hội 1 Bread, Coke, Milk ❑ Các cấu trúc phân tử (Molecular structures) 2 Beer, Bread 3 Beer, Coke, Diaper, Milk ◼ Có trật tự (Ordered) 4 Beer, Bread, Diaper, Milk ❑ Dữ liệu không gian (vd: bản đồ) 5 Coke, Diaper, Milk ❑ Dữ liệu thời gian (vd: time-series data) ❑ Dữ liệu chuỗi (vd: chuỗi giao dịch) ...
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 2 - Nguyễn Nhật Quang Nhập môn Học máy và Khai phá dữ liệu (IT3190) Nguyễn Nhật Quang quang.nguyennhat@hust.edu.vn Trường Đại học Bách Khoa Hà Nội Viện Công nghệ thông tin và truyền thông Năm học 2020-2021 Nội dung môn học: ◼ Giới thiệu về Học máy và Khai phá dữ liệu ◼ Tiền xử lý dữ liệu ◼ Đánh giá hiệu năng của hệ thống ◼ Hồi quy ◼ Phân cụm ◼ Phân lớp ◼ Phát hiện luật kết hợp Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 2 Tập dữ liệu ◼ Một tập dữ liệu (dataset) là một tập hợp các đối tượng (objects) và các Các thuộc tính thuộc tính của chúng ◼ Mỗi thuộc tính (attribute) mô tả một Tid Refund Marital Status Taxable Income Cheat đặc điểm của một đối tượng 1 Yes Single 125K No ❑ Vd: Các thuộc tính Refund, Marital 2 No Married 100K No Status, Taxable Income, Cheat 3 No Single 70K No 4 Yes Married 120K No Các ◼ Một tập các giá trị của các thuộc 5 No Divorced 95K Yes đối tính mô tả một đối tượng tượng 6 No Married 60K No 7 Yes Divorced 220K No ❑ Khái niệm “đối tượng” còn được 8 No Single 85K Yes tham chiếu đến với các tên gọi khác: 9 No Married 75K No bản ghi (record), điểm dữ liệu (data 10 No Single 90K Yes point), trường hợp (case), mẫu 10 (Tan, Steinbach, Kumar - (sample), thực thể (entity), hoặc ví Introduction to Data Mining) dụ (instance) Nhập môn Học máy và Khai phá dữ liệu – Introduction to Machine learning and Data mining 3 Các kiểu tập dữ liệu ◼ Bản ghi (Record) ❑ Các bản ghi trong csdl quan hệ timeout season coach game score team play ball lost wi n ❑ Ma trận dữ liệu ❑ Biểu diễn văn bản (document) Document 1 3 0 5 0 2 6 0 2 0 2 ❑ Dữ liệu giao dịch Document 2 0 7 0 2 1 0 0 3 0 0 Đồ thị (Graph) Document 3 0 1 0 0 1 2 2 0 3 0 ◼ ❑ World Wide Web TID Items ❑ Mạng thông tin, hoặc mạng xã hội 1 Bread, Coke, Milk ❑ Các cấu trúc phân tử (Molecular structures) 2 Beer, Bread 3 Beer, Coke, Diaper, Milk ◼ Có trật tự (Ordered) 4 Beer, Bread, Diaper, Milk ❑ Dữ liệu không gian (vd: bản đồ) 5 Coke, Diaper, Milk ❑ Dữ liệu thời gian (vd: time-series data) ❑ Dữ liệu chuỗi (vd: chuỗi giao dịch) ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Nhập môn Học máy và Khai phá dữ liệu Nhập môn Học máy và Khai phá dữ liệu Tiền xử lý dữ liệu Tập dữ liệu Dữ liệu chuỗi di truyền Biểu đồ histogramGợi ý tài liệu liên quan:
-
8 trang 131 0 0
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 7 - Nguyễn Nhật Quang
37 trang 92 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 3 - Nguyễn Nhật Quang
19 trang 50 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 9 - Nguyễn Nhật Quang
48 trang 47 0 0 -
8 trang 41 0 0
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 6 - Nguyễn Nhật Quang
32 trang 39 0 0 -
Hướng dẫn sử dụng biểu đồ histogram trong nhiếp ảnh (Phần II)
10 trang 34 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 11 - Nguyễn Nhật Quang
21 trang 33 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 4 - Nguyễn Nhật Quang
15 trang 32 0 0 -
Đề xuất thuật toán dựa trên chatbot để phát hiện các bình luận nhạy cảm
8 trang 31 0 0