Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy
Số trang: 59
Loại file: pdf
Dung lượng: 3.34 MB
Lượt xem: 24
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy cung cấp cho người học những kiến thức như: Phân cụm dữ liệu; Phân cụm mờ; Hồi quy tuyến tính; Phân lớp SVM. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máyLOGOLẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 11. Một số mô hình học máy Nội dung 1 Phân cụm dữ liệu 2 Phân cụm mờ 3 Hồi quy tuyến tính 4 Phân lớp SVM2 Phân cụm◼◼Phân cụm (clustering) Phát hiện các cụm dữ liệu, cụm tính chất,… ❑❑◼◼Community detection ◼◼ Phát hiện các cộng đồng trong mạng xã hội3 Tổng quan❖PCDL là một lĩnh vực liên ngành đang được phát triển mạnh mẽ. Ở một mức cơ bản nhất, đưa ra định nghĩa PCDL như sau [10][11]: PCDL là một kỹ thuật trong DATAMINING, nhằm tìm kiếm, phát hiện các cụm, cácmẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữliệu lớn, từ đó cung cấp thông tin, tri thức hữu íchcho ra quyết định 4 Tổng quan❖Như vậy, PCDL là quá trình phân chia một tập DL ban đầu thành các cụm DL sao cho: ▪ Các phần tử trong một cụm tương tự (Similar) nhau. ▪ Các phần tử trong các cụm khác nhau sẽ phi tương tự (Dissimilar) nhau. ▪ Số các cụm được xác định trước theo kinh nghiệm hoặc tự động. 5 Tổng quan Các hướng tiếp cận trong phân cụm❖Trong học máy, PCDL được xem là vấn đề học không có giám sát. ▪ Nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các DL chưa biết trước các thông tin về lớp/tập VDHL.❖Nhiều trường hợp, khi phân lớp(Classification) được xem là học có giám sát thì PCDL là một bước trong phân lớp DL. ▪ Trong đó PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dl. 6 Tổng quan Các hướng tiếp cận trong phân cụm❖Vấn đề thường gặp trong PCDL là hầu hết các DL cần phân cụm đều có DL nhiễu (noise) do quá trình thu thập thiếu chính xác, không đầy đủ.❖Cần phải xây dựng chiến lược cho bước tiền xử lý DL để loại bỏ nhiễu trước khi bước vào giai đoạn phân tích PCDL.❖Kỹ thuật xử lý nhiễu phổ biến là thay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng của đối tượng DL gần nhất. 7 Tổng quan Các hướng tiếp cận trong phân cụm❖Tìm phần tử ngoại lai (Outlier) là hướng nghiên cứu quan trọng trong PCDL cũng như trong Data Mining.❖Xác định một nhóm nhỏ các đối tượng DL khác thường so với các DL trong để tránh sự ảnh hưởng của chúng tới quá trình và kết quả của PCDL.❖Khám phá các phần tử ngoại lai đã được phát triển và ứng dụng trong viễn thông, dò tìm gian lận thương mại và trong làm sạch dữ liệu,… 8 Tổng quan❖PCDL là một vấn đề khó, phải giải quyết các vấn đề con cơ bản sau: ▪ Xây dụng hàm tính độ tương tự. ▪ Xây dựng các tiêu chuẩn phân cụm. ▪ Xây dụng mô hình cho cấu trúc cụm dữ liệu. ▪ Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo. ▪ Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm. 9 Tổng quan❖Đến nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm DL.❖Các phương pháp PC cần có cách thức biểu diễn cấu trúc của các cụm DL, với mỗi cách thức biểu diễn sẽ tương ứng một thuật toán PC phù hợp.❖PCDL đang là vấn đề mở và khó, cần giải quyết những vấn đề phù hợp với nhiều dạng DL khác nhau, đặc biệt là DL hỗn hợp, đây cũng là một thách thức lớn trong lĩnh vực Data Mining. 10 Tổng quan11 Tổng quan12 Tổng quan13 Tổng quan14 Tổng quan15 Tổng quan16 Tổng quan17 Tổng quan18 Tổng quan19 Tổng quan20 ...
Nội dung trích xuất từ tài liệu:
Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máyLOGOLẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 11. Một số mô hình học máy Nội dung 1 Phân cụm dữ liệu 2 Phân cụm mờ 3 Hồi quy tuyến tính 4 Phân lớp SVM2 Phân cụm◼◼Phân cụm (clustering) Phát hiện các cụm dữ liệu, cụm tính chất,… ❑❑◼◼Community detection ◼◼ Phát hiện các cộng đồng trong mạng xã hội3 Tổng quan❖PCDL là một lĩnh vực liên ngành đang được phát triển mạnh mẽ. Ở một mức cơ bản nhất, đưa ra định nghĩa PCDL như sau [10][11]: PCDL là một kỹ thuật trong DATAMINING, nhằm tìm kiếm, phát hiện các cụm, cácmẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữliệu lớn, từ đó cung cấp thông tin, tri thức hữu íchcho ra quyết định 4 Tổng quan❖Như vậy, PCDL là quá trình phân chia một tập DL ban đầu thành các cụm DL sao cho: ▪ Các phần tử trong một cụm tương tự (Similar) nhau. ▪ Các phần tử trong các cụm khác nhau sẽ phi tương tự (Dissimilar) nhau. ▪ Số các cụm được xác định trước theo kinh nghiệm hoặc tự động. 5 Tổng quan Các hướng tiếp cận trong phân cụm❖Trong học máy, PCDL được xem là vấn đề học không có giám sát. ▪ Nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các DL chưa biết trước các thông tin về lớp/tập VDHL.❖Nhiều trường hợp, khi phân lớp(Classification) được xem là học có giám sát thì PCDL là một bước trong phân lớp DL. ▪ Trong đó PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dl. 6 Tổng quan Các hướng tiếp cận trong phân cụm❖Vấn đề thường gặp trong PCDL là hầu hết các DL cần phân cụm đều có DL nhiễu (noise) do quá trình thu thập thiếu chính xác, không đầy đủ.❖Cần phải xây dựng chiến lược cho bước tiền xử lý DL để loại bỏ nhiễu trước khi bước vào giai đoạn phân tích PCDL.❖Kỹ thuật xử lý nhiễu phổ biến là thay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng của đối tượng DL gần nhất. 7 Tổng quan Các hướng tiếp cận trong phân cụm❖Tìm phần tử ngoại lai (Outlier) là hướng nghiên cứu quan trọng trong PCDL cũng như trong Data Mining.❖Xác định một nhóm nhỏ các đối tượng DL khác thường so với các DL trong để tránh sự ảnh hưởng của chúng tới quá trình và kết quả của PCDL.❖Khám phá các phần tử ngoại lai đã được phát triển và ứng dụng trong viễn thông, dò tìm gian lận thương mại và trong làm sạch dữ liệu,… 8 Tổng quan❖PCDL là một vấn đề khó, phải giải quyết các vấn đề con cơ bản sau: ▪ Xây dụng hàm tính độ tương tự. ▪ Xây dựng các tiêu chuẩn phân cụm. ▪ Xây dụng mô hình cho cấu trúc cụm dữ liệu. ▪ Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo. ▪ Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm. 9 Tổng quan❖Đến nay chưa có một phương pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm DL.❖Các phương pháp PC cần có cách thức biểu diễn cấu trúc của các cụm DL, với mỗi cách thức biểu diễn sẽ tương ứng một thuật toán PC phù hợp.❖PCDL đang là vấn đề mở và khó, cần giải quyết những vấn đề phù hợp với nhiều dạng DL khác nhau, đặc biệt là DL hỗn hợp, đây cũng là một thách thức lớn trong lĩnh vực Data Mining. 10 Tổng quan11 Tổng quan12 Tổng quan13 Tổng quan14 Tổng quan15 Tổng quan16 Tổng quan17 Tổng quan18 Tổng quan19 Tổng quan20 ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Lập trình cho khoa học dữ liệu Lập trình cho khoa học dữ liệu Khoa học dữ liệu Mô hình học máy Phân cụm dữ liệu Hồi quy tuyến tínhGợi ý tài liệu liên quan:
-
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 133 0 0 -
158 trang 127 0 0
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 3: Các thao tác cơ bản trong Python
21 trang 94 0 0 -
Bài giảng Lập trình cho khoa học dữ liệu - Bài 7: Thư viện numpy
28 trang 76 0 0 -
Nhận dạng tấm pin mặt trời bị lỗi dựa trên dữ liệu ảnh bằng trí tuệ nhân tạo
4 trang 64 0 0 -
Giáo trình Nguyên lý thống kê kinh tế - TS. Mai Văn Nam
135 trang 59 0 0 -
5 quan điểm cơ bản về khoa học dữ liệu
4 trang 54 0 0 -
Machine Learning cơ bản: Phần 1 - Vũ Hữu Tiệp
232 trang 53 0 0 -
Bài giảng Trí tuệ nhân tạo dành cho mọi người - ThS. Nguyễn Ngọc Tú
149 trang 51 0 0 -
Bài giảng Kinh tế lượng - Nguyễn Thị Thùy Trang
21 trang 49 0 0