Bài giảng Khai phá dữ liệu: Bài 5 - Văn Thế Thành
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Bài 5 - Văn Thế Thành Bài 5: Gom cụm (clustering) 1 Phân tích bằng gom cụm Phân tích bằng gom cụm là gì ? Đối tượ tượng tương tự và không tương tự Các loạ loại dữ liệ liệu trong phân tích bằng gom cụm Các phương phá pháp gom cụm chí chính Các phương phá pháp phân hoạ hoạch Các phương phá pháp phân cấp Phân tích Outlier Tóm tắt 2 Phân tích bằng gom cụm là gì ? Gom cụm: gom các đối tượng dữ liệu o Tương tự với một đối tượng khác trong cùng cụm o Không tương tự với các đối tượng trong các cụm khác o Mục tiêu của gom cụm: để gom tập các đối tượng thành các nhóm 3 1 Các ứng dụ dụng tiêu biể biểu củ của gom cụm Một công cụ cụ độ độc lậ lập để để xem xé xét phân bố bố dữ liệ liệu Làm bướ bước tiề tiền xử xử lý cho cá các thuậ thuật toá toán khá khác 4 Các ứng dụng của gom cụm Tiế thị: khám phá các nhóm khác hàng Tiếp thị phân biệt trong CSDL mua hàng Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất hiểm: nhận dạng các nhóm công ty có Bảo hiể chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao Hoạ Hoạch định thà phố: nhận dạng các thành phố nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý. 5 Thế Thế nào là gom cụm tốt Một phương pháp tốt sẽ tạo ra các cụm có chất lượng cao với: o Tương tự cao cho trong lớp (intra intra--class) o Tương tự thấp giữa các lớp (inter inter--class) Chất lượng của kết quả gom cụm phụ thuộc vào: o độ đo tương tự sử dụng o Cài đặt độ đo tương tự Chất lượng của phương pháp gom cụm cũng được đo bởi khả năng phát hiện vài hay tất cả các mẫu bị che ( hidden patterns) 6 2 Các yêu cầu của gom cụm trong KPDL (1) Có thể thể thay đổi quy mô (scalability) Khả Khả năng làm việ việc các loạ loại thuộ thuộc tính khá khác nhau. nhau. Khá Khám phá phá các cụm có hình dáng bất kỳ Các yêu cầu tối thiề thiều cho tri thứ thức lĩnh vực nhằ nhằm xác định các tham biế biến nhậ nhập 7 Các nhu cầu gom cụm trong KPDL (2) Khả Khả năng làm việ việc với nhiề nhiều và outliers Không nhạ nhạy cảm với thư tự các bản ghi nhậ nhập vào Có số chiề chiều cao Hợp tác với các ràng buộ buộc do ngườ người dùng chỉ chỉ định Có thể thể diễ diễn dịch và khả khả dụng 8 Tương tự và bất tương tự giữ tượng (1) giữa hai đối tượ Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu Định nghĩa về tương tự và bất tượng tự giữa các đối tượng tùy thuộc vào o Loại dữ liệu khảo sát o Loại tương tự cần thiết 9 3 Sự tương tự và bất tương tự (2) Tương tự /Bất tượng tự giữa đối tượng thường được biểu diễn qua độ đo khoảng cách d(x,y) Lý tưởng, mọi độ đo khoảng cách phải là một và phải thỏa các điều kiện sau: 1. d ( x, y ) ≥ 0 2. d ( x , y ) = 0 iff x = y 3. d ( x, y ) = d ( y, x ) 4. d ( x, z ) ≤ d ( x, y ) + d ( y , z ) 10 Loạ Loại dữ liệ liệu trong phân tích cụm Các biế biến khoả khoảng tỉ lệ Biế Biến nhị nhị phân Các biế biến định danh, danh, thứ thứ tự, tỉ lệ Các biế biế ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Khai phá dữ liệu Khai phá dữ liệu Gom cụm Phân tích bằng gom cụ Phương pháp phân hoạch Phương pháp phân cấp Phương pháp gom cụm chínhGợi ý tài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 351 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 232 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 223 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 172 0 0 -
8 trang 131 0 0
-
4 trang 115 0 0
-
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 51 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 45 0 0 -
68 trang 44 0 0
-
Bài giảng Khai phá web - Bài 1: Tổng quan về khai phá web
44 trang 42 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Clustering - Trịnh Tấn Đạt
70 trang 41 0 0 -
Trình bày dữ liệu đồ thị trong trực quan hóa dữ liệu
13 trang 39 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Data preprocessing - Trịnh Tấn Đạt
71 trang 36 0 0 -
Bài giảng Nhập môn Tin học 2 - Chương 10: Xử lý dữ liệu
56 trang 36 0 0 -
Một số vấn đề về tính toán mềm
6 trang 36 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Linear regression - Trịnh Tấn Đạt
64 trang 34 0 0 -
Đề thi kết thúc học phần học kì 1 môn Khai phá dữ liệu năm 2020-2021 có đáp án - Trường ĐH Đồng Tháp
3 trang 32 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Naïve Bayes Classification - Trịnh Tấn Đạt
36 trang 32 0 0 -
Chuyên đề tốt nghiệp: Khai phá dữ liệu trong SQL Server 2012
89 trang 32 0 0 -
4 trang 31 0 0