Danh mục

Bài giảng Khai phá dữ liệu: Bài 5 - Văn Thế Thành

Số trang: 16      Loại file: pdf      Dung lượng: 309.21 KB      Lượt xem: 19      Lượt tải: 0    
Thư viện của tui

Phí tải xuống: 2,000 VND Tải xuống file đầy đủ (16 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Khai phá dữ liệu - Bài 5: Gom cụm (clustering)" trình bày các nội dung: Phân tích bằng gom cụm là gì, đối tượng tương tự và không tương tự, các loại dữ liệu trong phân tích bằng gom cụm, các phương pháp gom cụm chính, phương pháp phân hoạch,... Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu: Bài 5 - Văn Thế Thành Bài 5: Gom cụm (clustering) 1 Phân tích bằng gom cụm  Phân tích bằng gom cụm là gì ?  Đối tượ tượng tương tự và không tương tự  Các loạ loại dữ liệ liệu trong phân tích bằng gom cụm  Các phương phá pháp gom cụm chí chính  Các phương phá pháp phân hoạ hoạch  Các phương phá pháp phân cấp  Phân tích Outlier  Tóm tắt 2 Phân tích bằng gom cụm là gì ?  Gom cụm: gom các đối tượng dữ liệu o Tương tự với một đối tượng khác trong cùng cụm o Không tương tự với các đối tượng trong các cụm khác o Mục tiêu của gom cụm: để gom tập các đối tượng thành các nhóm 3 1 Các ứng dụ dụng tiêu biể biểu củ của gom cụm  Một công cụ cụ độ độc lậ lập để để xem xé xét phân bố bố dữ liệ liệu  Làm bướ bước tiề tiền xử xử lý cho cá các thuậ thuật toá toán khá khác 4 Các ứng dụng của gom cụm  Tiế thị: khám phá các nhóm khác hàng Tiếp thị phân biệt trong CSDL mua hàng  Sử dụng đất: nhận dạng các vùng đất sử dụng giống nhau khi khảo sát CSDL quả đất  hiểm: nhận dạng các nhóm công ty có Bảo hiể chính sách bảo hiểm mô tô với chi phí đền bù trung bình cao  Hoạ Hoạch định thà phố: nhận dạng các thành phố nhóm nhà cửa theo loại nhà, giá trị và vị trí địa lý. 5 Thế Thế nào là gom cụm tốt  Một phương pháp tốt sẽ tạo ra các cụm có chất lượng cao với: o Tương tự cao cho trong lớp (intra intra--class) o Tương tự thấp giữa các lớp (inter inter--class)  Chất lượng của kết quả gom cụm phụ thuộc vào: o độ đo tương tự sử dụng o Cài đặt độ đo tương tự  Chất lượng của phương pháp gom cụm cũng được đo bởi khả năng phát hiện vài hay tất cả các mẫu bị che ( hidden patterns) 6 2 Các yêu cầu của gom cụm trong KPDL (1)  Có thể thể thay đổi quy mô (scalability)  Khả Khả năng làm việ việc các loạ loại thuộ thuộc tính khá khác nhau. nhau.  Khá Khám phá phá các cụm có hình dáng bất kỳ  Các yêu cầu tối thiề thiều cho tri thứ thức lĩnh vực nhằ nhằm xác định các tham biế biến nhậ nhập 7 Các nhu cầu gom cụm trong KPDL (2)  Khả Khả năng làm việ việc với nhiề nhiều và outliers  Không nhạ nhạy cảm với thư tự các bản ghi nhậ nhập vào  Có số chiề chiều cao  Hợp tác với các ràng buộ buộc do ngườ người dùng chỉ chỉ định  Có thể thể diễ diễn dịch và khả khả dụng 8 Tương tự và bất tương tự giữ tượng (1) giữa hai đối tượ  Không có định nghĩa duy nhất về sự tương tự và bất tương tự giữa các đối tượng dữ liệu  Định nghĩa về tương tự và bất tượng tự giữa các đối tượng tùy thuộc vào o Loại dữ liệu khảo sát o Loại tương tự cần thiết 9 3 Sự tương tự và bất tương tự (2)  Tương tự /Bất tượng tự giữa đối tượng thường được biểu diễn qua độ đo khoảng cách d(x,y)  Lý tưởng, mọi độ đo khoảng cách phải là một và phải thỏa các điều kiện sau: 1. d ( x, y ) ≥ 0 2. d ( x , y ) = 0 iff x = y 3. d ( x, y ) = d ( y, x ) 4. d ( x, z ) ≤ d ( x, y ) + d ( y , z ) 10 Loạ Loại dữ liệ liệu trong phân tích cụm  Các biế biến khoả khoảng tỉ lệ  Biế Biến nhị nhị phân  Các biế biến định danh, danh, thứ thứ tự, tỉ lệ  Các biế biế ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: