Cơ sở lý thuyết Phân cụm dữ liệu
Số trang: 3
Loại file: docx
Dung lượng: 20.38 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Giới thiệu về phân cụm dữ liệu ở 1 mức cơ bản nhất, ta có khái niệm về phân cụm như sau:“ PCDL là 1 kỹ thuật trong DM nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong dữ liệu lớn , từ đó cung cấp thông tin, tri thức hữa ích cho ra quyết định”.
Nội dung trích xuất từ tài liệu:
Cơ sở lý thuyết Phân cụm dữ liệu Chương 1 CƠ SỞ LÝ THUYẾT1.1 tổng quan về phân cụm dữ liệu1.1.1. giới thiệu về phân cụm dữ liệuở 1 mức cơ bản nhất, ta có khái niệm về phân cụm như sau:“ PCDL là 1 kỹ thuật trong DM nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tựnhiên tiềm ẩn, quan tâm trong dữ liệu lớn , từ đó cung cấp thông tin, tri thức hữa ích cho raquyết định”. Như vậy, PC là quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu saocho các phần tử trong 1 cụm “tương tự ” với nhau và các phần tử trong các cụm khác nhausẽ “phi tương tự” với nhau,Số cụm dữ liệu có thể xác định trước theo kinh nghiệm hoặccó thể tự động xác định của phương pháp phân cụm. Trong học máy, PCDL được xem là vấn đề học ko có giám sát, vì nó phải đi giảiquyết vấn đề tìm 1 cấu trúc trong tập hợp cá dữ liệu chưa biết trước thông tin về các lớphay các thông tin về tập ví dụ huấn luyện. Trong nhiều trường hợp khi phân lớp được xemvấn đề học có giám sát thì PCDL là 1 bước trong phân lớp dữ liệu, trong đó PCDL sẽ khởitạo các lớp cho phân lớp bằng các xác định các nhãn cho nhóm dữ liệu. Một vần đề thường gặp trong PCDL,đó là hầu hết các dữ liệu cần PC đều có chứadl “nhiễu” do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy phải xây dựngchiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ “nhiễu” trước khibước vào giai đoạn phân cụm dữ liệu.”Nhiễu ” ở đây có thể là các đối tượng dữ liệukhông chính xác hoặc là dữ liệu khuyết thiếu thông tin về 1 số thuộc tính.Một trong các kỹthuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng“nhiễu” bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất Ngoài ra, dò tìm phần tử ngoại lai (Outlier) là một trong những hướng nghiêncứu quan trọng trong Phân cụm dữ liệu, cũng như trong Data Mining, chức năngcủa nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với cácdữ liệu trong CSDL - tức là các đối tượng dữ liệu không tuân theo các hành vi hoặcmô hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới kết quả của Phân cụm dữliệu. Tóm lại, phân cụm dữ liệu nhằm lắm giữ lượng thông tin khổng lồ, vì xử lýmọi thông tin như một thực thể đơn lẻ là không thể. Vì vậy chúng ta phân loại cácthực thể thành các nhóm, mỗi nhóm được đặc trưng bởi các thuộc tính chung của tấtcả các thực thể mà nó chứa.Các bước cơ bản để phân cụm gồm có: • Chọn lựa các đặc trưng: các đặc trưng được chọn lựa một cách hợp lý để có thể“mã hoá” nhiều thông tin liên quan đến phân cụm dữ liệu. Mục tiêu chính làphải giảm thiểu sự dư thừa thông tin giữa các đặc trưng. Các đặc trưng cần đượctiền xử lý trước khi dùng chúng trong các bước sau. • Tiêu chuẩn phân cụm: tùy theo từng tập dữ liệu tạo ra các cụm khác nhau màchúng ta có tiêu chuẩn phân cụm khác nhau. Chẳng hạn, một cụm loại chặt(compact) của các véc tơ đặc trưng trong không gian l-chiều có thể dễ nhận thấytheo một tiêu chuẩn, trong khi một cụm “dài và mỏng” lại có thể được dễ nhậnthấy bởi một tiêu chuẩn khác. Tiêu chuẩn phân loại có thể được diễn đạt bởihàm chi phí • Thuật toán phân cụm: sử dụng các giải thuật phân cụm khác nhau nhằm sáng t ỏcấu trúc cụm của tập dữ liệu.Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắncủa nó. Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp.•Giải thích kết quả: trong nhiều trường hợp, chuyên gia trong lĩnh vực ứng dụngphải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và phân tíchđể đưa ra các kết quả đúng đắn. Trong một số trường hợp nên có cả bước phân tích khuynh hướng phân cụm, trongbước này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấutrúc phân cụm. Ví dụ như: tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọicố gắng phân cụm đều là vô nghĩa. Các lựa chọn khác nhau của các đặc trưng, tiêu chuẩn phân cụm có thể dẫn tớicác kết quả phân cụm khác nhau. Do đó việc lựa chọn một cách hợp lý nhất, hoàntoàn dựa vào kiến thức và kinh nghiệm của chuyên gia. Theo các nghiên cứu, đến nay chưa có một phương pháp phân cụm tổng quátnào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu. Hơn nữa,các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữliệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phâncụm phù hợp. Phân cụm dữ liệu đang là vấn đề mở và khó, vì cần phải đi giải quyếtnhiều vấn đề cơ bản như đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiềudạng dữ liệu khác nhau, đặc biệt là đối với các dữ liệu hỗn hợp, đang ngày càngtăng trưởng không ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong nhữngthách thức lớn trong lĩnh vực Data Mining trong những thập kỷ tiếp theo.1.1.2 Các ứng dụng của PCDLPhân cụmrất quan trọng trong một số ứng dụng, sau đây là một số ứng dụngcủa nó:•Giảm dữ ...
Nội dung trích xuất từ tài liệu:
Cơ sở lý thuyết Phân cụm dữ liệu Chương 1 CƠ SỞ LÝ THUYẾT1.1 tổng quan về phân cụm dữ liệu1.1.1. giới thiệu về phân cụm dữ liệuở 1 mức cơ bản nhất, ta có khái niệm về phân cụm như sau:“ PCDL là 1 kỹ thuật trong DM nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tựnhiên tiềm ẩn, quan tâm trong dữ liệu lớn , từ đó cung cấp thông tin, tri thức hữa ích cho raquyết định”. Như vậy, PC là quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu saocho các phần tử trong 1 cụm “tương tự ” với nhau và các phần tử trong các cụm khác nhausẽ “phi tương tự” với nhau,Số cụm dữ liệu có thể xác định trước theo kinh nghiệm hoặccó thể tự động xác định của phương pháp phân cụm. Trong học máy, PCDL được xem là vấn đề học ko có giám sát, vì nó phải đi giảiquyết vấn đề tìm 1 cấu trúc trong tập hợp cá dữ liệu chưa biết trước thông tin về các lớphay các thông tin về tập ví dụ huấn luyện. Trong nhiều trường hợp khi phân lớp được xemvấn đề học có giám sát thì PCDL là 1 bước trong phân lớp dữ liệu, trong đó PCDL sẽ khởitạo các lớp cho phân lớp bằng các xác định các nhãn cho nhóm dữ liệu. Một vần đề thường gặp trong PCDL,đó là hầu hết các dữ liệu cần PC đều có chứadl “nhiễu” do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy phải xây dựngchiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ “nhiễu” trước khibước vào giai đoạn phân cụm dữ liệu.”Nhiễu ” ở đây có thể là các đối tượng dữ liệukhông chính xác hoặc là dữ liệu khuyết thiếu thông tin về 1 số thuộc tính.Một trong các kỹthuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng“nhiễu” bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất Ngoài ra, dò tìm phần tử ngoại lai (Outlier) là một trong những hướng nghiêncứu quan trọng trong Phân cụm dữ liệu, cũng như trong Data Mining, chức năngcủa nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với cácdữ liệu trong CSDL - tức là các đối tượng dữ liệu không tuân theo các hành vi hoặcmô hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới kết quả của Phân cụm dữliệu. Tóm lại, phân cụm dữ liệu nhằm lắm giữ lượng thông tin khổng lồ, vì xử lýmọi thông tin như một thực thể đơn lẻ là không thể. Vì vậy chúng ta phân loại cácthực thể thành các nhóm, mỗi nhóm được đặc trưng bởi các thuộc tính chung của tấtcả các thực thể mà nó chứa.Các bước cơ bản để phân cụm gồm có: • Chọn lựa các đặc trưng: các đặc trưng được chọn lựa một cách hợp lý để có thể“mã hoá” nhiều thông tin liên quan đến phân cụm dữ liệu. Mục tiêu chính làphải giảm thiểu sự dư thừa thông tin giữa các đặc trưng. Các đặc trưng cần đượctiền xử lý trước khi dùng chúng trong các bước sau. • Tiêu chuẩn phân cụm: tùy theo từng tập dữ liệu tạo ra các cụm khác nhau màchúng ta có tiêu chuẩn phân cụm khác nhau. Chẳng hạn, một cụm loại chặt(compact) của các véc tơ đặc trưng trong không gian l-chiều có thể dễ nhận thấytheo một tiêu chuẩn, trong khi một cụm “dài và mỏng” lại có thể được dễ nhậnthấy bởi một tiêu chuẩn khác. Tiêu chuẩn phân loại có thể được diễn đạt bởihàm chi phí • Thuật toán phân cụm: sử dụng các giải thuật phân cụm khác nhau nhằm sáng t ỏcấu trúc cụm của tập dữ liệu.Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắncủa nó. Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp.•Giải thích kết quả: trong nhiều trường hợp, chuyên gia trong lĩnh vực ứng dụngphải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và phân tíchđể đưa ra các kết quả đúng đắn. Trong một số trường hợp nên có cả bước phân tích khuynh hướng phân cụm, trongbước này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấutrúc phân cụm. Ví dụ như: tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọicố gắng phân cụm đều là vô nghĩa. Các lựa chọn khác nhau của các đặc trưng, tiêu chuẩn phân cụm có thể dẫn tớicác kết quả phân cụm khác nhau. Do đó việc lựa chọn một cách hợp lý nhất, hoàntoàn dựa vào kiến thức và kinh nghiệm của chuyên gia. Theo các nghiên cứu, đến nay chưa có một phương pháp phân cụm tổng quátnào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu. Hơn nữa,các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữliệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phâncụm phù hợp. Phân cụm dữ liệu đang là vấn đề mở và khó, vì cần phải đi giải quyếtnhiều vấn đề cơ bản như đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiềudạng dữ liệu khác nhau, đặc biệt là đối với các dữ liệu hỗn hợp, đang ngày càngtăng trưởng không ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong nhữngthách thức lớn trong lĩnh vực Data Mining trong những thập kỷ tiếp theo.1.1.2 Các ứng dụng của PCDLPhân cụmrất quan trọng trong một số ứng dụng, sau đây là một số ứng dụngcủa nó:•Giảm dữ ...
Tìm kiếm theo từ khóa liên quan:
Thiết kế cơ sở dữ liệu Quản trị cơ sở dữ liệu Phân cụm dữ liệu Cơ sở phân cụm dữ liệu Lý thuyết Phân cụm dữ liệuTài liệu liên quan:
-
Đề cương chi tiết học phần Quản trị cơ sở dữ liệu (Database Management Systems - DBMS)
14 trang 251 0 0 -
Giáo trình Cơ sở dữ liệu: Phần 1 - Sở Bưu chính Viễn Thông TP Hà Nội
48 trang 176 1 0 -
Báo cáo Thực tập chuyên môn Thiết kế cơ sở dữ liệu: Xây dựng Website studio
26 trang 157 0 0 -
Bài tập thiết kế cơ sở dữ liệu
9 trang 149 0 0 -
54 trang 148 0 0
-
Tiểu luận Phân tích và thiết kế hệ thống quản lý kết quả học tập sinh viên
32 trang 145 0 0 -
Bài giảng Cơ sở dữ liệu (Database) - Chương 2: Mô hình thực thể - liên kết
120 trang 142 0 0 -
Đề tài: Phân tích thiết kế hệ thống quản lý Quán Game GameTV Net 192 Trần Đại Nghĩa
18 trang 140 0 0 -
Luận văn tốt nghiệp: Thiết kế cơ sở dữ liệu cho bài toán quản lý cán bộ
27 trang 130 0 0 -
Khóa luận tốt nghiệp Công nghệ thông tin: Xây dựng website bán hàng nông sản
85 trang 120 0 0