Phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến

Số trang: 11 Loại file: pdf Dung lượng: 630.23 KB Lượt xem: 13 Lượt tải: 0

10.10.2023

Phí tải xuống: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Xây dựng không gian hạt giảm chiều dựa trên tính toán hạt là một bước tiền xử lý nhằm loại bỏ những thuộc tính không cần thiết và tìm kiếm ngoại lai đối với bài toán phân cụm dữ liệu không chắc chắn và quy mô lớn. Trong khi đó thuật toán C-Means khả năng mờ loại hai khoảng thực hiện hiệu quả trong xử lý dữ liệu không chắc chắn và có nhiễu.
Nội dung trích xuất từ tài liệu:
Phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiếnCông nghệ thông tin & Cơ sở toán học cho tin học PHÂN CỤM C-MEANS KHẢ NĂNG MỜ LOẠI HAI KHOẢNG DỰA TRÊN TÍNH TOÁN HẠT CẢI TIẾN Trương Quốc Hùng*, Ngô Thành Long, Phạm Thế Long Tóm tắt: Xây dựng không gian hạt giảm chiều dựa trên tính toán hạt là một bước tiền xử lý nhằm loại bỏ những thuộc tính không cần thiết và tìm kiếm ngoại lai đối với bài toán phân cụm dữ liệu không chắc chắn và quy mô lớn. Trong khi đó thuật toán C-Means khả năng mờ loại hai khoảng thực hiện hiệu quả trong xử lý dữ liệu không chắc chắn và có nhiễu. Tận dụng các ưu điểm đó, chúng tôi đề xuất phương pháp phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến (AGrIT2FPCM). Phương pháp này sử dụng tính toán hạt để tạo ra các hạt giảm chiều, sau đó sử dụng lực hấp dẫn hạt để xác định tâm mỗi hạt nhằm cải tiến phép đo khoảng cách giữa hạt với tâm cụm. Các kết quả thực nghiệm trên các tập dữ liệu khác nhau cho thấy phương pháp công bố có kết quả tốt hơn so với các phương pháp trước đó.Từ khóa: Phân cụm mờ; Trích chọn đặc trưng; Phân cụm C-means khả năng mờ; Tính toán hạt; Lực hấp dẫn hạt. 1. MỞ ĐẦU Thuật toán phân cụm có nhiều dạng khác nhau như phân cụm rõ như K-means [1],phân cụm mờ loại một FCM [2], phân cụm mờ dựa trên khả năng PCM [3] hay kết hợpgiữa FCM và PCM (FPCM) [4]. Gần đây có nhiều nghiên cứu đề xuất các hướng cải tiếnnhằm nâng cao chất lượng phân cụm của thuật toán FPCM [5]-[8]. Ngoài ra, để xử lý tốthơn tính không chắc chắn, có nhiều phương pháp sử dụng kỹ thuật logic mờ loại hai đượcđề xuất [9]-[14]. Trong đó nhóm E. Rubio đã đề xuất phương pháp phân cụm C-Meanskhả năng mờ loại hai khoảng (IT2FPCM) là một mở rộng của FPCM sử dụng tập mờ loạihai khoảng [15]. Các mở rộng này góp phần giảm ảnh hưởng của nhiễu và xử lý tínhkhông chắc chắn của thuật toán FCM gốc tốt hơn. Tuy nhiên, những thuật toán này vẫntồn tại hạn chế trong phân cụm dữ liệu lớn và nhiều chiều như tốc độ thực hiện chậm và độchính xác bị ảnh hưởng bởi các thuộc tính nhiễu. Một trong những hướng giải quyết bài toán phân cụm dữ liệu lớn, nhiều chiều là tìmcách loại bỏ nhiễu và các thuộc tính dư thừa hay rút gọn thuộc tính của dữ liệu [16], [21]. Cónhiều thuật toán heuristic rút gọn thuộc tính đã được công bố. Trong khi J. Qian đề xuất mộtsố thuật toán giảm thuộc tính cho dữ liệu lớn sử dụng map-reduce [17] thì nhóm L.Sun đãthiết kế một phương pháp lựa chọn thuộc tính dựa trên hệ số entropy thô [18], [19] hoặc tínhtoán hạt [20]. Trong khi đó nhóm Q.H.Hu giới thiệu một phương pháp lựa chọn thuộc tínhbằng cách kết hợp tính toán hạt và lý thuyết xấp xỉ [21]. Tuy nhiên, các phương pháp lựachọn thuộc tính này cần gán nhãn như các mẫu huấn luyện và thường áp dụng vào bài toánphân lớp. Gần đây, tính toán hạt là một công cụ mạnh để nghiên cứu giải quyết bài toán phứctạp, dữ liệu lớn, thông tin không chắc chắn và dữ liệu nhiều chiều [22], [23]. Tính toán hạttrở thành một phương pháp mới có thể mô phỏng suy nghĩ của con người và giải quyết cácbài toán trí tuệ tính toán có liên quan đến ý tưởng hạt và logic hạt [24] và nó cũng được sửdụng như một nền tảng cho các phương pháp rút gọn thuộc tính [21], [20]. Có nhiều mô hình lai giữa tính toán hạt và các phương pháp khác được đề xuất và tạora một loại hình mới của các thuật toán học máy. Những mô hình này dựa trên cấu trúc hạtđối với nhiều loại dữ liệu hoặc phương pháp học khác nhau [25], [26]. Trong công bố gầnđây, chúng tôi đã áp dụng tính toán hạt để thực hiện rút gọn thuộc tính cho bài toán phâncụm nhằm giảm ảnh hưởng xấu từ số chiều lớn của tập dữ liệu [28]. Bên cạnh đó cácnghiên cứu về lực hấp dẫn hạt dựa trên ý tưởng của định luật vạn vật hấp dẫn Newton là176 T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means … tính toán hạt cải tiến.”Nghiên cứu khoa học công nghệmột trong những hướng nghiên cứu thu hút nhiều sự chú ý. Dựa trên ý tưởng này nhómM.A. Sanchez đã trình bày phương pháp mới để tìm kiếm các hạt thông tin mờ từ dữ liệu đachiều [29]. Nhóm tác giả M. Alswaitti cũng đề xuất thuật toán phân cụm dữ liệu dựa trên lựchấp dẫn được tối ưu hóa [30]. Trên cơ sở đó, phương pháp phân cụm C-means khả năng mờ loại hai khoảng dựa trêntính toán hạt cải tiến (AGrIT2FPCM) được đề xuất. Phương pháp này tận dụng khả năngcủa IT2FPCM trong xử lý nhiễu kết hợp tính toán hạt để loại bỏ ảnh hưởng của các thuộctính dư thừa và các đối tượng nhiễu. Ngoài ra lực hấp dẫn hạt cũng được sử dụng để xácđịnh tâm của mỗi hạt, qua đó cải tiến phép đo khoảng cách giữa hạt và tâm cụm. Các phần còn lại của bài báo này được tổ chức như sau: Phần 2 giới thiệu ngắn gọnmột số kiến thức cơ sở về phân cụm C-Means khả năng mờ loại hai khoảng, tính toán hạtvà lực hấp dẫn hạt; Phần 3 đề xuất phân cụm IT2FPCM dựa trên tính toán hạt ...