Phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiếnCông nghệ thông tin & Cơ sở toán học cho tin học PHÂN CỤM C-MEANS KHẢ NĂNG MỜ LOẠI HAI KHOẢNG DỰA TRÊN TÍNH TOÁN HẠT CẢI TIẾN Trương Quốc Hùng*, Ngô Thành Long, Phạm Thế Long Tóm tắt: Xây dựng không gian hạt giảm chiều dựa trên tính toán hạt là một bước tiền xử lý nhằm loại bỏ những thuộc tính không cần thiết và tìm kiếm ngoại lai đối với bài toán phân cụm dữ liệu không chắc chắn và quy mô lớn. Trong khi đó thuật toán C-Means khả năng mờ loại hai khoảng thực hiện hiệu quả trong xử lý dữ liệu không chắc chắn và có nhiễu. Tận dụng các ưu điểm đó, chúng tôi đề xuất phương pháp phân cụm C-Means khả năng mờ loại hai khoảng dựa trên tính toán hạt cải tiến (AGrIT2FPCM). Phương pháp này sử dụng tính toán hạt để tạo ra các hạt giảm chiều, sau đó sử dụng lực hấp dẫn hạt để xác định tâm mỗi hạt nhằm cải tiến phép đo khoảng cách giữa hạt với tâm cụm. Các kết quả thực nghiệm trên các tập dữ liệu khác nhau cho thấy phương pháp công bố có kết quả tốt hơn so với các phương pháp trước đó.Từ khóa: Phân cụm mờ; Trích chọn đặc trưng; Phân cụm C-means khả năng mờ; Tính toán hạt; Lực hấp dẫn hạt. 1. MỞ ĐẦU Thuật toán phân cụm có nhiều dạng khác nhau như phân cụm rõ như K-means [1],phân cụm mờ loại một FCM [2], phân cụm mờ dựa trên khả năng PCM [3] hay kết hợpgiữa FCM và PCM (FPCM) [4]. Gần đây có nhiều nghiên cứu đề xuất các hướng cải tiếnnhằm nâng cao chất lượng phân cụm của thuật toán FPCM [5]-[8]. Ngoài ra, để xử lý tốthơn tính không chắc chắn, có nhiều phương pháp sử dụng kỹ thuật logic mờ loại hai đượcđề xuất [9]-[14]. Trong đó nhóm E. Rubio đã đề xuất phương pháp phân cụm C-Meanskhả năng mờ loại hai khoảng (IT2FPCM) là một mở rộng của FPCM sử dụng tập mờ loạihai khoảng [15]. Các mở rộng này góp phần giảm ảnh hưởng của nhiễu và xử lý tínhkhông chắc chắn của thuật toán FCM gốc tốt hơn. Tuy nhiên, những thuật toán này vẫntồn tại hạn chế trong phân cụm dữ liệu lớn và nhiều chiều như tốc độ thực hiện chậm và độchính xác bị ảnh hưởng bởi các thuộc tính nhiễu. Một trong những hướng giải quyết bài toán phân cụm dữ liệu lớn, nhiều chiều là tìmcách loại bỏ nhiễu và các thuộc tính dư thừa hay rút gọn thuộc tính của dữ liệu [16], [21]. Cónhiều thuật toán heuristic rút gọn thuộc tính đã được công bố. Trong khi J. Qian đề xuất mộtsố thuật toán giảm thuộc tính cho dữ liệu lớn sử dụng map-reduce [17] thì nhóm L.Sun đãthiết kế một phương pháp lựa chọn thuộc tính dựa trên hệ số entropy thô [18], [19] hoặc tínhtoán hạt [20]. Trong khi đó nhóm Q.H.Hu giới thiệu một phương pháp lựa chọn thuộc tínhbằng cách kết hợp tính toán hạt và lý thuyết xấp xỉ [21]. Tuy nhiên, các phương pháp lựachọn thuộc tính này cần gán nhãn như các mẫu huấn luyện và thường áp dụng vào bài toánphân lớp. Gần đây, tính toán hạt là một công cụ mạnh để nghiên cứu giải quyết bài toán phứctạp, dữ liệu lớn, thông tin không chắc chắn và dữ liệu nhiều chiều [22], [23]. Tính toán hạttrở thành một phương pháp mới có thể mô phỏng suy nghĩ của con người và giải quyết cácbài toán trí tuệ tính toán có liên quan đến ý tưởng hạt và logic hạt [24] và nó cũng được sửdụng như một nền tảng cho các phương pháp rút gọn thuộc tính [21], [20]. Có nhiều mô hình lai giữa tính toán hạt và các phương pháp khác được đề xuất và tạora một loại hình mới của các thuật toán học máy. Những mô hình này dựa trên cấu trúc hạtđối với nhiều loại dữ liệu hoặc phương pháp học khác nhau [25], [26]. Trong công bố gầnđây, chúng tôi đã áp dụng tính toán hạt để thực hiện rút gọn thuộc tính cho bài toán phâncụm nhằm giảm ảnh hưởng xấu từ số chiều lớn của tập dữ liệu [28]. Bên cạnh đó cácnghiên cứu về lực hấp dẫn hạt dựa trên ý tưởng của định luật vạn vật hấp dẫn Newton là176 T. Q. Hùng, N. T. Long, P. T. Long, “Phân cụm C-Means … tính toán hạt cải tiến.”Nghiên cứu khoa học công nghệmột trong những hướng nghiên cứu thu hút nhiều sự chú ý. Dựa trên ý tưởng này nhómM.A. Sanchez đã trình bày phương pháp mới để tìm kiếm các hạt thông tin mờ từ dữ liệu đachiều [29]. Nhóm tác giả M. Alswaitti cũng đề xuất thuật toán phân cụm dữ liệu dựa trên lựchấp dẫn được tối ưu hóa [30]. Trên cơ sở đó, phương pháp phân cụm C-means khả năng mờ loại hai khoảng dựa trêntính toán hạt cải tiến (AGrIT2FPCM) được đề xuất. Phương pháp này tận dụng khả năngcủa IT2FPCM trong xử lý nhiễu kết hợp tính toán hạt để loại bỏ ảnh hưởng của các thuộctính dư thừa và các đối tượng nhiễu. Ngoài ra lực hấp dẫn hạt cũng được sử dụng để xácđịnh tâm của mỗi hạt, qua đó cải tiến phép đo khoảng cách giữa hạt và tâm cụm. Các phần còn lại của bài báo này được tổ chức như sau: Phần 2 giới thiệu ngắn gọnmột số kiến thức cơ sở về phân cụm C-Means khả năng mờ loại hai khoảng, tính toán hạtvà lực hấp dẫn hạt; Phần 3 đề xuất phân cụm IT2FPCM dựa trên tính toán hạt ...
Tìm kiếm theo từ khóa liên quan:
Phân cụm mờ Trích chọn đặc trưng Phân cụm C-means khả năng mờ Tính toán hạt Lực hấp dẫn hạtGợi ý tài liệu liên quan:
-
Phân vùng ảnh viễn thám kích thước lớn dựa trên phân cụm mờ
7 trang 101 0 0 -
Phân cụm mờ với trọng số mũ ngôn ngữ
10 trang 33 0 0 -
Một tiếp cận phân vùng ảnh viễn thám dựa trên MapReduce và phân cụm mờ
8 trang 29 0 0 -
Nhận dạng cảm xúc trong video sử dụng mạng nơ ron tích chập
6 trang 27 0 0 -
Mô hình hệ thống phát hiện bất thường sử dụng thuật toán phân cụm mờ lai ghép
15 trang 23 0 0 -
Một cải tiến phân cụm mờ với tham số mờ cho từng cụm dữ liệu
6 trang 21 0 0 -
132 trang 19 0 0
-
Một phương pháp phân vùng dữ liệu theo độ tin cậy dựa trên phân cụm mờ viễn cảnh
11 trang 17 0 0 -
Về một hệ luật ngôn ngữ xây dựng toán tử Hint và áp dụng trong nâng cao độ tương phản ảnh màu
11 trang 12 0 0 -
LUẬN VĂN: TRÍCH CHỌN ĐẶC TRƯNG TRÊN KHUÔN MẶT NGƯỜI
67 trang 11 0 0 -
Cải tiến thuật toán phân cụm mờ dựa trên độ đo trọng số Entropy và chỉ số Calinski - Harabasz
11 trang 11 0 0 -
Luận văn: ứng dụng mô hình nơron - mờ trong việc phát hiện tế bào cổ tử cung giai đoạn tiền ung thư
87 trang 9 0 0 -
9 trang 8 0 0
-
8 trang 7 0 0
-
Một phương pháp phân cụm mờ viễn cảnh mới trong phân đoạn ảnh vệ tinh vùng nước
9 trang 6 0 0 -
Tính toán hạt dựa trên độ đo tương đồng mờ phức trong hỗ trợ chẩn đoán nha khoa
7 trang 5 0 0