Phân cụm bán giám sát dựa trên phương pháp gieo hạt sử dụng mạng nơron min-max mờ
Số trang: 8
Loại file: pdf
Dung lượng: 732.27 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết này đề cập đến vấn đề chọn hạt giống tốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ. Các hạt giống tốt được thu thập đúng cách có thể tăng chất lượng phân cụm và giảm thiểu số lượng truy vấn từ các chuyên gia.
Nội dung trích xuất từ tài liệu:
Phân cụm bán giám sát dựa trên phương pháp gieo hạt sử dụng mạng nơron min-max mờKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020DOI: 10.15625/vap.2020.00197 PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN PHƯƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG NƠRON MIN-MAX MỜ Vũ Đình Minh1, Lê Bá Dũng2, Lê Anh Tú3, Nguyễn Thanh Sơn4 1 Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội 2 Khoa Công nghệ thông tin, Đại học Điện lực 3 Đại học Hạ Long 4 Cao đẳng Công nghiệp và Thương mại Minhvd.itvn@gmail.com, l_bdung@yahoo.com, anhtucntt@gmail.com, sonnt@pci.edu.vn TÓM TẮT: Phân cụm là kỹ thuật trong khai phá dữ liệu, nó thuộc lớp các phương pháp học không có giám sát. Quá trìnhphân tách các nhóm theo sự tương tự của dữ liệu được gọi là phân cụm. Có hai nguyên tắc cơ bản: (i) độ tương tự là cao nhất trongmột cụm và (ii) độ tương tự giữa các cụm là ít nhất. Gần đây, phân cụm bán giám sát mờ là một mở rộng của phân cụm mờ cũngnhận được nhiều sự quan tâm của các nhà khoa học. Phân cụm bán giám sát mờ sử dụng các thông tin biết trước để hướng dẫn quátrình phân cụm, từ đó làm tăng chất lượng của cụm. Các thông tin biết trước hay còn gọi là các thông tin bổ trợ nhằm mục đíchhướng dẫn, giám sát và điều khiển quá trình phân cụm. Các thông tin bổ trợ có thể được xây dựng dựa trên các ràng buộc Must-link/Cannot-link, hoặc các nhãn (dạng hạt giống) đi cùng các mẫu hay độ thuộc được xác định trước. Với phương pháp gán nhãn đicùng mẫu đòi hỏi một phần mẫu nhất định trong không gian mẫu có các nhãn đi kèm. Nhìn chung, kết quả phân cụm thường phụthuộc vào thông tin bổ trợ được cung cấp, vì vậy thông tin bổ trợ khác nhau sẽ tạo ra kết quả khác nhau. Trong một số trường hợp,hiệu suất của phân cụm có thể giảm nếu thông tin bổ trợ không được chọn cẩn thận. Bài viết này đề cập đến vấn đề chọn hạt giốngtốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ. Các hạt giống tốt được thu thập đúng cách có thể tăng chất lượngphân cụm và giảm thiểu số lượng truy vấn từ các chuyên gia. Với mục đích này, chúng tôi đề xuất một thuật toán cho nhiệm vụ thuthập hạt giống, xác định các ứng cử viên để nhận nhãn từ các chuyên gia bằng cách sử dụng mạng nơron min-max mờ (được gọi làSCFMS). Các thực nghiệm được thực hiện trên một số bộ dữ liệu thực từ UCI, CS và bộ dữ liệu thực được thu thập từ Bệnh việnĐa khoa Trung ương Thái Nguyên cho thấy hiệu quả của SCFMS so với các phương pháp khác. Từ khóa: Choosing seeds, fuzzy min-max, neural network, semi-supervised clustering. I. GIỚI THIỆU Phân cụm bán giám sát mờ là một mở rộng của phân cụm mờ, đã nhận được nhiều nhà khoa học quan tâmnghiên cứu [7, 22, 23, 24] và được ứng dụng trong nhiều lĩnh vực nhận dạng, xử lý ảnh, xử lý thông tin… [1, 5, 16,19]. Phân cụm bán giám sát mờ sử dụng các thông tin bổ trợ để hướng dẫn, giám sát và điều khiển quá trình phân cụm.Các thông tin bổ trợ có thể là các ràng buộc (Must-link/Cannot-link), hoặc các nhãn (dạng hạt giống) đi cùng các mẫuhay độ thuộc được xác định trước. Với phương pháp chọn giống, đòi hỏi một phần mẫu nhất định trong không gianmẫu có các nhãn đi kèm để tạo ra các cụm ban đầu và giám sát quá trình phân cụm cho các mẫu không có nhãn. Ƣuđiểm của phương pháp này là khả năng sử dụng một tập hợp nhỏ thông tin bổ trợ để cải thiện kết quả phân cụm. Nhìn chung, kết quả phân cụm thường phụ thuộc vào thông tin bổ trợ được cung cấp, do vậy thông tin bổ trợkhác nhau sẽ tạo ra kết quả khác nhau. Trong một số trường hợp, hiệu suất của phân cụm có thể giảm nếu thông tin bổtrợ được lựa chọn tồi [6, 7]. Trên thực tế, các hạt giống được chọn ngẫu nhiên để lấy nhãn từ người dùng, tuy nhiên chiphí lấy nhãn từ các chuyên gia lại tốn kém [4]. Các hạt giống tốt được thu thập đúng cách có thể tăng chất lượng phâncụm và giảm thiểu số lượng truy vấn từ các chuyên gia. Các ứng dụng trong thế giới thực đòi hỏi nhiều cách thức trung gian của việc tìm kiếm cấu trúc trong bộ dữ liệu,hiệu quả của nó có thể được tăng cường đáng kể bằng cách sử dụng các thông tin biết trước, chỉ với một tỷ lệ phầntrăm nhỏ của các mẫu được dán nhãn cũng cải thiện đáng kể các kết quả của phân cụm [10]. Báo cáo này đề cập đếnvấn đề chọn hạt giống tốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ (FMNN). Với mục đích này,chúng tôi đề xuất một thuật toán mới cho nhiệm vụ thu thập hạt giống tốt, xác định các ứng cử viên để nhận nhãn từcác chuyên gia bằng cách sử dụng mạng nơron min-max m ...
Nội dung trích xuất từ tài liệu:
Phân cụm bán giám sát dựa trên phương pháp gieo hạt sử dụng mạng nơron min-max mờKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020DOI: 10.15625/vap.2020.00197 PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN PHƯƠNG PHÁP GIEO HẠT SỬ DỤNG MẠNG NƠRON MIN-MAX MỜ Vũ Đình Minh1, Lê Bá Dũng2, Lê Anh Tú3, Nguyễn Thanh Sơn4 1 Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội 2 Khoa Công nghệ thông tin, Đại học Điện lực 3 Đại học Hạ Long 4 Cao đẳng Công nghiệp và Thương mại Minhvd.itvn@gmail.com, l_bdung@yahoo.com, anhtucntt@gmail.com, sonnt@pci.edu.vn TÓM TẮT: Phân cụm là kỹ thuật trong khai phá dữ liệu, nó thuộc lớp các phương pháp học không có giám sát. Quá trìnhphân tách các nhóm theo sự tương tự của dữ liệu được gọi là phân cụm. Có hai nguyên tắc cơ bản: (i) độ tương tự là cao nhất trongmột cụm và (ii) độ tương tự giữa các cụm là ít nhất. Gần đây, phân cụm bán giám sát mờ là một mở rộng của phân cụm mờ cũngnhận được nhiều sự quan tâm của các nhà khoa học. Phân cụm bán giám sát mờ sử dụng các thông tin biết trước để hướng dẫn quátrình phân cụm, từ đó làm tăng chất lượng của cụm. Các thông tin biết trước hay còn gọi là các thông tin bổ trợ nhằm mục đíchhướng dẫn, giám sát và điều khiển quá trình phân cụm. Các thông tin bổ trợ có thể được xây dựng dựa trên các ràng buộc Must-link/Cannot-link, hoặc các nhãn (dạng hạt giống) đi cùng các mẫu hay độ thuộc được xác định trước. Với phương pháp gán nhãn đicùng mẫu đòi hỏi một phần mẫu nhất định trong không gian mẫu có các nhãn đi kèm. Nhìn chung, kết quả phân cụm thường phụthuộc vào thông tin bổ trợ được cung cấp, vì vậy thông tin bổ trợ khác nhau sẽ tạo ra kết quả khác nhau. Trong một số trường hợp,hiệu suất của phân cụm có thể giảm nếu thông tin bổ trợ không được chọn cẩn thận. Bài viết này đề cập đến vấn đề chọn hạt giốngtốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ. Các hạt giống tốt được thu thập đúng cách có thể tăng chất lượngphân cụm và giảm thiểu số lượng truy vấn từ các chuyên gia. Với mục đích này, chúng tôi đề xuất một thuật toán cho nhiệm vụ thuthập hạt giống, xác định các ứng cử viên để nhận nhãn từ các chuyên gia bằng cách sử dụng mạng nơron min-max mờ (được gọi làSCFMS). Các thực nghiệm được thực hiện trên một số bộ dữ liệu thực từ UCI, CS và bộ dữ liệu thực được thu thập từ Bệnh việnĐa khoa Trung ương Thái Nguyên cho thấy hiệu quả của SCFMS so với các phương pháp khác. Từ khóa: Choosing seeds, fuzzy min-max, neural network, semi-supervised clustering. I. GIỚI THIỆU Phân cụm bán giám sát mờ là một mở rộng của phân cụm mờ, đã nhận được nhiều nhà khoa học quan tâmnghiên cứu [7, 22, 23, 24] và được ứng dụng trong nhiều lĩnh vực nhận dạng, xử lý ảnh, xử lý thông tin… [1, 5, 16,19]. Phân cụm bán giám sát mờ sử dụng các thông tin bổ trợ để hướng dẫn, giám sát và điều khiển quá trình phân cụm.Các thông tin bổ trợ có thể là các ràng buộc (Must-link/Cannot-link), hoặc các nhãn (dạng hạt giống) đi cùng các mẫuhay độ thuộc được xác định trước. Với phương pháp chọn giống, đòi hỏi một phần mẫu nhất định trong không gianmẫu có các nhãn đi kèm để tạo ra các cụm ban đầu và giám sát quá trình phân cụm cho các mẫu không có nhãn. Ƣuđiểm của phương pháp này là khả năng sử dụng một tập hợp nhỏ thông tin bổ trợ để cải thiện kết quả phân cụm. Nhìn chung, kết quả phân cụm thường phụ thuộc vào thông tin bổ trợ được cung cấp, do vậy thông tin bổ trợkhác nhau sẽ tạo ra kết quả khác nhau. Trong một số trường hợp, hiệu suất của phân cụm có thể giảm nếu thông tin bổtrợ được lựa chọn tồi [6, 7]. Trên thực tế, các hạt giống được chọn ngẫu nhiên để lấy nhãn từ người dùng, tuy nhiên chiphí lấy nhãn từ các chuyên gia lại tốn kém [4]. Các hạt giống tốt được thu thập đúng cách có thể tăng chất lượng phâncụm và giảm thiểu số lượng truy vấn từ các chuyên gia. Các ứng dụng trong thế giới thực đòi hỏi nhiều cách thức trung gian của việc tìm kiếm cấu trúc trong bộ dữ liệu,hiệu quả của nó có thể được tăng cường đáng kể bằng cách sử dụng các thông tin biết trước, chỉ với một tỷ lệ phầntrăm nhỏ của các mẫu được dán nhãn cũng cải thiện đáng kể các kết quả của phân cụm [10]. Báo cáo này đề cập đếnvấn đề chọn hạt giống tốt cho phân cụm bán giám sát sử dụng mạng nơron min-max mờ (FMNN). Với mục đích này,chúng tôi đề xuất một thuật toán mới cho nhiệm vụ thu thập hạt giống tốt, xác định các ứng cử viên để nhận nhãn từcác chuyên gia bằng cách sử dụng mạng nơron min-max m ...
Tìm kiếm theo từ khóa liên quan:
Phân cụm bán giám sát mờ Phương pháp gieo hạt Mạng nơron min-max mờ Mô hình SS-FMM Thuật toán K-MeansGợi ý tài liệu liên quan:
-
Bài giảng Khai phá web - Bài 2: Học máy (Phần 3)
66 trang 31 0 0 -
Ứng dụng thuật toán K-Means để phân khúc khách hàng dựa vào mô hình RFM
8 trang 25 0 0 -
Nghiên cứu kết hợp thuật toán MCC và K-means trong phân loại đám mây điểm LiDAR
7 trang 24 0 0 -
Bài giảng Học máy: Bài 7 - Nguyễn Hoàng Long
0 trang 22 0 0 -
10 trang 21 0 0
-
11 trang 21 0 0
-
Sử dụng thuật toán K-means trong bài toán phân loại đám mây điểm LiDAR
5 trang 21 0 0 -
Phát hiện sạt lở từ ảnh vệ tinh sử dụng phương pháp phân cụm mờ
7 trang 21 0 0 -
Tiểu luận: Thuật toán phân cụm dữ liệu mờ
25 trang 19 0 0 -
Tối ưu dữ liệu lớn hàng hải gom cụm K nhóm theo trung bình dựa vào mô hình mapreuce
7 trang 16 0 0