Sử dụng mạng nơron nhân tạo Fuzzy Art để phân cụm dữ liệu
Số trang: 5
Loại file: pdf
Dung lượng: 166.85 KB
Lượt xem: 7
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mạng nơron mờ là một mạng nơron nhân tạo mà phối hợp của các khái niệm mờ, các luật suy diễn mờ với kiến trúc và việc học của các mạng nơron. Phân cụm dữ liệu là một công cụ quan trọng của khai thác dữ liệu và tìm ra tri thức trong một số lượng lớn dữ liệu. Fuzzy ART (Fuzzy Adaptive Resonance Theory) là một mạng nơron mờ mà giải quyết bài toán phân cụm dữ liệu tốt hơn các phương pháp phân cụm truyền thống. Trong nghiên cứu này, chúng tôi phân tích các ưu điểm của Fuzzy ART và hướng dẫn chọn các tham số của mô hình Fuzzy ART để giải bài toán phân cụm cho các tập dữ liệu đạt độ chính xác cao nhất.
Nội dung trích xuất từ tài liệu:
Sử dụng mạng nơron nhân tạo Fuzzy Art để phân cụm dữ liệuNông Thị Hoa và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆ106(06): 49 - 53SỬ DỤNG MẠNG NƠRON NHÂN TẠO FUZZY ART ĐỂ PHÂN CỤM DỮ LIỆUNông Thị Hoa1*, Hoàng Trọng Vĩnh21Trường Đại học Công nghệ Thông tin & Truyền thông - ĐH Thái Nguyên2Công ty FPT softwareTÓM TẮTMạng nơron mờ là một mạng nơron nhân tạo mà phối hợp của các khái niệm mờ, các luật suy diễnmờ với kiến trúc và việc học của các mạng nơron. Phân cụm dữ liệu là một công cụ quan trọng củakhai thác dữ liệu và tìm ra tri thức trong một số lượng lớn dữ liệu. Fuzzy ART (Fuzzy AdaptiveResonance Theory) là một mạng nơron mờ mà giải quyết bài toán phân cụm dữ liệu tốt hơn cácphương pháp phân cụm truyền thống. Trong nghiên cứu này, chúng tôi phân tích các ưu điểm củaFuzzy ART và hướng dẫn chọn các tham số của mô hình Fuzzy ART để giải bài toán phân cụmcho các tập dữ liệu đạt độ chính xác cao nhất. Các thực nghiệm được làm với 5 tập dữ liệu chuẩntrong cơ sở dữ liệu UCI để chứng minh tính hiệu quả của Fuzzy ART. Kết quả thực nghiệm chothấy Fuzzy ART cho kết quả phân cụm với độ chính xác cao.Từ khóa: Fuzzy ART, ART, Fuzzy Neural Network, Fuzzy Set, ClusteringGIỚI THIỆU*Phân cụm dữ liệu là một công cụ quan trọngcủa khai thác dữ liệu và tìm ra tri thức trongmột số lượng lớn dữ liệu. Hơn nữa, phân cụmcòn tổng hợp một số lượng lớn dữ liệu trongmột số lượng nhỏ các nhóm nên phân cụm cóích cho cho việc hiểu một số lượng lớn dữ liệu.Một số phương pháp phân cụm truyền thốngđã được đưa ra như K-mean [2], phân cụmphân cấp [3], và mô hình SOM [6] nhưng độphức tạp tính toán của các phương pháp nàykhá lớn. Fuzzy ART [1] là một mạng nơronmờ có các ưu điểm gồm: Học dữ liệu huấnluyện cho đến khi thỏa mãn một điều kiệnnhất định, có thể sinh ra nhóm mới mà khôngphá vỡ các nhóm đang tồn tại, dễ dàng lựachọn các tham số của mạng. Do đó, FuzzyART phân cụm dữ liệu với độ chính xác caovà giảm đáng kể độ phức tạp tính toán.BÀI TOÁN PHÂN CỤM DỮ LIỆUPhát biểu bài toánCho tập dữ liệu D. Mỗi dữ liệu I trong tập Dđược biểu diễn bằng một véc tơ có M phần tử.Mỗi thành phần của I nằm trong khoảng [0,1]. Khi đó ta có:I=(I1, …., IM ).*Tel: 01238 492 484Tập D có p nhóm. Mỗi nhóm có một véc tơtrọng số W gồm có M phần tử. Khi đó véc tơtrọng số của nhóm k được biểu diễn như sau:Wk=(Wk1, …., IkM )Mỗi dữ liệu I thuộc về một nhóm h nhất định.Yêu cầu: Dựa vào sự tương đồng giữa mỗidữ liệu I và véc tơ trọng số W của các nhómđể phân dữ liệu I vào nhóm h.Một số phương pháp giải truyền thốngTeuvo Kohonen [6] đưa ra một mô hình củamột quá trình tự tổ chức mới mà được gọi làmô hình SOM. SOM là một mạng nơ ronnhân tạo thực hiện học không giám sát để tạora một biểu diễn cho không gian dữ liệu vàovới số chiều thấp hơn. M.Queen [2] đưa rathuật toán K-mean mà phân chia tập dữ liệuvào một số cụm nhất định bằng việc cực tiểuhàm lỗi bình phương. Sau đó, trọng số củacác cụm được cập nhật bởi giá trị trung bìnhcủa các mẫu trong mỗi phân cụm. Johnson [3]đưa ra thuật toán phân cụm phân cấp dựa vàosự nhập lại của hai cụm gần nhất. Tuy nhiêncác phương pháp này có độ phức tạp tính toánkhá cao do việc luôn tính lại trọng số của mỗiphân lớp khi xét một dữ liệu huấn luyện.49Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyênhttp://www.lrc-tnu.edu.vnNông Thị Hoa và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆFUZZY ARTMô hình mạng ARTCác mạng nơron ART được phát triển bởiGrossberg [4][5] để giải quyết vấn đề về hiệntượng ổn định-linh hoạt. Mạng ART là mộtthuật toán học tăng cường nên mạng ARTthích nghi được với một dữ liệu mới. Ở mộtthời điểm, mạng ART không cho phép thayđổi các mẫu đã lưu cho đến khi mẫu vào khớpvới các mẫu đã lưu với một mức nhiễu nhấtđịnh. Nghĩa là, mạng ART có cả tính linhhoạt và ổn định. Một phân nhóm mới có thểhình thành khi môi trường không khớp vớicác mẫu đã lưu, nhưng môi trường không thểthay đổi các mẫu đã lưu trừ khi sự tương tựcủa chúng đạt đến một mức đặt trước. Cấutrúc chung của mạng ART được thể hiện ởHình 1.106(06): 49 - 53• tham số chọn α> 0;• tham số tốc độ học β∈[0, 1]• tham số ngưỡng ∈[0, 1];Nội dung của thuật toán được trình bày nhưsau:Bước 1: Khởi tạo véc tơ trọng số. mỗi phânlớp j tương ứng với một véc tơ Wj= (Wj1,...,WjM) của các trọng số thích nghi hay vết bộnhớ dài hạn. Số các nhóm tiềm năng N (j =i,..., N) là bất kỳ. Khởi tạo(1)và mỗi nhóm được coi là chưa hình thành.Sau khi một nhóm được chọn để mã hóa,nhóm được hình thành. Như biểu diễn dướiđây, mỗi vết bộ nhớ dài hạn Wji là không tăngdần theo thời gian và vì vậy các Wji hội tụ tớimột giới hạn.Bước 2: Lựa chọn một nhóm chiến thắng:Với mỗi dữ liệu vào I và nhóm j, hàm chọn Tjđược định nghĩa bởi(2)Hình 1: Mô hình đơn giản của mạng ARTMột mạng ART điển hình có hai tầng: tầngdữ liệu vào (F1) và tầng dữ liệu ra (F2). Tầngdữ liệu vào chứa N nút với N là số lượng cácmẫu dữ liệu vào. Số lượng nút của tầng dữliệu ra là động. Mỗi nú ...
Nội dung trích xuất từ tài liệu:
Sử dụng mạng nơron nhân tạo Fuzzy Art để phân cụm dữ liệuNông Thị Hoa và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆ106(06): 49 - 53SỬ DỤNG MẠNG NƠRON NHÂN TẠO FUZZY ART ĐỂ PHÂN CỤM DỮ LIỆUNông Thị Hoa1*, Hoàng Trọng Vĩnh21Trường Đại học Công nghệ Thông tin & Truyền thông - ĐH Thái Nguyên2Công ty FPT softwareTÓM TẮTMạng nơron mờ là một mạng nơron nhân tạo mà phối hợp của các khái niệm mờ, các luật suy diễnmờ với kiến trúc và việc học của các mạng nơron. Phân cụm dữ liệu là một công cụ quan trọng củakhai thác dữ liệu và tìm ra tri thức trong một số lượng lớn dữ liệu. Fuzzy ART (Fuzzy AdaptiveResonance Theory) là một mạng nơron mờ mà giải quyết bài toán phân cụm dữ liệu tốt hơn cácphương pháp phân cụm truyền thống. Trong nghiên cứu này, chúng tôi phân tích các ưu điểm củaFuzzy ART và hướng dẫn chọn các tham số của mô hình Fuzzy ART để giải bài toán phân cụmcho các tập dữ liệu đạt độ chính xác cao nhất. Các thực nghiệm được làm với 5 tập dữ liệu chuẩntrong cơ sở dữ liệu UCI để chứng minh tính hiệu quả của Fuzzy ART. Kết quả thực nghiệm chothấy Fuzzy ART cho kết quả phân cụm với độ chính xác cao.Từ khóa: Fuzzy ART, ART, Fuzzy Neural Network, Fuzzy Set, ClusteringGIỚI THIỆU*Phân cụm dữ liệu là một công cụ quan trọngcủa khai thác dữ liệu và tìm ra tri thức trongmột số lượng lớn dữ liệu. Hơn nữa, phân cụmcòn tổng hợp một số lượng lớn dữ liệu trongmột số lượng nhỏ các nhóm nên phân cụm cóích cho cho việc hiểu một số lượng lớn dữ liệu.Một số phương pháp phân cụm truyền thốngđã được đưa ra như K-mean [2], phân cụmphân cấp [3], và mô hình SOM [6] nhưng độphức tạp tính toán của các phương pháp nàykhá lớn. Fuzzy ART [1] là một mạng nơronmờ có các ưu điểm gồm: Học dữ liệu huấnluyện cho đến khi thỏa mãn một điều kiệnnhất định, có thể sinh ra nhóm mới mà khôngphá vỡ các nhóm đang tồn tại, dễ dàng lựachọn các tham số của mạng. Do đó, FuzzyART phân cụm dữ liệu với độ chính xác caovà giảm đáng kể độ phức tạp tính toán.BÀI TOÁN PHÂN CỤM DỮ LIỆUPhát biểu bài toánCho tập dữ liệu D. Mỗi dữ liệu I trong tập Dđược biểu diễn bằng một véc tơ có M phần tử.Mỗi thành phần của I nằm trong khoảng [0,1]. Khi đó ta có:I=(I1, …., IM ).*Tel: 01238 492 484Tập D có p nhóm. Mỗi nhóm có một véc tơtrọng số W gồm có M phần tử. Khi đó véc tơtrọng số của nhóm k được biểu diễn như sau:Wk=(Wk1, …., IkM )Mỗi dữ liệu I thuộc về một nhóm h nhất định.Yêu cầu: Dựa vào sự tương đồng giữa mỗidữ liệu I và véc tơ trọng số W của các nhómđể phân dữ liệu I vào nhóm h.Một số phương pháp giải truyền thốngTeuvo Kohonen [6] đưa ra một mô hình củamột quá trình tự tổ chức mới mà được gọi làmô hình SOM. SOM là một mạng nơ ronnhân tạo thực hiện học không giám sát để tạora một biểu diễn cho không gian dữ liệu vàovới số chiều thấp hơn. M.Queen [2] đưa rathuật toán K-mean mà phân chia tập dữ liệuvào một số cụm nhất định bằng việc cực tiểuhàm lỗi bình phương. Sau đó, trọng số củacác cụm được cập nhật bởi giá trị trung bìnhcủa các mẫu trong mỗi phân cụm. Johnson [3]đưa ra thuật toán phân cụm phân cấp dựa vàosự nhập lại của hai cụm gần nhất. Tuy nhiêncác phương pháp này có độ phức tạp tính toánkhá cao do việc luôn tính lại trọng số của mỗiphân lớp khi xét một dữ liệu huấn luyện.49Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyênhttp://www.lrc-tnu.edu.vnNông Thị Hoa và ĐtgTạp chí KHOA HỌC & CÔNG NGHỆFUZZY ARTMô hình mạng ARTCác mạng nơron ART được phát triển bởiGrossberg [4][5] để giải quyết vấn đề về hiệntượng ổn định-linh hoạt. Mạng ART là mộtthuật toán học tăng cường nên mạng ARTthích nghi được với một dữ liệu mới. Ở mộtthời điểm, mạng ART không cho phép thayđổi các mẫu đã lưu cho đến khi mẫu vào khớpvới các mẫu đã lưu với một mức nhiễu nhấtđịnh. Nghĩa là, mạng ART có cả tính linhhoạt và ổn định. Một phân nhóm mới có thểhình thành khi môi trường không khớp vớicác mẫu đã lưu, nhưng môi trường không thểthay đổi các mẫu đã lưu trừ khi sự tương tựcủa chúng đạt đến một mức đặt trước. Cấutrúc chung của mạng ART được thể hiện ởHình 1.106(06): 49 - 53• tham số chọn α> 0;• tham số tốc độ học β∈[0, 1]• tham số ngưỡng ∈[0, 1];Nội dung của thuật toán được trình bày nhưsau:Bước 1: Khởi tạo véc tơ trọng số. mỗi phânlớp j tương ứng với một véc tơ Wj= (Wj1,...,WjM) của các trọng số thích nghi hay vết bộnhớ dài hạn. Số các nhóm tiềm năng N (j =i,..., N) là bất kỳ. Khởi tạo(1)và mỗi nhóm được coi là chưa hình thành.Sau khi một nhóm được chọn để mã hóa,nhóm được hình thành. Như biểu diễn dướiđây, mỗi vết bộ nhớ dài hạn Wji là không tăngdần theo thời gian và vì vậy các Wji hội tụ tớimột giới hạn.Bước 2: Lựa chọn một nhóm chiến thắng:Với mỗi dữ liệu vào I và nhóm j, hàm chọn Tjđược định nghĩa bởi(2)Hình 1: Mô hình đơn giản của mạng ARTMột mạng ART điển hình có hai tầng: tầngdữ liệu vào (F1) và tầng dữ liệu ra (F2). Tầngdữ liệu vào chứa N nút với N là số lượng cácmẫu dữ liệu vào. Số lượng nút của tầng dữliệu ra là động. Mỗi nú ...
Tìm kiếm theo từ khóa liên quan:
Mạng nơron mờ Mạng nơron nhân tạo Fuzzy Art Phân cụm dữ liệu Sử dụng mạng nơron nhân tạo Fuzzy Art Fuzzy AdaptiveResonance TheoryTài liệu liên quan:
-
Nâng cao hiệu năng tính toán cho thuật toán phân cụm FCM
5 trang 34 0 0 -
4 trang 31 0 0
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy
59 trang 25 0 0 -
Phân cụm dữ liệu sử dụng giải thuật di truyền
3 trang 24 0 0 -
Bài giảng Khai phá dữ liệu: Bài 4 - TS. Trần Mạnh Tuấn
62 trang 22 0 0 -
Bài giảng Khai phá dữ liệu: Bài 0 - TS. Trần Mạnh Tuấn
10 trang 19 0 0 -
Luận văn Thạc sĩ ngành Công nghệ thông tin: Phân cụm thô của dữ liệu tuần tự
53 trang 19 0 0 -
7 trang 18 0 0
-
Bài giảng Nhập môn khai phá dữ liệu: Chương 6 - PGS. TS. Hà Quang Thụy
55 trang 18 0 0 -
Luận văn thạc sĩ khoa học máy tính: PHƯƠNG PHÁP PHÂN CỤM VÀ ỨNG DỤNG
100 trang 17 0 0