Học bán giám sát trong mạng nơron min-max mờ cho phân cụm dữ liệu với rút trích luật quyết định

Số trang: 10 Loại file: pdf Dung lượng: 351.86 KB Lượt xem: 9 Lượt tải: 0

10.10.2023

Phí lưu trữ: 2,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này đề xuất một mạng nơron min-max mờ cải tiến cho vấn đề phân cụm dữ liệu với phương pháp học bán giám sát. Mô hình đề xuất sử dụng phương pháp lan truyền nhãn trong quá trình huấn luyện gọi là MSS-FMM. Một số mẫu trong tập dữ liệu huấn luyện được gán nhãn là thông tin bổ trợ được sử dụng trong phương pháp phân cụm bán giám sát.
Nội dung trích xuất từ tài liệu:
Học bán giám sát trong mạng nơron min-max mờ cho phân cụm dữ liệu với rút trích luật quyết định Nghiên cứu khoa học công nghệ HỌC BÁN GIÁM SÁT TRONG MẠNG NƠRON MIN MAX MỜ CHO PHÂN CỤM DỮ LIỆU VỚI RÚT TRÍCH LUẬT QUYẾT ĐỊNH Vũ Đình Minh1*, Nguyễn Doãn Cường2 Tóm tắt: Bài báo này đề xuất một mạng nơron min-max mờ cải tiến cho vấn đề phân cụm dữ liệu với phương pháp học bán giám sát. Mô hình đề xuất sử dụng phương pháp lan truyền nhãn trong quá trình huấn luyện gọi là MSS-FMM. Một số mẫu trong tập dữ liệu huấn luyện được gán nhãn là thông tin bổ trợ được sử dụng trong phương pháp phân cụm bán giám sát. Nghiên cứu của chúng tôi được kiểm chứng trên các tập dữ liệu đã được công bố và tập dữ liệu bao gồm 320 bệnh nhân đến khám và điều trị viêm gan mạn tại các bệnh viện Thái Nguyên. Các kết quả thực nghiệm được so sánh với kết quả thực nghiệm của các mạng nơron min-max mờ được đưa ra bởi các nhà nghiên cứu khác. Giải pháp của chúng tôi đã nâng cao đáng kể độ đo Accuracy phân loại. Từ khóa: Mạng nơron min-max mờ; Phân cụm; Có giám sát; Không giám sát; Bán giám sát. 1. ĐẶT VẤN ĐỀ Mô hình mạng nơron min-max mờ (FMNN) đầu tiên được đề xuất đầu tiên bởi Simpson. Học trong FMNN gồm học có giám sát áp dụng cho bài toán phân lớp dữ liệu [11] và học không giám sát áp dụng cho bài toán phân cụm dữ liệu [12]. FMNN biểu diễn dữ liệu bằng các hyperbox mờ. Sự kết hợp giữa logic mờ và khả năng học của mạng nơron là điểm mạnh của FMNN khi xử lý các thông tin không chắc chắn. Do đó, các mạng FMNN có thể ứng dụng trong rất nhiều lĩnh vực như hệ chuyên gia, dự báo, điều khiển... Tuy nhiên, hiệu suất của FMNN bị phụ thuộc rất lớn vào giới hạn kích thước tối đa của hyperbox. Nếu max càng lớn, dẫn tới số lượng hyperbox nhỏ, dẫn đến hiệu suất giảm. Ngược lại nếu max quá bé thì mô hình tính toán có thể bị quá khớp (overfitting). Đặc biệt, đối với các tập dữ liệu có kích thước các cụm dữ liệu không đồng đều thì hiệu quả của các FMNN sẽ bị giảm nhiều hơn. Cho đến nay, đã có nhiều nghiên cứu nhằm nâng cao hiệu quả của các FMNN được đề xuất, nhưng hầu hết chỉ tập trung vào cải tiến quá trình điều chỉnh kích thước hyperbox [2], [3], [4], [6], [7], [9], [10], [15]. Bên cạnh đó, một vài nghiên cứu cải tiến FMNN sử dụng phương pháp học bán giám sát cũng được đề xuất [5], [8], [13]. Trong bài báo này, chúng tôi đề xuất mô hình cải tiến sử dụng thuật toán học bán giám sát để phân cụm dữ liệu được phát triển từ mô hình SS-FMM [13]. Mô hình đề xuất sử dụng phương thức học bán giám sát với một phần của dữ liệu đã được gán nhãn đi cùng các mẫu dữ liệu đầu vào. Các đóng góp chính bao gồm (i) số mẫu được gán nhãn ít hơn, (ii) không tạo ra các hyperbox có đặc tính mới, (iii) thực hiện một lần duyệt duy nhất qua các mẫu dữ liệu (iv) sử dụng tất cả các mẫu trong quá trình đào tạo, (v) giảm số lượng các hyperbox để tối ưu FMNN. Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 17 Công nghệ thông tin Các phần tiếp theo của bài báo gồm: phần 2 giới thiệu về mạng nơron min-max mờ, cắt tỉa các hyperbox và rút trích các luật quyết định. Phần 3 trình bày giải pháp đề xuất của chúng tôi, phần 4 đưa ra các kết quả thực nghiệm và so sánh với các phương pháp khác, phần cuối cùng là kết luận. 2. MẠNG NƠRON PHÂN CỤM MIN-MAX MỜ VỚI KẾT XUẤT LUẬT 2.1. Mạng nơron min max mờ FMNN [12] là mạng nơron hai lớp: lớp đầu vào FA bao gồm n nút (n là kích thước của vector đầu vào); lớp đầu ra FB bao gồm m nút, mỗi nút tương ứng với một hyperbox. Thuật toán học chỉ bao gồm quá trình điều chỉnh mở rộng/co lại các hyperbox, thuật toán học FMNN bao gồm 3 bước: tạo và mở rộng các hyperbox, kiểm tra chồng lấn giữa các hyperbox, co lại các hyperbox nếu có chống lấn. Các bước 1-3 được thực hiện trên mỗi mẫu đầu vào. 2.2. Cắt tỉa hyperbox sử dụng GA Để cắt tỉa các hyperbox có chỉ số sử dụng thấp, mạng nơron min-max mờ sử dụng giải thuật di truyền (GA) [14]. Quá trình chung của hoạt động di truyền được thực hiện như sau: 1. Khởi tạo: Khởi tạo quần thể ban đầu bằng cách sinh ngẫu nhiên chuỗi nhị phân bao gồm tất cả các hyperbox. 2. Chọn lọc: Chọn các cặp từ chuỗi ban đầu với xác suất lựa chọn theo giá trị tối thiểu của hàm mục tiêu cho mỗi cá thể trong quần thể. 3. Tạo quần thể mới: Tạo quần thể mới bằng cách lai ghép chéo từ các cá thể hiện tại có chọn lọc, đồng thời tạo ra các đột biến trong quần thể mới theo một xác suất nhất định. 4. Thay thế ngẫu nhiên: Các cá thể trong quần thể mới sinh ra được thay thế cho các cá thể trong quần thể cũ bằng cách thay thế ngẫu nhiên một cá thể cũ bằng một cá thể mới với giá trị hàm mục tiêu lớn nhất. 5. Điều kiện dừng: Nếu các điều kiện dừng thỏa thì giải thuật dừng lại, nếu không thì quay lại bước 2. 2.3. Rút trích luật quyết định từ mạng nơron min - max mờ Mỗi hyperbox được sử dụng để kết xuất thành một luật quyết định “if…then”. Các giá trị min và max được định lượng thành các mức Q trong khoảng [0,1] tương đương số phân vùng mờ trong quy tắc định lượng [1]. Các luật if…then mờ được định nghĩa theo (1): Rule R j : If x p1 is Aq and  x pn is Aq Then x pis C j (1) 18 V. Đ. Minh, N. D. Cường, “Học bám sát trong mạng nơron … rút trích luật quyết định.” Nghiên cứu khoa học công nghệ với xp là mẫu vào n chiều, Aq là giá trị tiền đề, Cj là cụm thứ jth. 3. ĐỀ XUẤT THUẬT TOÁN CẢI TIẾN Mô hình đề xuất MSS-FMM (Modified SS-FMM) (Hình 1), sử dụng giải thuật di truyền cắt tỉa các hyperbox có chỉ số thấp và kết xuất các luật quyết định. Hình 2 mô tả sơ đồ thuật toán học MSS-FMM, dữ liệu vào là các mẫu dữ liệu đi cùng nhãn trong tập huấn luyện. Các mẫu dữ liệu có nhãn ...