Tóm tắt Luận án tiến sĩ: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử

Số trang: 26 Loại file: pdf Dung lượng: 875.56 KB Lượt xem: 10 Lượt tải: 0

10.10.2023

Phí lưu trữ: 3,000 VND

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục tiêu của luận án là đề xuất các thuật toán học bằng cây quyết định mờ nhằm đạt hiệu quả trong dự đoán và đơn giản đối với người dùng. Để đáp ứng cho các mục tiêu nghiên cứu trên, luận án tập trung nghiên cứu các nội dung chính sau: Nghiên cứu các thuật toán học cây truyền thống CART, ID3, C4.5, C5.0, SLIQ, SPRINT trên mỗi tập mẫu huấn luyện để tìm một phương pháp học phù hợp.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án tiến sĩ: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử ĐẠI HỌC HUẾ TRƢỜNG ĐẠI HỌC KHOA HỌC LÊ VĂN TƢỜNG LÂNPHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học 1. PGS.TS. Nguyễn Mậu Hân 2. TS. Nguyễn Công Hào HUẾ – NĂM 2018 MỞ ĐẦU1. Lý do chọn đề tài Trong thực tế, các khái niệm mờ luôn tồn tại nên với việc quanniệm các đối tượng được sử dụng phải luôn rõ ràng ở trong logic cổđiển sẽ không không đủ miêu tả các vấn đề của thế giới thực. Năm1965, L. A. Zadeh đã đề xuất hình thức hóa toán học của khái niệmmờ, từ đó lý thuyết tập mờ được hình thành và ngày càng thu hút sựnghiên cứu của nhiều tác giả. Năm 1990, N.C. Ho & W. Wechsler đãkhởi xướng phương pháp tiếp cận đại số đến cấu trúc tự nhiên củamiền giá trị của các biến ngôn ngữ. Theo cách tiếp cận này, mỗi giátrị ngôn ngữ của một biến ngôn ngữ nằm trong một cấu trúc đại sốgọi là đại số gia tử (ĐSGT). Trên cơ sở đó, đã có nhiều nghiên cứucủa nhiều tác giả trong các lĩnh vực: điều khiển mờ và lập luận mờ,cơ sở dữ liệu mờ, phân lớp mờ,… và đã cho chúng ta nhiều kết quảrất khả quan, có khả năng ứng dụng tốt. Hiện nay, khai phá dữ liệu là bài toán cần ưu tiên cần giải quyếtmà phân lớp dữ liệu là một quá trình quan trọng của khai phá dữ liệu.Đó là quá trình chia các đối tượng dữ liệu thành các lớp dựa trên cácnét đặc trưng của tập dữ liệu. Các phương pháp thường được sử dụngtrong quá trình học phân lớp như: thống kê, mạng nơron, cây quyếtđịnh,… trong đó cây quyết định là một giải pháp hữu hữu hiệu. Đãcó nhiều nghiên cứu để xây dựng nó mà nổi bật là các thuật toán họcquy nạp như CART, ID3, C4.5, SLIQ, SPRINT, LDT, LID3,... Tuyvậy, các cách tiếp cận cho việc học phân lớp bằng cây quyết địnhhiện nay vẫn còn nhiều vấn đề cần giải quyết: - Xây dựng cây quyết định dựa trên khái niệm Entropi thông tintheo các phương pháp truyền thống như ID3, C4,5, CART, SLIQ,SPRINT,…cho các thuật toán có độ phứt tạp thấp nhưng khả năngdự đoán chưa cao, có thể dẫn đến tình trạng quá khớp trên cây kếtquả. Thêm vào đó, các phương pháp này không thể sử dụng để huấnluyện và dự đoán trên các tập mẫu có chứa giá trị mờ, mà việc lưutrữ dữ liệu mờ hiện nay là tất yếu trên các kho dữ liệu nghiệp vụ. - Một hướng tiếp cận là thông qua lý thuyết tập mờ để tính lợiích thông tin của các thuộc tính mờ cho quá trình phân lớp. Cách nàyđã giải quyết được các giá trị mờ trong tập huấn luyện thông qua việcxác định các hàm thuộc, từ đó các bộ giá trị này có thể tham gia vàoquá trình huấn luyện nên đã giải quyết được hạn chế là bỏ qua các 1giá trị dữ liệu mờ của cách tiếp cận phân lớp rõ. Tuy vậy, hiện vẫncòn gặp phải những hạn chế xuất phát từ bản thân nội tại của lýthuyết tập mờ: hàm thuộc của chúng không sánh được với nhau, xuấthiện sai số lớn tại quá trình xấp xỉ, phụ thuộc vào sự chủ quan, giá trịngôn ngữ còn thiếu một cơ sở đại số làm nền tảng. - Theo cách tiếp cận xây dựng cây quyết định ngôn ngữ, nhiềutác giả đã xây dựng cách thức xác định cho các giá trị ngôn ngữ trêntập dữ liệu mờ và xây dựng cây bằng phương pháp LID3. Việc xâydựng các nhãn ngôn ngữ cho các giá trị mờ dựa vào xác suất của cácnhãn liên kết trong khi vẫn giữ được các giá trị rõ đã biết, hướng tiếpcận này đã làm giảm sai số đáng kể cho quá trình huấn luyện. Tuyvậy, hướng tiếp cận này sẽ phát sinh cây đa phân do có sự phân chialớn theo chiều ngang tại các nút ngôn ngữ. - Phương pháp định lượng ngữ nghĩa theo điểm dựa trên ĐSGT,nhằm thuần nhất dữ liệu về các giá trị số hay giá trị ngôn ngữ. Bàitoán xây dựng cây quyết định mờ lúc này có thể sử dụng các thuậttoán học theo cách tiếp cận cây quyết định rõ trong một ĐSGT đãxây dựng. Tuy vậy, hướng tiếp cận này vẫn còn một số vấn đề như:vẫn xuất hiện sai số lớn khi thuần nhất theo điểm mờ, khó đưa ra dựđoán khi có sự đan xen ở điểm phân chia mờ của cây kết quả, phụthuộc vào miền trị [min, max] từ miền giá trị rõ của thuộc tính mờ. Tất cả các thuật toán học phân lớp bằng cây quyết định hiện cóđều phụ thuộc lớn vào việc chọn tập mẫu của người huấn luyện.Trong các kho dữ liệu nghiệp vụ, nhiều thông tin phục vụ tốt choviệc dự đoán nhưng nhiều thông tin khác chỉ có ý nghĩa lưu trữ thôngthường, phục vụ cho việc diễn giải thông tin. Chúng làm phức tạpmẫu nên tăng chi phí cho quá trình huấn luyện, quan trọng hơn làchúng gây nhiễu nên cây được xây dựng không có hiệu quả cao.Xuất phát từ việc tìm hiểu, nghiên cứu các đặc điểm và các tháchthức về các vấn đề của phân lớp dữ liệu bằng cây quyết định, đề tài:“Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử” làvấn đề lớn cần giải quyết.2. Đối tượng v ...