Tóm tắt Luận án tiến sĩ: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án tiến sĩ: Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử ĐẠI HỌC HUẾ TRƢỜNG ĐẠI HỌC KHOA HỌC LÊ VĂN TƢỜNG LÂNPHÂN LỚP DỮ LIỆU BẰNG CÂY QUYẾT ĐỊNH MỜ DỰA TRÊN ĐẠI SỐ GIA TỬ CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 62.48.01.01 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học 1. PGS.TS. Nguyễn Mậu Hân 2. TS. Nguyễn Công Hào HUẾ – NĂM 2018 MỞ ĐẦU1. Lý do chọn đề tài Trong thực tế, các khái niệm mờ luôn tồn tại nên với việc quanniệm các đối tượng được sử dụng phải luôn rõ ràng ở trong logic cổđiển sẽ không không đủ miêu tả các vấn đề của thế giới thực. Năm1965, L. A. Zadeh đã đề xuất hình thức hóa toán học của khái niệmmờ, từ đó lý thuyết tập mờ được hình thành và ngày càng thu hút sựnghiên cứu của nhiều tác giả. Năm 1990, N.C. Ho & W. Wechsler đãkhởi xướng phương pháp tiếp cận đại số đến cấu trúc tự nhiên củamiền giá trị của các biến ngôn ngữ. Theo cách tiếp cận này, mỗi giátrị ngôn ngữ của một biến ngôn ngữ nằm trong một cấu trúc đại sốgọi là đại số gia tử (ĐSGT). Trên cơ sở đó, đã có nhiều nghiên cứucủa nhiều tác giả trong các lĩnh vực: điều khiển mờ và lập luận mờ,cơ sở dữ liệu mờ, phân lớp mờ,… và đã cho chúng ta nhiều kết quảrất khả quan, có khả năng ứng dụng tốt. Hiện nay, khai phá dữ liệu là bài toán cần ưu tiên cần giải quyếtmà phân lớp dữ liệu là một quá trình quan trọng của khai phá dữ liệu.Đó là quá trình chia các đối tượng dữ liệu thành các lớp dựa trên cácnét đặc trưng của tập dữ liệu. Các phương pháp thường được sử dụngtrong quá trình học phân lớp như: thống kê, mạng nơron, cây quyếtđịnh,… trong đó cây quyết định là một giải pháp hữu hữu hiệu. Đãcó nhiều nghiên cứu để xây dựng nó mà nổi bật là các thuật toán họcquy nạp như CART, ID3, C4.5, SLIQ, SPRINT, LDT, LID3,... Tuyvậy, các cách tiếp cận cho việc học phân lớp bằng cây quyết địnhhiện nay vẫn còn nhiều vấn đề cần giải quyết: - Xây dựng cây quyết định dựa trên khái niệm Entropi thông tintheo các phương pháp truyền thống như ID3, C4,5, CART, SLIQ,SPRINT,…cho các thuật toán có độ phứt tạp thấp nhưng khả năngdự đoán chưa cao, có thể dẫn đến tình trạng quá khớp trên cây kếtquả. Thêm vào đó, các phương pháp này không thể sử dụng để huấnluyện và dự đoán trên các tập mẫu có chứa giá trị mờ, mà việc lưutrữ dữ liệu mờ hiện nay là tất yếu trên các kho dữ liệu nghiệp vụ. - Một hướng tiếp cận là thông qua lý thuyết tập mờ để tính lợiích thông tin của các thuộc tính mờ cho quá trình phân lớp. Cách nàyđã giải quyết được các giá trị mờ trong tập huấn luyện thông qua việcxác định các hàm thuộc, từ đó các bộ giá trị này có thể tham gia vàoquá trình huấn luyện nên đã giải quyết được hạn chế là bỏ qua các 1giá trị dữ liệu mờ của cách tiếp cận phân lớp rõ. Tuy vậy, hiện vẫncòn gặp phải những hạn chế xuất phát từ bản thân nội tại của lýthuyết tập mờ: hàm thuộc của chúng không sánh được với nhau, xuấthiện sai số lớn tại quá trình xấp xỉ, phụ thuộc vào sự chủ quan, giá trịngôn ngữ còn thiếu một cơ sở đại số làm nền tảng. - Theo cách tiếp cận xây dựng cây quyết định ngôn ngữ, nhiềutác giả đã xây dựng cách thức xác định cho các giá trị ngôn ngữ trêntập dữ liệu mờ và xây dựng cây bằng phương pháp LID3. Việc xâydựng các nhãn ngôn ngữ cho các giá trị mờ dựa vào xác suất của cácnhãn liên kết trong khi vẫn giữ được các giá trị rõ đã biết, hướng tiếpcận này đã làm giảm sai số đáng kể cho quá trình huấn luyện. Tuyvậy, hướng tiếp cận này sẽ phát sinh cây đa phân do có sự phân chialớn theo chiều ngang tại các nút ngôn ngữ. - Phương pháp định lượng ngữ nghĩa theo điểm dựa trên ĐSGT,nhằm thuần nhất dữ liệu về các giá trị số hay giá trị ngôn ngữ. Bàitoán xây dựng cây quyết định mờ lúc này có thể sử dụng các thuậttoán học theo cách tiếp cận cây quyết định rõ trong một ĐSGT đãxây dựng. Tuy vậy, hướng tiếp cận này vẫn còn một số vấn đề như:vẫn xuất hiện sai số lớn khi thuần nhất theo điểm mờ, khó đưa ra dựđoán khi có sự đan xen ở điểm phân chia mờ của cây kết quả, phụthuộc vào miền trị [min, max] từ miền giá trị rõ của thuộc tính mờ. Tất cả các thuật toán học phân lớp bằng cây quyết định hiện cóđều phụ thuộc lớn vào việc chọn tập mẫu của người huấn luyện.Trong các kho dữ liệu nghiệp vụ, nhiều thông tin phục vụ tốt choviệc dự đoán nhưng nhiều thông tin khác chỉ có ý nghĩa lưu trữ thôngthường, phục vụ cho việc diễn giải thông tin. Chúng làm phức tạpmẫu nên tăng chi phí cho quá trình huấn luyện, quan trọng hơn làchúng gây nhiễu nên cây được xây dựng không có hiệu quả cao.Xuất phát từ việc tìm hiểu, nghiên cứu các đặc điểm và các tháchthức về các vấn đề của phân lớp dữ liệu bằng cây quyết định, đề tài:“Phân lớp dữ liệu bằng cây quyết định mờ dựa trên đại số gia tử” làvấn đề lớn cần giải quyết.2. Đối tượng v ...
Tìm kiếm theo từ khóa liên quan:
Luận án tiến sĩ Khoa học Máy tính Luận án tiến sĩ Khoa học Máy tính Phân lớp dữ liệu Cây quyết định mờ Đại số gia tửTài liệu cùng danh mục:
-
30 trang 504 0 0
-
205 trang 410 0 0
-
Luận án Tiến sĩ Tài chính - Ngân hàng: Phát triển tín dụng xanh tại ngân hàng thương mại Việt Nam
267 trang 374 1 0 -
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 355 5 0 -
97 trang 308 0 0
-
206 trang 298 2 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 296 0 0 -
174 trang 294 0 0
-
102 trang 286 0 0
-
174 trang 275 0 0
Tài liệu mới:
-
Khảo sát tình trạng dinh dưỡng trước mổ ở người bệnh ung thư đại trực tràng
9 trang 21 0 0 -
94 trang 19 0 0
-
Tham vấn Thanh thiếu niên - ĐH Mở Bán công TP Hồ Chí Minh
276 trang 20 0 0 -
Kết hợp luân phiên sóng T và biến thiên nhịp tim trong tiên lượng bệnh nhân suy tim
10 trang 19 0 0 -
Đề thi giữa học kì 1 môn Ngữ văn lớp 9 năm 2024-2025 có đáp án - Trường THCS Nguyễn Trãi, Thanh Khê
14 trang 21 0 0 -
Đánh giá hiệu quả giải pháp phát triển thể chất cho sinh viên Trường Đại học Kiến trúc Hà Nội
8 trang 20 0 0 -
Tỉ lệ và các yếu tố liên quan đoạn chi dưới ở bệnh nhân đái tháo đường có loét chân
11 trang 20 0 0 -
39 trang 19 0 0
-
Đề thi học kì 1 môn Tiếng Anh lớp 6 năm 2024-2025 có đáp án - Trường TH&THCS Quang Trung, Hội An
6 trang 19 1 0 -
Tôm ram lá chanh vừa nhanh vừa dễRất dễ làm, nhanh gọn mà lại ngon. Nhà mình
7 trang 19 0 0