Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chế
Số trang: 14
Loại file: pdf
Dung lượng: 689.33 KB
Lượt xem: 8
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tập mẫu đóng vai trò quan trọng trong quá trình huấn luyện. Khi miền trị của các thuộc tính trong tập mẫu huấn luyện là chưa thuần nhất, việc làm thuần nhất tập huấn luyện là bắt buộc. Đại số gia tử là một công cụ hữu ích để làm thuần nhất tập huấn luyện, bằng cách chuyển miền dữ liệu của thuộc tính chưa thuần nhất thành miền dữ liệu chứa các giá trị ngôn ngữ hay định lượng các giá trị ngôn ngữ về các giá trị kinh điển.
Nội dung trích xuất từ tài liệu:
Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chếTẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) MỘT PHƢƠNG PHÁP ĐỊNH LƢỢNG GIÁ TRỊ NGÔN NGỮ CHO TẬP MẪU HUẤN LUYỆN TRONG ĐIỀU KIỆN HẠN CHẾ Lê Văn Tường Lân Khoa Công nghệ Thông tin, Trường Đại học Khoa học, Đại học Huế Email: lvtlan@yahoo.com Ngày nhận bài: 01/7/2019; ngày hoàn thành phản biện: 02/7/2019; ngày duyệt đăng: 02/7/2019 TÓM TẮT Tập mẫu đóng vai trò quan trọng trong quá trình huấn luyện. Khi miền trị của các thuộc tính trong tập mẫu huấn luyện là chưa thuần nhất, việc làm thuần nhất tập huấn luyện là bắt buộc. Đại số gia tử là một công cụ hữu ích để làm thuần nhất tập huấn luyện, bằng cách chuyển miền dữ liệu của thuộc tính chưa thuần nhất thành miền dữ liệu chứa các giá trị ngôn ngữ hay định lượng các giá trị ngôn ngữ về các giá trị kinh điển. Trong quá trình thuần nhất, cần phải biết các giá trị min, max của miền trị kinh điển, tuy vậy trong thực tế, nhiều lúc ta chưa biết cụ thể giá trị min, max của thuộc tính đang xét. Trong bài báo này, chúng ta xây dựng một cách thức để có thể định lượng các giá trị ngôn ngữ khi không biết miền giá trị *min, max] mà chỉ biết đoạn con *1, 2+ của chúng. Từ khoá: Tập mẫu huấn luyện, Giá trị ngôn ngữ, Cây quyết định mờ.I. ĐẶT VẤN ĐỀ Cho một tập huấn luyện, tất cả các mẫu của tập đều có chung một cấu trúc,gồm những cặp , một trong những thuộc tính này đại diện cho lớpvà ta gọi là thuộc tính dự đoán hay thuộc tính phân lớp. Bài toán phân lớp là bài toántìm quy tắc xếp các đối tượng vào một trong các lớp đã cho dựa trên tập mẫu huấnluyện. Có nhiều phương pháp tiếp cận bài toán phân lớp: Hàm phân biệt tuyến tínhFisher, Naïve Bayes, Logistic, Mạng nơ-ron, Cây quyết định, … trong đó phương phápcây quyết định là phương pháp phổ biến do tính trực quan, dễ hiểu và hiệu quả của nó[2, 18]. Trong thế giới thực, dữ liệu nghiệp vụ rất đa dạng vì chúng được lưu trữ đểphục vụ nhiều công việc khác nhau, nhiều thuộc tính đã được thuần nhất miền giá trịtrước khi lưu trữ nhưng cũng tồn tại nhiều thuộc tính có miền trị chưa thuần nhất [5, 7,8, 12]. Khi các thuộc tính chưa thuần nhất này xuất hiện trong tập mẫu huấn luyện, các 35Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chếthuật toán học để xây dựng cây chưa thể tiến hành. Do đó, cần phải tiền xử lý dữ liệuđể có được tập mẫu huấn luyện thuần nhất. Vấn đề đặt ra là ta phải xử lý như thế nàođể có được kết quả là khả quan. Ví dụ 1: Cho bảng dữ liệu DIEUTRA lưu trữ về tình hình mua máy tính xáchtay của khách hàng tại một công ty như bảng 1, cần chọn mẫu huấn luyện để xây dựngcây quyết định cho việc dự đoán khách hàng mua máy hay không. Bảng 1: Tập mẫu có thuộc tính với dữ liệu không nhất quán (LươngTháng) NơiSống NgànhHọc KinhTế GiaĐình LươngTháng MáyTínhT.Phố Luật Chưa tốt 45 KhôngNôngThôn Luật Chưa tốt Thấp KhôngT.Phố CNTT Chưa tốt 52 CóT.Phố LịchSử Trung bình 20 CóT.Phố LịchSử Khá Cao CóNôngThôn LịchSử Khá Cao KhôngNôngThôn CNTT Khá Rất cao CóT.Phố Luật Trung bình 35 KhôngT.Phố Luật Khá 100 CóT.Phố LịchSử Trung bình 50 CóNôngThôn Luật Trung bình Rất cao CóNôngThôn CNTT Trung bình Ít thấp CóT.Phố CNTT Chưa tốt 55 CóNôngThôn LịchSử Trung bình 50 Không Trong thời gian qua, đại số gia tử được nhiều nhóm tác giả trong và ngoài nướcnghiên cứu và đã có những kết quả đáng kể, đặc biệt trong lập luận xấp xỉ và trongmột số bài toán điều khiển *1, 6, 11-17, 21+. Việc sử dụng đại số gia tử để xử lý các giátrị ngôn ngữ trên miền dữ liệ ...
Nội dung trích xuất từ tài liệu:
Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chếTẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, Trường Đại học Khoa học, ĐH Huế Tập 14, Số 1 (2019) MỘT PHƢƠNG PHÁP ĐỊNH LƢỢNG GIÁ TRỊ NGÔN NGỮ CHO TẬP MẪU HUẤN LUYỆN TRONG ĐIỀU KIỆN HẠN CHẾ Lê Văn Tường Lân Khoa Công nghệ Thông tin, Trường Đại học Khoa học, Đại học Huế Email: lvtlan@yahoo.com Ngày nhận bài: 01/7/2019; ngày hoàn thành phản biện: 02/7/2019; ngày duyệt đăng: 02/7/2019 TÓM TẮT Tập mẫu đóng vai trò quan trọng trong quá trình huấn luyện. Khi miền trị của các thuộc tính trong tập mẫu huấn luyện là chưa thuần nhất, việc làm thuần nhất tập huấn luyện là bắt buộc. Đại số gia tử là một công cụ hữu ích để làm thuần nhất tập huấn luyện, bằng cách chuyển miền dữ liệu của thuộc tính chưa thuần nhất thành miền dữ liệu chứa các giá trị ngôn ngữ hay định lượng các giá trị ngôn ngữ về các giá trị kinh điển. Trong quá trình thuần nhất, cần phải biết các giá trị min, max của miền trị kinh điển, tuy vậy trong thực tế, nhiều lúc ta chưa biết cụ thể giá trị min, max của thuộc tính đang xét. Trong bài báo này, chúng ta xây dựng một cách thức để có thể định lượng các giá trị ngôn ngữ khi không biết miền giá trị *min, max] mà chỉ biết đoạn con *1, 2+ của chúng. Từ khoá: Tập mẫu huấn luyện, Giá trị ngôn ngữ, Cây quyết định mờ.I. ĐẶT VẤN ĐỀ Cho một tập huấn luyện, tất cả các mẫu của tập đều có chung một cấu trúc,gồm những cặp , một trong những thuộc tính này đại diện cho lớpvà ta gọi là thuộc tính dự đoán hay thuộc tính phân lớp. Bài toán phân lớp là bài toántìm quy tắc xếp các đối tượng vào một trong các lớp đã cho dựa trên tập mẫu huấnluyện. Có nhiều phương pháp tiếp cận bài toán phân lớp: Hàm phân biệt tuyến tínhFisher, Naïve Bayes, Logistic, Mạng nơ-ron, Cây quyết định, … trong đó phương phápcây quyết định là phương pháp phổ biến do tính trực quan, dễ hiểu và hiệu quả của nó[2, 18]. Trong thế giới thực, dữ liệu nghiệp vụ rất đa dạng vì chúng được lưu trữ đểphục vụ nhiều công việc khác nhau, nhiều thuộc tính đã được thuần nhất miền giá trịtrước khi lưu trữ nhưng cũng tồn tại nhiều thuộc tính có miền trị chưa thuần nhất [5, 7,8, 12]. Khi các thuộc tính chưa thuần nhất này xuất hiện trong tập mẫu huấn luyện, các 35Một phương pháp định lượng giá trị ngôn ngữ cho tập mẫu huấn luyện trong điều kiện hạn chếthuật toán học để xây dựng cây chưa thể tiến hành. Do đó, cần phải tiền xử lý dữ liệuđể có được tập mẫu huấn luyện thuần nhất. Vấn đề đặt ra là ta phải xử lý như thế nàođể có được kết quả là khả quan. Ví dụ 1: Cho bảng dữ liệu DIEUTRA lưu trữ về tình hình mua máy tính xáchtay của khách hàng tại một công ty như bảng 1, cần chọn mẫu huấn luyện để xây dựngcây quyết định cho việc dự đoán khách hàng mua máy hay không. Bảng 1: Tập mẫu có thuộc tính với dữ liệu không nhất quán (LươngTháng) NơiSống NgànhHọc KinhTế GiaĐình LươngTháng MáyTínhT.Phố Luật Chưa tốt 45 KhôngNôngThôn Luật Chưa tốt Thấp KhôngT.Phố CNTT Chưa tốt 52 CóT.Phố LịchSử Trung bình 20 CóT.Phố LịchSử Khá Cao CóNôngThôn LịchSử Khá Cao KhôngNôngThôn CNTT Khá Rất cao CóT.Phố Luật Trung bình 35 KhôngT.Phố Luật Khá 100 CóT.Phố LịchSử Trung bình 50 CóNôngThôn Luật Trung bình Rất cao CóNôngThôn CNTT Trung bình Ít thấp CóT.Phố CNTT Chưa tốt 55 CóNôngThôn LịchSử Trung bình 50 Không Trong thời gian qua, đại số gia tử được nhiều nhóm tác giả trong và ngoài nướcnghiên cứu và đã có những kết quả đáng kể, đặc biệt trong lập luận xấp xỉ và trongmột số bài toán điều khiển *1, 6, 11-17, 21+. Việc sử dụng đại số gia tử để xử lý các giátrị ngôn ngữ trên miền dữ liệ ...
Tìm kiếm theo từ khóa liên quan:
Tập mẫu huấn luyện Giá trị ngôn ngữ Cây quyết định mờ Lý thuyết tập mờ Công nghệ tính toán mềmGợi ý tài liệu liên quan:
-
Nội suy tuyến tính mờ dựa trên tổ hợp lồi của độ đo tính mờ của giá trị ngôn ngữ
7 trang 58 0 0 -
Nghiên cứu bộ tiêu chí đánh giá chất lượng dịch vụ cảng biển Việt Nam
15 trang 33 0 0 -
Giáo trình Toán rời rạc: Phần 2 - Lâm Thị Ngọc Châu
49 trang 31 0 0 -
Quy trình lập tiến độ dự án bằng lý thuyết tập mờ
7 trang 25 0 0 -
Các yếu tố ảnh hưởng tới tiến độ thực hiện dự án xây dựng tại Đồng bằng sông Cửu Long
4 trang 22 0 0 -
Bài giảng Tổng quan lý thuyết tập mờ và mô hình ra quyết định đa tiêu chuẩn
26 trang 22 0 0 -
245 trang 22 0 0
-
65 trang 21 0 0
-
Về cải tiến phương pháp Fuzzy Random Forest, ứng dụng cho phân lớp dữ liệu không chắc chắn
8 trang 19 0 0 -
Giáo trình Toán rời rạc: Phần 1 - Lâm Thị Ngọc Châu
46 trang 19 0 0