Danh mục

Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều thuộc tính dựa trên bình phương tối thiểu từng phần

Số trang: 9      Loại file: pdf      Dung lượng: 609.55 KB      Lượt xem: 6      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 5,000 VND Tải xuống file đầy đủ (9 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó là: leukemia, breast-p, coil, colon-cancer.
Nội dung trích xuất từ tài liệu:
Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều thuộc tính dựa trên bình phương tối thiểu từng phần JOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1075.2015-0056 Educational Sci., 2015, Vol. 60, No. 7A, pp. 94-102 This paper is available online at http://stdb.hnue.edu.vn NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU BẰNG CÁCH KẾT HỢP SINH THÊM PHẦN TỬ VỚI GIẢM SỐ CHIỀU THUỘC TÍNH DỰA TRÊN BÌNH PHƯƠNG TỐI THIỂU TỪNG PHẦN Nguyễn Thái Bình, Nguyễn Thị Anh Nga, Nguyễn Thị Hồng và Đặng Xuân Thọ Khoa Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Ngày nay con người phải đối mặt với lượng thông tin khổng lồ đến từ rất nhiều nguồn khác nhau nhưng những thông tin hữu ích, dữ liệu đáng tin cậy lại chiếm tỉ lệ rất nhỏ. Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có số thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc tính này lại có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số. Việc phân lớp càng trở nên khó khăn hơn khi gặp phải những bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Từ thực tế đó, chúng tôi xin đề xuất một phương pháp mới, phương pháp kết hợp giảm số chiều thuộc tính bình phương tối thiểu và sinh thêm phần tử nhân tạo SMOTE. Để đánh giá hiệu quả của phương pháp mới này, chúng tôi đã thực nghiệm dựa trên những bộ dữ liệu chuẩn từ nguồn UCI đó là: leukemia, breast-p, coil, colon-cancer. Qua những kết quả thu được chúng tôi thấy rằng phương pháp mới giúp nâng cao hiệu quả phân lớp dữ liệu vừa có số thuộc tính lớn vừa có tỉ lệ mất cân bằng cao. Từ khóa: Phân lớp; dữ liệu mất cân bằng; dữ liệu có số chiều cao; Bình phương tối thiểu từng phần; sinh thêm phần tử nhân tạo. 1. Mở đầu Trong thực tế, cụ thể như trong Y - sinh học xuất hiện ngày càng nhiều bộ dữ liệu có số thuộc tính lớn, thậm chí lên đến hàng nghìn thuộc tính. Tuy nhiên, trong những thuộc tính này lại có rất nhiều thuộc tính dư thừa không có ích trong việc dự đoán lớp thiểu số. Vì vậy, trong thời gian qua đã có rất nhiều hướng tiếp cận khác nhau nhằm làm giảm số thuộc tính dư thừa nhưng không làm mất mát thông tin mà vẫn đảm bảo độ tin cậy cao đó là lựa chọn thuộc tính và trích chọn thuộc tính. Vì thế đã có nhiều thuật toán được đưa ra để giải quyết bài toán giảm số chiều dữ liệu thuộc nhóm lựa chọn thuộc tính như: thuật toán RELIEF, FOCUS, LVF [3]. Tuy nhiên với những tập dữ liệu có số chiều rất cao hoặc các thuộc tính có mối tương quan cao với nhau thì các phương pháp theo hướng lựa chọn thuộc tính tỏ ra kém hiệu quả, bởi khi bỏ bớt thuộc tính sẽ dẫn đến mất mát thông tin và làm thay đổi bản chất của dữ lệu, các thuộc tính trong bảng không còn giữ lại được mối tương quan với nhau, do đó thường cho kết quả có độ tin cậy thấp. Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015 Liên hệ: Nguyễn Thái Bình, e-mail: nguyenthaibinh020906@gmail.com 94 Nâng cao hiệu quả phân lớp dữ liệu bằng cách kết hợp sinh thêm phần tử với giảm số chiều... Trích chọn thuộc tính là một hướng nghiên cứu mới trong các phương pháp giảm số chiều dữ liệu. Ý tưởng chính của nhóm phương pháp này là tạo ra một tập thuộc tính mới đại diện cho tập thuộc tính cũ. Tập thuộc tính mới này mang đầy đủ đặc tính của thuộc tính cũ nhưng nhỏ hơn rất nhiều lần số lượng thuộc tính cũ. Việc giảm chiều này hạn chế tối đa mất mát thông tin và đặc biệt là không làm thay đổi bản chất của dữ liệu ban đầu. Đại diện cho hướng tiếp cận này là nhóm phương pháp: phân tích thành phần chính PCA [10], phân tích tương quan kinh điển CCA [10] và phương pháp bình phương tối thiểu từng phần PLS [10]. Đặc biệt là phương pháp PLS việc giảm số chiều (thuộc tính) của tập dữ liệu dựa vào cả tập thuộc tính X và tập nhãn Y. Phương pháp PLS sử dụng tập nhãn để xây dựng từng trục tọa độ trong không gian dữ liệu mới. Để tìm hệ trục tọa độ trong không gian mới, PLS sử dụng cách giải bài toán cực đại hiệp phương sai, nhờ đó phạm vi áp dụng rộng hơn và độ tin cậy của mô hình cũng cao hơn. Tuy nhiên trong thực tế cho thấy, không chỉ xuất hiện những bộ dữ liệu có số thuộc tính lớn mà còn xuất hiện nhiều bộ dữ liệu có tỉ lệ mất cân bằng cao, nghĩa là có sự chênh lệch về số phần tử giữa các lớp. Vấn đề không cân bằng lớp thường được quy về bài toán phân lớp nhị phân mà ở đó một lớp mà người ta quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại. Trong nhiều ứng dụng thực tế, chẳng hạn như phát hiện các giao dịch gian lận, phát hiện xâm nhập mạng trái phép, phát hiện tràn dầu từ hình ảnh Radar vệ tinh, sự rủi ro trong quản lí, phân loại văn bản hay trong chẩn đoán y học [1, 2]. Việc mất cân bằng lớp ảnh hưởng rất lớn đến hiệu quả của các mô hình phân lớp. Chẳng hạn trong cơ sở dữ liệu y học, số người mắc bệnh ung thư chiếm tỉ lệ rất ít trên tổng số người bình thường. Việc chuẩn đoán sai người bị bệnh thành không bị bệnh ảnh hưởng nghiêm trọng đến sức khỏe và tính mạng con người. Vì vậy, trong thời gian qua đã có những nghiên cứu về khai phá dữ liệu mất cân bằng với các hướng tiếp cận khác nhau nhưng phương pháp sinh thêm phần tử là một trong những hướng đơn giản mà hiệu quả, chẳng hạn như: SMOTE [2], ADD-BODER-SMOTE [6]. Thuật toán SMOTE giúp cải thiện mật độ của lớp thiểu số, đồng thời không làm thay đổi lớp đa số. Trong thuật toán SMOTE mỗi dữ liệu được tạo ra bằng cách thực hiện tính khoảng cách của mỗi phần tử lớp thiểu số đến các phần tử còn lại trong bộ dữ liệu. Sau đó đưa ra k hàng xóm gần nó nhất và chọn ngẫu nhiên một giá trị bất kì trong k hàng xóm đó để sinh thêm các phần tử nhân tạo. Tuy nhiên, vấn đề càng trở nên khó khăn hơn khi xuất hiện những bộ dữ liệu vừa có tỉ lệ mất cân bằng cao vừa có số thuộc tính ...

Tài liệu được xem nhiều: