Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng
Số trang: 9
Loại file: pdf
Dung lượng: 670.72 KB
Lượt xem: 7
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêm phần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thực nghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng.
Nội dung trích xuất từ tài liệu:
Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằngLIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng Imbalanced data classification based on DEC-SVM 1 1 2 Phạm Thị Hường , Phạm Văn Kiên , Đỗ Ngọc Quỳnh Email: ngocquynh.ydhn@gmail.com 1 Trường Đại học Sao Đỏ 2 Trường Cao đẳng Y Dược Hà Nội Ngày nhận bài: 21/8/2018 Ngày nhận bài sửa sau phản biện: 29/10/2018 Ngày chấp nhận đăng: 27/12/2018Tóm tắtTrong bài báo này, tác giả đã nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêmphần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thựcnghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng.Từ khóa: Phân cụm; phân lớp; dữ liệu mất cân bằng; SVM.AbstractIn this article, authors study the DEC-SVM algorithm that modulates data by adding elements to theminority class, and then uses clustering techniques to eliminate redundant elements. Empirical evidenceshow that the DEC-SVM is capable of enhancing class efficiency for imbalanced data sets.Keywords: Clustering; classification; imbalanced data; SVM.1. GIỚI THIỆU CHUNG Đối với các bộ dữ liệu mất cân bằng, các bộ phân lớp chuẩn thường có xu hướng thiên vị đối với lớpNgày nay, khi vấn đề khai thác và xử lý thông tin đa số và bỏ qua lớp thiểu số (xử lý chúng như làngày càng được chú trọng, kỹ thuật phân lớp dữ nhiễu) [4]. Vì vậy, khi áp dụng các giải thuật phânliệu đã góp phần hữu hiệu giúp con người khai lớp truyền thống chưa thể xây dựng được một bộthác một cách có hiệu quả khối dữ liệu mà họ phân lớp tốt. Việc phân loại sai các mẫu thuộc lớpđang nắm giữ. Tuy nhiên, dữ liệu thu thập được thiểu số có thể gây nên những tổn thất lớn đối vớitrong thực tế ngày càng xuất hiện nhiều các bộ các lĩnh vực thực tế. Để giải quyết vấn đề về phândữ liệu mất cân bằng, nghĩa là trong tập dữ liệu lớp đối với các bộ dữ liệu mất cân bằng, hiện naycó sự chênh lệch lớn về số lượng các phần tử có nhiều phương pháp khác nhau, trong đó, có haigiữa các lớp. Các bộ dữ liệu trong nhiều ứng dụng hướng tiếp cận chính: tiếp cận ở mức độ dữ liệuthực tế như phát hiện các giao dịch gian lận, phát và hướng tiếp cận ở mức độ thuật toán.hiện xâm nhập mạng, dự đoán rủi ro trong quảnlý, chẩn đoán y khoa,…, đều là các bộ dữ liệu mất Trong [12], tác giả cải tiến thuật toán sinh thêmcân bằng mà trong đó, lớp người ta cần quan tâm mẫu nhân tạo lớp thiểu số (SMOTE) bằng cáchlại chiếm tỉ lệ rất nhỏ so với lớp còn lại. kết hợp thuật toán nhúng tuyến tính cục bộ (locally linear embedding - LLE). Thuật toán LLE ánh xạSự chênh lệch về số lượng giữa lớp đa số và lớp dữ liệu có số chiều cao vào một không gian với sốthiểu số làm cho việc phân lớp đúng các mẫu chiều thấp hơn. Sau đó, các mẫu nhân tạo sinhthuộc lớp thiểu số bị giảm hiệu quả. Tỷ lệ mất ra sẽ được ánh xạ trở lại không gian mẫu bancân bằng của tập dữ liệu càng cao thì việc phát đầu thông qua LLE. Từ bộ dữ liệu đã điều chỉnh,hiện đúng các mẫu của lớp thiểu số càng khó thực nghiệm trên 3 bộ dữ liệu với ba kỹ thuật phânkhăn. Trong các ứng dụng thực tế, tỷ lệ mất cân lớp Bayes, K-NN, SVM cho thấy kỹ thuật SVMbằng có thể là 1:100, 1:1000, thậm chí có thể hơn có độ chính xác theo tiêu chí AUC cao nhất với[11]. Vì thế, phân lớp dữ liệu mất cân bằng đã và trung bình là 76.5%. Trong [13], tác giả trình bàyđang là bài toán được các nhà khoa học đặc biệt giải thuật GSVM -RU (Granular Support Vectorquan tâm. Machines Repetitive Undersampling) sử dụng SVM cho việc lấy mẫu. Với những mẫu quan trọngNgười phản biện: 1. GS.TSKH. Thân Ngọc Hoàn trong quá trình phân lớp, giảm thiểu mất thông tin 2. TS. Trần Trọng Hiếu các mẫu đa số khi loại bỏ và tối đa mẫu thiểu số Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 17 NGHIÊN CỨU KHOA HỌC khi làm sạch dữ liệu trong qu ...
Nội dung trích xuất từ tài liệu:
Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằngLIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA Phương pháp DEC-SVM phân lớp dữ liệu mất cân bằng Imbalanced data classification based on DEC-SVM 1 1 2 Phạm Thị Hường , Phạm Văn Kiên , Đỗ Ngọc Quỳnh Email: ngocquynh.ydhn@gmail.com 1 Trường Đại học Sao Đỏ 2 Trường Cao đẳng Y Dược Hà Nội Ngày nhận bài: 21/8/2018 Ngày nhận bài sửa sau phản biện: 29/10/2018 Ngày chấp nhận đăng: 27/12/2018Tóm tắtTrong bài báo này, tác giả đã nghiên cứu thuật toán DEC-SVM điều chỉnh dữ liệu bằng cách sinh thêmphần tử cho lớp thiểu số, sau đó sử dụng kỹ thuật phân cụm để loại bỏ bớt phần tử dư thừa. Thựcnghiệm cho thấy DEC-SVM có khả năng nâng cao hiệu quả phân lớp cho các bộ dữ liệu mất cân bằng.Từ khóa: Phân cụm; phân lớp; dữ liệu mất cân bằng; SVM.AbstractIn this article, authors study the DEC-SVM algorithm that modulates data by adding elements to theminority class, and then uses clustering techniques to eliminate redundant elements. Empirical evidenceshow that the DEC-SVM is capable of enhancing class efficiency for imbalanced data sets.Keywords: Clustering; classification; imbalanced data; SVM.1. GIỚI THIỆU CHUNG Đối với các bộ dữ liệu mất cân bằng, các bộ phân lớp chuẩn thường có xu hướng thiên vị đối với lớpNgày nay, khi vấn đề khai thác và xử lý thông tin đa số và bỏ qua lớp thiểu số (xử lý chúng như làngày càng được chú trọng, kỹ thuật phân lớp dữ nhiễu) [4]. Vì vậy, khi áp dụng các giải thuật phânliệu đã góp phần hữu hiệu giúp con người khai lớp truyền thống chưa thể xây dựng được một bộthác một cách có hiệu quả khối dữ liệu mà họ phân lớp tốt. Việc phân loại sai các mẫu thuộc lớpđang nắm giữ. Tuy nhiên, dữ liệu thu thập được thiểu số có thể gây nên những tổn thất lớn đối vớitrong thực tế ngày càng xuất hiện nhiều các bộ các lĩnh vực thực tế. Để giải quyết vấn đề về phândữ liệu mất cân bằng, nghĩa là trong tập dữ liệu lớp đối với các bộ dữ liệu mất cân bằng, hiện naycó sự chênh lệch lớn về số lượng các phần tử có nhiều phương pháp khác nhau, trong đó, có haigiữa các lớp. Các bộ dữ liệu trong nhiều ứng dụng hướng tiếp cận chính: tiếp cận ở mức độ dữ liệuthực tế như phát hiện các giao dịch gian lận, phát và hướng tiếp cận ở mức độ thuật toán.hiện xâm nhập mạng, dự đoán rủi ro trong quảnlý, chẩn đoán y khoa,…, đều là các bộ dữ liệu mất Trong [12], tác giả cải tiến thuật toán sinh thêmcân bằng mà trong đó, lớp người ta cần quan tâm mẫu nhân tạo lớp thiểu số (SMOTE) bằng cáchlại chiếm tỉ lệ rất nhỏ so với lớp còn lại. kết hợp thuật toán nhúng tuyến tính cục bộ (locally linear embedding - LLE). Thuật toán LLE ánh xạSự chênh lệch về số lượng giữa lớp đa số và lớp dữ liệu có số chiều cao vào một không gian với sốthiểu số làm cho việc phân lớp đúng các mẫu chiều thấp hơn. Sau đó, các mẫu nhân tạo sinhthuộc lớp thiểu số bị giảm hiệu quả. Tỷ lệ mất ra sẽ được ánh xạ trở lại không gian mẫu bancân bằng của tập dữ liệu càng cao thì việc phát đầu thông qua LLE. Từ bộ dữ liệu đã điều chỉnh,hiện đúng các mẫu của lớp thiểu số càng khó thực nghiệm trên 3 bộ dữ liệu với ba kỹ thuật phânkhăn. Trong các ứng dụng thực tế, tỷ lệ mất cân lớp Bayes, K-NN, SVM cho thấy kỹ thuật SVMbằng có thể là 1:100, 1:1000, thậm chí có thể hơn có độ chính xác theo tiêu chí AUC cao nhất với[11]. Vì thế, phân lớp dữ liệu mất cân bằng đã và trung bình là 76.5%. Trong [13], tác giả trình bàyđang là bài toán được các nhà khoa học đặc biệt giải thuật GSVM -RU (Granular Support Vectorquan tâm. Machines Repetitive Undersampling) sử dụng SVM cho việc lấy mẫu. Với những mẫu quan trọngNgười phản biện: 1. GS.TSKH. Thân Ngọc Hoàn trong quá trình phân lớp, giảm thiểu mất thông tin 2. TS. Trần Trọng Hiếu các mẫu đa số khi loại bỏ và tối đa mẫu thiểu số Tạp chí Nghiên cứu khoa học - Đại học Sao Đỏ, ISSN 1859-4190 Số 4(63).2018 17 NGHIÊN CỨU KHOA HỌC khi làm sạch dữ liệu trong qu ...
Tìm kiếm theo từ khóa liên quan:
Tạp chí Nghiên cứu khoa học Dữ liệu mất cân bằng Phương pháp DEC-SVM phân lớp Mẫu nhân tạo lớp thiểu số Sinh ngẫu nhiên phần tử lớp thiểu sốGợi ý tài liệu liên quan:
-
4 trang 124 0 0
-
Hiện tượng Gibbs của hàm tổng quát có điểm gián đoạn tại gốc tọa độ và tại điểm bất kỳ
5 trang 82 0 0 -
Tạp chí Nghiên cứu Khoa học Đại học Sao Đỏ: Số 3(62)/2018
128 trang 35 0 0 -
Phân loại web đồi trụy dựa vào văn bản và hình ảnh
9 trang 32 0 0 -
Nghiên cứu đặc tính tốc độ của động cơ diesel kiểu Common Rail thông qua xây dựng mô hình trung bình
7 trang 29 0 0 -
Nghiên cứu, sản xuất đường maltose từ bột sắn bằng phương pháp enzyme
7 trang 28 0 0 -
8 trang 28 0 0
-
Thực trạng và giải pháp nâng cao chất lượng đào tạo tiếng Anh tại Trường Đại học Sao Đỏ
7 trang 26 0 0 -
Nghiên cứu và phát triển mô hình vật lý của pin mặt trời
5 trang 24 0 0 -
Tạp chí Nghiên cứu Khoa học Đại học Sao Đỏ: Số 2(61)/2018
128 trang 23 0 0