Danh mục

Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu

Số trang: 7      Loại file: pdf      Dung lượng: 301.79 KB      Lượt xem: 18      Lượt tải: 0    
Jamona

Phí tải xuống: 2,000 VND Tải xuống file đầy đủ (7 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết tập trung nghiên cứu và tổng hợp các phương pháp được sử dụng trong việc lựa chọn các đặc tính bao gồm Filter, Wrapper và Embedded với các phương thức, thuật toán được sử dụng. Từ đó, tổng hợp và đánh giá các ưu nhược điểm của từng phương pháp.
Nội dung trích xuất từ tài liệu:
Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu 204 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu Hà Thị Minh Phương1, Phan Thị Quỳnh Hương2 1,2 Trường ĐH Công nghệ Thông tin và Truyền thông Việt-Hàn, Đại học Đà Nẵng {htmphuong, ptqhuong}@vku.udn.vn Tóm tắt. Sự phát triển mạnh mẽ về số lượng và tính phức tạp của dữ liệu của các ứng dụng đã dẫn đến những thách thức trong việc khai thác dữ liệu và sử dụng các mô hình học máy. Một trong những thách thức lớn là việc lựa chọn các đặc tính có liên quan từ tập hợp các đặc tính có sẵn ban đầu để cải thiện tối đa hiệu suất học tập hơn của dữ liệu gốc. Vì vậy việc lựa chọn các đặc tính được trở thành tiếp cận các nhà nghiên cứu tập trung trong những năm gần đây. Lựa chọn đặc tính cung cấp giải pháp hiệu quả để giải quyết vấn đề này bằng cách loại bỏ dữ liệu không liên quan và dư thừa, có thể giảm thời gian tính toán, cải thiện độ chính xác của mô hình máy học. Trong bài báo này, chúng tôi tập trung nghiên cứu và tổng hợp các phương pháp được sử dụng trong việc lựa chọn các đặc tính bao gồm Filter, Wrapper và Embedded với các phương thức, thuật toán được sử dụng. Từ đó, tổng hợp và đánh giá các ưu nhược điểm của từng phương pháp. Từ khóa: lựa chọn đặc tính; filter; wrapper; embedded; hybrid. Abstract. The rapid growth in quantity and complexity of data of applications has led to challenges in data mining and the use of machine learning models. One of the major challenges is the selection of relevant features from the original set of features to maximize the learning performance of the original data. Thus the selection of features is becoming an approach to focus researchers in recent years. Feature selection provides an effective solution to this problem by eliminating extraneous and redundant data, which can reduce computation time, improve the accuracy of the machine learning model. In this paper, we focus on research and synthesis of the methods used in the selection of properties including Filter, Wrapper and Embedded with the methods and algorithms used. From there, synthesize and evaluate the advantages and disadvantages of each method. Keywords: feature selection, filter, wrapper, embedded, hybrid 1 Đặt vấn đề Hiện nay, các ứng dụng đã tạo ra lượng dữ liệu khổng lồ như video, ảnh, văn bản, giọng nói và dữ liệu thu được từ các ứng dụng mạng xã hội và từ điện toán đám mây. Những dữ liệu này thường phức tạp có các đặc điểm của kích thước đa chiều, chứa những dữ liệu nhiễu, dư thừa hoặc thiếu các thuộc tính tạo ra thách thức đối với việc phân tích dữ liệu và ra quyết định. Để giải quyết vấn đề này, feature selection – kỹ thuật lựa chọn các đặc tính được nghiên cứu và trở thành một phần trong giai đoạn tiền xử lý. Feature selection (FS) được sử dụng để loại bỏ những dữ liệu dư thừa để nâng cao hiệu quả xử lý. Trong FS, một tập hợp con các đặc tính được chọn từ tập hợp các đặc tính ban đầu dựa trên tính dư thừa. Dựa trên mức độ liên quan và các tính năng thừa, Yu và Liu [7] đã phân loại tập hợp con đặc trưng thành bốn loại bao gồm:1) Noisy và irrelevant; 2) Redundant và Weakly relevant; 3) Weakly relevant và Non-redundant; 4) Strongly relevant. Lựa chọn các đặc tính sẽ giảm thiểu các thuộc tính nhiễu, không liên quan và dư thừa nâng cao hiệu quả dự đoán cho các mô hình máy học. Các phương pháp FS được phân thành ba loại, dựa trên sự tương tác với mô hình học máy như phương pháp Filter, Wrapper và Embedded. Trong Filter, các đặc tính được chọn dựa trên các phương pháp thống kê. Nó độc lập với thuật toán học và cần ít thời gian tính toán hơn. Một số các phương thức đo lường thống kê được sử dụng trong Filter bao gồm Information gain, Chi-square test, Fisher score, correlation coef-ficient, và variance threshold. Wrapper sử dụng các kỹ thuật máy học để đánh giá tập con các thuộc tính theo tiêu chuẩn tương ứng. Hiệu suất của Wrapper phụ thuộc vào các thuật toán phân loại. Tập hợp Hà Thị Minh Phương, Phan Thị Quỳnh Hương 205 con tốt nhất của các đặc tính được chọn dựa trên kết quả của thuật toán phân loại. Về mặt tính toán, các phương pháp Wrapper yêu cầu tính toán phức tạp hơn các Filter, do các bước học tập lặp lại và xác nhận chéo. Tuy nhiên, các phương pháp này chính xác hơn Filter. Một số thuật toán được sử dụng trong Wrap- per là Recursive feature elimination [6], Sequential feature selection algorithms [1], and Genetic algo- rithms. Cách tiếp cận thứ ba là phương pháp Embedded sử dụng phương pháp học tập kết hợp và phương pháp lai để lựa chọn đặc tính, giải pháp lựa chọn đặc tính ra đời để giải quyết bài toán trên. Lựa chọn đặc tính có các ưu điểm bao gồm giúp cho thuật toán máy học huấn luyện nhanh hơn, giảm độ phức tạp của mô hình và làm cho mô hình dễ biên dịch, cải thiện độ chính xác của mô hình với tập dữ liệu được chọn. Bài báo sẽ nghiên cứu một số phương pháp lựa chọn đặc tính: phương pháp Filter, Wrapper và Em- bedded. Mô hình lựa chọn các đặc tính, các kỹ thuật và phương thức của mỗi phương pháp sẽ được trình bày. Phần 2 trình bày về quy trình lựa chọn các đặc trưng. Nội dung kỹ thuật lựa chọn các đặc tính trong kỹ thuật máy học sẽ được trình bày ở phần 3. Kết luận sẽ được trình bày trong phần 4. 2 Quy trình lựa chọn các đặc trưng Các nghiên cứu đã chỉ ra được kỹ thuật lựa chọn các đặc tính có thể nâng cao hiệu quả của dự đoán và tính chính xác đối với các kỹ thuật máy học. Kỹ thuật lựa chọn các đặc tính đóng vai trò quan trọng trọng trong việc giảm thiểu độ phức tạp tính toán, dung lượng và giá thành [8]. Hình 1 trình bày về quy ...

Tài liệu được xem nhiều: