Một phương pháp trích trọn thuộc tính hiệu quả cho dữ liệu có số chiều lớn
Số trang: 5
Loại file: pdf
Dung lượng: 662.52 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo đề xuất một phương pháp học máy cho giải thuật phân lớp này nhằm tăng hiệu quả phân lớp của thuật toán. Cách tiếp cận này về cơ bản đã làm tăng khả năng phân lớp của giải thuật RF, phương pháp đề xuất còn cho thấy khả năng phân lớp tốt hơn một số phương pháp trích chọn đã được công bố. Như vậy, hướng cải tiến mà bài báo đề xuất là có khả thi và thu được kết quả tương đối cao. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Một phương pháp trích trọn thuộc tính hiệu quả cho dữ liệu có số chiều lớn Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Một phương pháp trích trọn thuộc tính hiệu quả cho dữ liệu có số chiều lớn Hà Văn Sang1, Đồng Thị Ngọc Lan1 và Ngô Thị Thu Trang2 1 Khoa Hệ thống thông tin Kinh tế, Học Viện Tài chính Viễn thông, Học viện Công nghệ Bưu chính Viễn thông 2 Khoa Email: sanghv@hvtc.edu.vn, landn0101@gmail.com, trangntt1@gmail.com Abstract— Phân lớp là một trong những bài toán cơ bản trong pháp này có ảnh hưởng ngay lập tức đến các ứng dụng như khai phá tri thức và dữ liệu. Một thách thức của bài toán phân tăng tốc độ của các thuật toán khai phá dữ liệu, cải thiệu chất lớp là số lượng thuộc tính thường rất lớn, việc phân lớp sao cho lượng dữ liệu và vì vậy tăng hiệu suất khai phá dữ liệu, kiểm chính xác và hiệu quả hiện vẫn là một nghiên cứu thú vị cho các soát được các kết quả của thuật toán. nhà khoa học trong lĩnh vực khoa học máy tính. Bài báo đi sâu vào nghiên cứu giải thuật phân lớp thuộc tính random forest Trong bài báo này chúng tôi sẽ trình bày một đề xuất mới (RF). Đây là một giải thuật đã được nhiều nghiên cứu chứng để dựa vào đó xây dựng mô hình trích chọn đặc trưng tối ưu minh là rất hiệu quả trong phân lớp thuộc tính đối với bộ dữ liệu giúp giảm kích cỡ của dữ liệu theo hướng chỉ giữ lại các thuộc có số lượng thuộc tính lớn. Trên cơ sở đó bài báo đề xuất một tính đặc trưng, loại bỏ những thuộc tính không liên quan và phương pháp học máy cho giải thuật phân lớp này nhằm tăng những thuộc tính nhiễu nhằm tăng tốc độ các thuật toán phân hiệu quả phân lớp của thuật toán. Cách tiếp cận này về cơ bản đã lớp cải thiện chất lượng dữ liệu và vì vậy sẽ tăng hiệu suất của làm tăng khả năng phân lớp của giải thuật RF, phương pháp đề việc khai phá dữ liệu. Cụ thể, phương pháp đề xuất sẽ chọn ra xuất còn cho thấy khả năng phân lớp tốt hơn một số phương những thuộc tính tốt nhất để làm tăng năng suất của thuật toán pháp trích chọn đã được công bố. Như vậy, hướng cải tiến mà bài phân lớp Random Forest. báo đề xuất là có khả thi và thu được kết quả tương đối cao. II. CƠ SỞ LÝ THUYẾT Keywords- randomforest, trích chọn thuộc tính, phân lớp dữ liệu, khai phá dữ liệu. A. Trích chọn thuộc tính Trích chọn thuộc tính là một bước cơ bản nhất trong việc I. GIỚI THIỆU tiền xử lý dữ liệu, nó làm giảm bớt số chiều của mẫu. Lựa chọn Trong xu hướng hội nhập quốc tế, thời đại thông tin bùng thuộc tính có thể là một phần vốn có của trích chọn thuộc tính nổ, chúng ta đang “ngập lụt” trong dữ liệu nhưng lại “đói” về ví dụ như phương pháp phân tích thành phần cơ bản hoặc thậm tri thức, cho nên một trong các vấn đề cấp thiết đó là làm sao chí là một thiết kế xử lý thuật toán ví dụ như trong thiết kế cây phân tích và xử lý một khối lượng thông tin khổng lồ liên tục quyết định. Tuy nhiên, lựa chọn thuộc tính thường là một bước được cập nhật để đáp ứng các yêu cầu về phát triển mọi mặt cô lập riêng biệt trong một chuỗi xử lý [7]. văn hoá, kinh tế, chính trị, xã hội của đất nước. Hiện nay phần Có thể định nghĩa lựa chọn thuộc tính là một quá trình tìm lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết ra M thuộc tính từ tập N thuộc tính ban đầu, như vậy phải xác được một lượng số liệu giới hạn cũng như một độ phức tạp dữ định tiêu chuẩn lựa chọn thuộc tính [8]. Theo cách này, kích cỡ liệu biết trước. Trong khi đó nhờ sự phát triển mạnh mẽ của của không gian đặc trưng được rút ngắn tối đa theo một tiêu khoa học và kỹ thuật, khối lượng dữ liệu mà chúng ta thu thập chuẩn định lượng nhất định. Khi kích cỡ của một lĩnh vực được được ngày càng phong phú và đa dạng. Hơn nữa, tuỳ thuộc vào mở rộng, số phần tử của tập N sẽ tăng lên, vì vậy việc tìm ra từng loại dữ liệu và ứng dụng cụ thể mà mỗi thuật toán có độ một tập đại diện tốt nhất thường gặp khó khăn và có nhiều vấn tốt xấu không giống nhau. Các nghiên cứu cho thấy có rất đề liên quan đến tập được chọn. Nhìn chung, một thuật toán nhiều hướng cải tiến các thuật toán phân lớp như áp dụng các trích chọn gồm 4 bước cơ bản: Sinh tập con, lượng giá tập con, thuật toán lai ghép (ensemble method), các thuật toán dựa vào điều kiện dừng và xác nhận kết quả. phương pháp nhân (kernel-based method), hoặc áp dụng các Quá trình sinh tập con là một thủ tục tìm kiếm, về cơ bản phương pháp trích chọn đặc trưng (feature extraction/ selection nó sinh ra những tập con dùng cho việc lượng giá. Gọi N là số method). Với các phương pháp kể trên phương pháp trích chọn các đại diện (đặc trưng) của tập dữ liệu gốc ban đầu, thì tổng số đặc trưng trở nên nổi trội và có một số ưu điểm phù hợp trong các tập con có thể được sinh ra sẽ là 2 n, 2n tập này sẽ liệt kê việc xử lý dữ liệu có số lượng thuộc tính lớn (vài nghìn đến vài toàn bộ các tập con của không gian. Mỗi tập con được sinh ra tră ...
Nội dung trích xuất từ tài liệu:
Một phương pháp trích trọn thuộc tính hiệu quả cho dữ liệu có số chiều lớn Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015) Một phương pháp trích trọn thuộc tính hiệu quả cho dữ liệu có số chiều lớn Hà Văn Sang1, Đồng Thị Ngọc Lan1 và Ngô Thị Thu Trang2 1 Khoa Hệ thống thông tin Kinh tế, Học Viện Tài chính Viễn thông, Học viện Công nghệ Bưu chính Viễn thông 2 Khoa Email: sanghv@hvtc.edu.vn, landn0101@gmail.com, trangntt1@gmail.com Abstract— Phân lớp là một trong những bài toán cơ bản trong pháp này có ảnh hưởng ngay lập tức đến các ứng dụng như khai phá tri thức và dữ liệu. Một thách thức của bài toán phân tăng tốc độ của các thuật toán khai phá dữ liệu, cải thiệu chất lớp là số lượng thuộc tính thường rất lớn, việc phân lớp sao cho lượng dữ liệu và vì vậy tăng hiệu suất khai phá dữ liệu, kiểm chính xác và hiệu quả hiện vẫn là một nghiên cứu thú vị cho các soát được các kết quả của thuật toán. nhà khoa học trong lĩnh vực khoa học máy tính. Bài báo đi sâu vào nghiên cứu giải thuật phân lớp thuộc tính random forest Trong bài báo này chúng tôi sẽ trình bày một đề xuất mới (RF). Đây là một giải thuật đã được nhiều nghiên cứu chứng để dựa vào đó xây dựng mô hình trích chọn đặc trưng tối ưu minh là rất hiệu quả trong phân lớp thuộc tính đối với bộ dữ liệu giúp giảm kích cỡ của dữ liệu theo hướng chỉ giữ lại các thuộc có số lượng thuộc tính lớn. Trên cơ sở đó bài báo đề xuất một tính đặc trưng, loại bỏ những thuộc tính không liên quan và phương pháp học máy cho giải thuật phân lớp này nhằm tăng những thuộc tính nhiễu nhằm tăng tốc độ các thuật toán phân hiệu quả phân lớp của thuật toán. Cách tiếp cận này về cơ bản đã lớp cải thiện chất lượng dữ liệu và vì vậy sẽ tăng hiệu suất của làm tăng khả năng phân lớp của giải thuật RF, phương pháp đề việc khai phá dữ liệu. Cụ thể, phương pháp đề xuất sẽ chọn ra xuất còn cho thấy khả năng phân lớp tốt hơn một số phương những thuộc tính tốt nhất để làm tăng năng suất của thuật toán pháp trích chọn đã được công bố. Như vậy, hướng cải tiến mà bài phân lớp Random Forest. báo đề xuất là có khả thi và thu được kết quả tương đối cao. II. CƠ SỞ LÝ THUYẾT Keywords- randomforest, trích chọn thuộc tính, phân lớp dữ liệu, khai phá dữ liệu. A. Trích chọn thuộc tính Trích chọn thuộc tính là một bước cơ bản nhất trong việc I. GIỚI THIỆU tiền xử lý dữ liệu, nó làm giảm bớt số chiều của mẫu. Lựa chọn Trong xu hướng hội nhập quốc tế, thời đại thông tin bùng thuộc tính có thể là một phần vốn có của trích chọn thuộc tính nổ, chúng ta đang “ngập lụt” trong dữ liệu nhưng lại “đói” về ví dụ như phương pháp phân tích thành phần cơ bản hoặc thậm tri thức, cho nên một trong các vấn đề cấp thiết đó là làm sao chí là một thiết kế xử lý thuật toán ví dụ như trong thiết kế cây phân tích và xử lý một khối lượng thông tin khổng lồ liên tục quyết định. Tuy nhiên, lựa chọn thuộc tính thường là một bước được cập nhật để đáp ứng các yêu cầu về phát triển mọi mặt cô lập riêng biệt trong một chuỗi xử lý [7]. văn hoá, kinh tế, chính trị, xã hội của đất nước. Hiện nay phần Có thể định nghĩa lựa chọn thuộc tính là một quá trình tìm lớn các thuật toán phân lớp đã phát triển chỉ có thể giải quyết ra M thuộc tính từ tập N thuộc tính ban đầu, như vậy phải xác được một lượng số liệu giới hạn cũng như một độ phức tạp dữ định tiêu chuẩn lựa chọn thuộc tính [8]. Theo cách này, kích cỡ liệu biết trước. Trong khi đó nhờ sự phát triển mạnh mẽ của của không gian đặc trưng được rút ngắn tối đa theo một tiêu khoa học và kỹ thuật, khối lượng dữ liệu mà chúng ta thu thập chuẩn định lượng nhất định. Khi kích cỡ của một lĩnh vực được được ngày càng phong phú và đa dạng. Hơn nữa, tuỳ thuộc vào mở rộng, số phần tử của tập N sẽ tăng lên, vì vậy việc tìm ra từng loại dữ liệu và ứng dụng cụ thể mà mỗi thuật toán có độ một tập đại diện tốt nhất thường gặp khó khăn và có nhiều vấn tốt xấu không giống nhau. Các nghiên cứu cho thấy có rất đề liên quan đến tập được chọn. Nhìn chung, một thuật toán nhiều hướng cải tiến các thuật toán phân lớp như áp dụng các trích chọn gồm 4 bước cơ bản: Sinh tập con, lượng giá tập con, thuật toán lai ghép (ensemble method), các thuật toán dựa vào điều kiện dừng và xác nhận kết quả. phương pháp nhân (kernel-based method), hoặc áp dụng các Quá trình sinh tập con là một thủ tục tìm kiếm, về cơ bản phương pháp trích chọn đặc trưng (feature extraction/ selection nó sinh ra những tập con dùng cho việc lượng giá. Gọi N là số method). Với các phương pháp kể trên phương pháp trích chọn các đại diện (đặc trưng) của tập dữ liệu gốc ban đầu, thì tổng số đặc trưng trở nên nổi trội và có một số ưu điểm phù hợp trong các tập con có thể được sinh ra sẽ là 2 n, 2n tập này sẽ liệt kê việc xử lý dữ liệu có số lượng thuộc tính lớn (vài nghìn đến vài toàn bộ các tập con của không gian. Mỗi tập con được sinh ra tră ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội nghị Quốc gia về Điện tử truyền thông Phương pháp trích trọn thuộc tính Phân lớp dữ liệu Khai phá dữ liệu Giải thuật RFTài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 353 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 236 0 0 -
23 trang 236 0 0
-
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 233 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 178 0 0 -
Kỹ thuật điều chế QPSK cho hệ thống thông tin quang vô tuyến DWDM
6 trang 151 0 0 -
6 trang 145 0 0
-
8 trang 133 0 0
-
Khảo sát thuật toán OSD sử dụng bộ mã RS và kỹ thuật điều chế QAM
5 trang 126 0 0 -
4 trang 118 0 0