Danh mục

Báo cáo Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều

Số trang: 13      Loại file: pdf      Dung lượng: 465.97 KB      Lượt xem: 9      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 6,500 VND Tải xuống file đầy đủ (13 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Tổng quan về khai phá dữ liệu và trích chọn thuộc tính. Trình bày nội dung chính của thuật toán phân lớp sử dụng trong luận văn là thuật toán Random Forest và giải thuật di truyền. Trình bày phương pháp đề xuất và hướng giải quyết của luận văn. Trình bày quá trình thực nghiệm và đánh giá kết quả thực nghiệm.
Nội dung trích xuất từ tài liệu:
Báo cáo " Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều "Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu quả phân lớp đối với dữ liệu đa chiều Đồng Thị Ngọc Lan Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10 Người hướng dẫn: PGS.TS Nguyễn Hà Nam Năm bảo vệ: 2011 Abstract: Tổng quan về khai phá dữ liệu và trích chọn thuộc tính. Trình bày nội dung chính của thuật toán phân lớp sử dụng trong luận văn là thuật toán Random Forest và giải thuật di truyền. Trình bày phương pháp đề xuất và hướng giải quyết của luận văn. Trình bày quá trình thực nghiệm và đánh giá kết quả thực nghiệm. Keywords: Công nghệ thông tin; Thuật toán phân lớp; Cơ sở dữ liệuContent CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ TRÍCH CHỌN THUỘC TÍNH1.1 Giới thiệu khai phá dữ liệu và trích chọn thuộc tínhKhai phá dữ liệu là một khái niệm ra đời từ những cuối những năm 80 của thế kỷ trước. Nóbao hàm một loạt các kỹ thuật nhằm phát hiện các thông tin có giá trị tiềm ẩn trong tập các dữliệu lớn.Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng cáckỹ thuật để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu. Năm 1989, Fayyad,Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu(Kownledge Discovery in Database – KDD) để chỉ toàn bộ quá trình phát hiện các tri thức cóích từ các tập dữ liệu lớn[14]. Trong đó, khai phá dữ liệu là một bước đặc biệt trong toàn bộquá trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu hay các mô hình từ dữ liệu. Trong khai phá dữ liệu thì phương pháp trích chọn thuộc tính đóng một vai trò quantrọng trong tiền xử lý số liệu. Luận văn chủ yếu tập trung vào tìm hiểu 3 nhiệm vụ chính sau: Giảm chiều dữ liệu:Giảm chiều dữ liệu là việc làm giảm chiều của không gian tìm kiếmdữ liệu, giảm chi phí thu thập và lưu trữ dữ liệu, nâng cao hiệu quả của việc khai phá dữ liệuvà làm đơn giản hóa các kết quả khai phá dữ liệu. Trong nhiệm vụ làm giảm chiều dữ liệuchúng ta cần phân biệt hai khái nhiệm sau:  Trích chọn thuộc tính (Feature Extraction):  Chọn lựa thuộc tính (Feature Selection): Phân cụm và phân lớp:Phân lớp và phân cụm là hai nhiệm vụ có mối quan hệ tươngđối gần nhau trong khai phá dữ liệu. Một lớp là một tập các đối tượng có cùng một số đặcđiểm hoặc mối quan hệ nào đó, tất cả các đối tượng trong lớp này được phân vào trong cùngmột lớp tên nhằm mục đích là để phân biệt với các lớp khác.Một cụm là một tập các đối tượngtương tự nhau về mặt vị trí.Các cụm thường được tạo ra nhằm mục đích để sau đó tiến hànhphân lớp các đối tượng. Trích chọn luật: Trích chọn luật tìm kiếm và đưa ra dữ liệu bằng cách tất cả các dữliệu được đưa ra dựa trên các suy diễn/các quyết định mà các suy diễn/quyết định này đượcxây dựng từ các tri thức thu thập được từ dữ liệu đó. Đối với người sử dụng các kết quả củakhai phá dữ liệu họ chỉ mong muốn có một cách giải thích đơn giản là tại sao có các kết quảphân lớp đó, thuộc tính nào ảnh hưởng đến kết quả khai phá dữ liệu…Tuy nhiên, bằng cáctham số phân lớp rất khó để có thể diễn giải các tri thức đó theo cách mà người sử dụng có thểdễ dàng hiểu được. Do đó, trích chọn ra các luật IF-THEN để đưa ra các thông tin có giá trị làmột cách diễn giải đơn giản và dễ hiểu nhất đối với người sử dụng.1.2. Lựa chọn thuộc tính và bài toán phân lớp Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối tượng thành n-hữu hạnlớp đã biết trước. Tập đối tượng cần phân lớp được đặc trưng bởi một tập các thuộc tính chứacác thông tin cần thiết liên quan đến các lớp, trong đó mỗi tập các thuộc tính được đại diệnbởi một tập các thuộc tính – giá trị. Với một tập dữ liệu bao gồm một tập các đối tượng đãđược phân lớp (thường gọi là tập tập huấn) nhiệm vụ đặt ra là từ tập huấn luyện cho trước xâydựng một bộ phân lớp cho các dữ liệu tương tự. Vấn đề đặt ra đối với bài toán phân lớp là sốlượng các thuộc tính thường rất lớn nhưng các thuộc tính không liên quan hoặc thừa có thể cónhững ảnh hưởng tiêu cực đối với các giải thuật phân lớp. Các thuộc tính/dữ liệu thừa hoặckhông liên quan có thể là nguyên nhân dẫn đến việc học của giải thuật không được chính xác.Thêm vào đó, với sự có mặt của dữ liệu thừa hoặc dữ liệu không liên quan có thể làm cho bộphân lớp trở lên phức tạp hơn. Điều này sẽ gây ra những khó khăn không cần thiết cho chúngta trong việc diễn giải các kết quả học được từ tập huấn luyện. Do đó chúng ta cần giải quyếtvấn này đối với các bài toán phân lớp.1.3 Phương pháp lựa chọn thuộc tính Có thể định nghĩa lựa chọn thuộc tính là một quá trình tìm ra một tập con các thuộc tínhtừ M tập thu ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: