Danh mục

Xử lý dữ liệu thiếu trong khai phá dữ liệu

Số trang: 6      Loại file: pdf      Dung lượng: 232.62 KB      Lượt xem: 19      Lượt tải: 0    
Thư viện của tui

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hưởng tới chất lượng của dữ liệu. Bài báo đưa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là thảo luận về kết quả, so sánh và đưa ra kết luận.
Nội dung trích xuất từ tài liệu:
Xử lý dữ liệu thiếu trong khai phá dữ liệu Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 86(10): 55 - 60 XỬ LÝ DỮ LIỆU THIẾU TRONG KHAI PHÁ DỮ LIỆU Phùng Thị Thu Hiền1*, Phùng Trung Nghĩa2 ,Đoàn Xuân Ngọc3 1 Trường ĐH Kỹ thuật Công nghiệp – ĐH TThái Nguyên Japan Advanced Institute of Science and Technology, 3Cục Thuế tỉnh Thái Nguyên 2 TÓM TẮT Thông tin đóng một vai trò rất quan trọng trong cuộc sống. Sự phát triển của nhiều lĩnh vực nghiên cứu phụ thuộc vào khả năng phát hiện tri thức trong các cơ sở dữ liệu lớn. Các nhà khoa học trong nhiều lĩnh vực nghiên cứu khác nhau đã phát triển các phƣơng thức để phân tích dữ liệu từ đó thu đƣợc thông tin có ích. Các phƣơng thức này phụ thuộc vào dữ liệu và yêu cầu của ngƣời sử dụng. Thật không may, các phƣơng thức truyền thống thƣờng không tƣơng ứng với dữ liệu thực do sự mất mát dữ liệu hoặc dữ liệu sai. Các giá trị thiếu gây ra: - Giảm chất lƣợng của các luật phân lớp sinh bởi hệ thống khai phá dữ liệu. - Ảnh hƣởng tới chất lƣợng của các luật thu đƣợc từ hệ thống khai phá dữ liệu. - Gây khó khăn cho việc rút ra thông tin có ích từ tập dữ liệu. Giải quyết vấn đề của dữ liệu thiếu là vấn đề quan trọng trong khai phá dữ liệu và khám phá tri thức. Việc thay thế các giá trị thiếu bởi một giá trị cụ thể mà không ảnh hƣởng tới chất lƣợng của dữ liệu. Bài báo đƣa ra bốn mô hình tiêu biểu để giải quyết vấn đề thiếu dữ liệu và cuối cùng là thảo luận về kết quả, so sánh và đƣa ra kết luận. Từ khóa: Khai phá dữ liệu (Data mining), Dữ liệu thiếu (missing data).  ĐẶT VẤN ĐỀ Sự gia tăng của kích thƣớc dữ liệu và số lƣợng cơ sở dữ liệu hiện nay vƣợt qua khả năng của con ngƣời để phân tích dữ liệu, do vậy vấn đề quan trọng là cần rút ra tri thức từ các cơ sở dữ liệu. Cơ sở dữ liệu Y học chứa lƣợng thông tin lớn về bệnh nhân và điều kiện Y tế của họ. Những mối quan hệ và những mô hình bên trong dữ liệu này đã có thể cung cấp tri thức y học mới. Phân tích dữ liệu y tế thƣờng liên quan đến cách xử lý của tri thức không đầy đủ, với việc quản lý các phần thông tin trái ngƣợc nhau và với các mức độ khác nhau của dữ liệu. Các kỹ thuật để phân tích dữ liệu chính hiện nay dựa trên các giả định khá mạnh (một vài tri thức về sự phụ thuộc, xác suất phân loại, các cuộc thử nghiệm), không thể thu đƣợc các kết luận từ tri thức không đầy đủ, hoặc không thể quản lý các mẩu thông tin trái ngƣợc nhau. Hầu hết các kỹ thuật thông minh sử dụng trong các phép phân tích dữ liệu y tế là sử dụng mạng neura, phân lớp Bayessian, các thuật toán di truyền, cây quyết định, lý thuyết mờ. Nghiên  cứu về khai phá dữ liệu giúp phân tích dữ liệu và khám phá tri thức mới. Mục tiêu là tạo ra một mô hình đơn giản. Các kiến thức khám phá đã đƣợc áp dụng vào cơ sở dữ liệu thực tế trong y học, thiên văn học, thị trƣờng chứng khoán và nhiều lĩnh vực khác. Các dữ liệu thu đƣợc cho thấy thực tế không kiểm soát đƣợc mọi thứ, do sự chồng lấp và nhiều phần giống nhau cùng tồn tại. Các mô hình có độ bất định: Nếu A thì B với độ bất định C. Có nhiều phƣơng pháp để thu đƣợc các mô hình nhƣ đã đề xuất, bao gồm Gaines và Shaw trong [2], Quinlan trong [3], Clark và Niblet trong [4], Pawlak trong [6]. Bài báo đƣa ra bốn mô hình tiêu biểu để xử lý giá trị thiếu, phân tích, so sánh ƣu nhƣợc điểm của các phƣơng pháp. PHÂN LOẠI CÁC TRƢỜNG HỢP THIẾU GIÁ TRỊ Một vấn đề phổ biến, thách thức trong khai phá dữ liệu và nghiên cứu khám phá tri thức là độ nhiễu của dữ liệu [5]. Trong một cơ sở dữ liệu lớn hoặc tập dữ liệu, nhiều giá trị có thể không chính xác hoặc có lỗi. Điều này có thể do lỗi dụng cụ đo không chuẩn hoặc do Tel: 0986 060545, Email: pthientng@gmail.com Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 55 http://www.lrc-tnu.edu.vn Phùng Thị Thu Hiền và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ con ngƣời khi nhập dữ liệu. Có hai dạng cơ bản đƣợc mô tả dƣới đây: Các giá trị không chính xác Đôi khi một vài giá trị trong quá trình huấn luyện bị thay đổi. Điều này có thể do một hoặc nhiều bộ dữ liệu mâu thuẫn với các luật đã đƣợc thiết lập. Hệ thống này có thể liên quan đến các giá trị nhiễu và bỏ qua chúng. Vấn đề là không bao giờ biết đƣợc các giá trị nhiễu là chính xác hay không và thách thức là làm thế nào để xử lý các giá trị không bình thƣờng một cách tốt nhất. Các giá trị bị thiếu Một hoặc nhiều giá trị có thể bị thiếu trong quá trình huấn luyện và phân lớp. Dữ liệu thiếu có thể xảy ra do không thể lƣu lại khi mà dữ liệu đã đƣợc tập hợp, hoặc bị bỏ qua do ngƣời sử dụng. Nếu các thuộc tính bị thiếu trong quá trình huấn luyện, hệ thống cũng có thể bỏ qua đối tƣợng hoàn toàn, cố gắng đƣa nó vào quá trình tính toán, ví dụ tìm những thuộc tính thiếu nhiều nhất, hoặc sử dụng giá trị thiếu “missing”, chƣa biết “unknown”, hoặc “null” nhƣ là một giá trị riêng cho thuộc tính này. Giải pháp đơn giản nhất là loại bỏ đi các giá trị dữ liệu bị thiếu. Một giải pháp khó hơn là cố gắng xác định các giá trị thiếu này. CÁC PHƢƠNG PHÁP XỬ LÝ GIÁ TRỊ THIẾU - Bỏ qua bộ dữ liệu: cách này thƣờng đƣợc thực hiện khi thiếu nhãn lớp hoặc bộ dữ liệu chứa nhiều thuộc tính có các giá trị thiếu. - Sử dụng một hằng số chung: Thay thế tất cả các giá trị thiếu bởi một hằng nhƣ là “missing”, “unknown”, “_”, “?” - Sử dụng thuộc tính trung bình: Sử dụng thuộc tính trung bình cho tất cả các mẫu trong lớp giống nhau: ví dụ, nếu phân loại khách hàng theo credit_risk (bảo hiểm tín dụng), thay thế các giá trị thiếu bằng giá trị trung bình của các khách hàng trong cùng một loại credit risk. - Sử dụng các giá trị có tần xuất xuất hiện nhiều nhất: kỹ thuật này thích hợp khi các giá trị thiếu ít. Khó khăn xuất hiện nếu bộ dữ liệu chứa nhiều hơn một giá trị thuộc tính thiếu. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên 86(10): 55 - 60 CÁC THUẬT TOÁN XỬ LÝ Trƣớc tiên ta cần loại bỏ nhiễu ở dữ liệu gốc, loại bỏ tất cả các bộ dữ liệu có cùng các thuộc tính điều kiện và khác nhau về thuộc tính phân lớp. Điều này giúp nâng cao hiệu quả, giúp loại bỏ tất cả các trƣờng hợp nghi ngờ. Tiến hành thi ...

Tài liệu được xem nhiều: