Danh mục

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu

Số trang: 26      Loại file: pdf      Dung lượng: 556.74 KB      Lượt xem: 25      Lượt tải: 0    
Jamona

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Chương 2 trình bày về giai đoạn tiền xử lý dữ liệu. Sau khi học xong chương này người học có thể biết được: Tại sao phải tiền xử lý dữ liệu? Các vấn đề dữ liệu, các chiều đo chất lượng dữ liệu, nhiệm vụ chính trong tiền xử lý dữ liệu,... Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý dữ liệu Chương 2: Tiền xử lý dữ liệuChất lượng dữ liệuMục tiêu chính của việc chuẩn bị dữ liệu:- Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn sàng được xử lý bởi các chương trình khai phá dữ liệu.- Để chuẩn bị các đặc tính tốt nhất cho việc khai phá Chương 2: Tiền xử lý dữ liệuTại sao phải tiền xử lý dữ liệu?- Dữ liệu trong thế giới thực là hỗn tạp • Không đầy đủ: thiếu giá trị thuộc tính, thiếu các thuộc tính chắc chắn cần quan tâm, hoặc chỉ chứa dữ liệu chung • Nhiễu: chứa dữ liệu bị lỗi hoặc bị lệch • Không nhất quán (mâu thuẫn): chứa các mã hoặc các tên mâu thuẫn nhau- Dữ liệu không đảm bảo chất lượng thì kết quả khaiphá không hiệu quả • Chất lượng các quyết định phải dựa trên chất lượng dữ liệu Chương 2: Tiền xử lý dữ liệuTại sao phải tiền xử lý dữ liệu? * Dữ liệu bị lệchLệch là các đối tượng dữ liệu có các đặc tính khácđáng kể với phần lớn các đối tượng dữ liệu khác trongtập dữ liệu.* Các giá trị bị mất – Không thu thập được thông tin Ví dụ: người được điều tra từ chối không cung cấp thông tin tuổi và cân nặng của họ – Các thuộc tính không phù hợp trong mọi trường hợp Ví dụ: thu nhập hàng năm không áp dụng cho trẻ con Chương 2: Tiền xử lý dữ liệu Các vấn đề dữ liệu• Dữ liệu nào có sẵn cho nhiệm vụ khai phá?• Dữ liệu có phù hợp không?• Dữ liệu thích hợp bổ sung có sẵn không?• Dữ liệu lịch sử có sẵn được bao nhiêu?• Ai là chuyên gia dữ liệu ? Chương 2: Tiền xử lý dữ liệu Các chiều đo chất lượng dữ liệu• Độ chính xác• Tính đầy đủ• Tính nhất quán• Tính hợp thời• Độ tin cậy• Giá trị được bổ sung• Tính có thể hiểu được• Tính có thể truy cập được Chương 2: Tiền xử lý dữ liệu Nhiệm vụ chính trong tiền xử lý dữ liệu• Làm sạch dữ liệu: – Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử lệch, giải quyết các vấn đề không nhất quán• Tích hợp dữ liệu – Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file• Biến đổi dữ liệu – Chuẩn hóa hoặc kết hợp• Thu nhỏ dữ liệu – Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới kết quả phân tích• Rời rạc hóa dữ liệu – Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu dạng số Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệuCác nhiệm vụ làm sạch dữ liệu: – Thu nhận dữ liệu và siêu dữ liệu – Bổ sung các giá trị dữ liệu bị mất – Thống nhất định dạng ngày tháng – Chuyển đổi các giá trị dạng số – Xác định lệch và làm trơn nhiễu – Làm đúng dữ liệu không nhất quán Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệu:• Dữ liệu có trong các hệ quản trị CSDL: – Các giao thức ODBC, JDBC• Dữ liệu trong file: – Định dạng các cột cố định – Định dạng phân cách: tab, dấu “,”, ...• Phân biệt số lượng các trường trước khi làm sạch và sau khi làm sạch Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệu• Các kiểu trường: – Nhị phân, tên (có phân loại), thứ tự, số,... – Với các trường kiểu tên: các bảng chuyển mã thành mô tả đầy đủ• Vai trò của trường• Mô tả trường Chương 2: Tiền xử lý dữ liệu Làm sạch dữ liệuChuyển dữ liệu sang dạng chuẩn (Vd: arff(file thuộc tính-quan hệ), csv (dấu phẩy táchgiá trị) ) – Các giá trị bị mất – Định dạng ngày tháng được hợp nhất – Sắp xếp dữ liệu dạng số – Xác định lỗi và lệch – Chuyển các trường tên có giá trị được sắp xếp thành dạng số Chương 2: Tiền xử lý dữ liệu Dữ liệu bị mất• Dữ liệu không luôn có sẵn – VD: nhiều bộ dữ liệu có các thuộc tính không có dữ liệu, như thu nhập khách hàng trong dữ liệu bán hàng• Dữ liệu bị mất do: – Sự cố thiết bị – Mâu thuẫn với các bản ghi khác và do đó bị xóa – Dữ liệu không được nhập vào do hiểu nhầm – Không nhận thấy tầm quan trọng của dữ liệu nhập vào – Không ghi nhận lịch sử hoặc sự thay đổi dữ liệu Chương 2: Tiền xử lý dữ liệu Giải quyết dữ liệu bị mất• Bỏ qua: thường được dùng khi nhãn lớp bị mất• Điền giá trị bị mất bằng tay: nhàm chán + bất tiện?• Dùng một giá trị chung cho giá trị bị mất: VD: “unknown”• Tóm lại: dùng giá trị thuộc tính trung bình để điền vào các giá trị bị mất, hoặc dùng giá trị thuộc tính trung bình cho tất cả các mẫu thuộc về cùng một lớp để điền vào các giá trị bị mất. Chương 2: Tiền xử lý dữ liệu Dữ liệu nhiễu• Nhiễu là sự thay đổi giá trị gốc của dữ liệu Ví dụ: sự biến dạng giọng nói của người khi nói trênmột điện thoại có chất lư ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: