Danh mục

Bài giảng Nhập môn khai phá dữ liệu (PGS.TS. Hà Quang Thụy) - Chương 3. Tiền xử lý dữ liệu

Số trang: 67      Loại file: ppt      Dung lượng: 905.00 KB      Lượt xem: 10      Lượt tải: 0    
Thu Hiền

Hỗ trợ phí lưu trữ khi tải xuống: 29,000 VND Tải xuống file đầy đủ (67 trang) 0
Xem trước 7 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Đánh giá dữ liệuĐịnh vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định cách nắm bắt vấn đềMô tả dữ liệu sẽ làm hiện rõ một số vấn đềKiểm toán dữ liệu: lập hồ sơ dữ liệu và phân tích ảnh hưởng của dữ liệu chất lượng kém.
Nội dung trích xuất từ tài liệu:
Bài giảng Nhập môn khai phá dữ liệu (PGS.TS. Hà Quang Thụy) - Chương 3. Tiền xử lý dữ liệu Bàigiảngmônhọc KHAI PHÁ DỮ LIỆU CHƯƠNG 3. TIỀN XỬ LÝ DỮ LIỆU Khaiphádữliệu:Chương3December27,2012 1 Tàiliệuthamkhảo [HK06] J. Han and M. Kamber (2006).  Data Mining-Concepts and Techniques (Second Edition), Morgan Kaufmann. Chapter 2. Data Preprocessing [NEM09] Robert Nisbet, John Elder, and Gary Miner (2009). Handbook of  Statistical Analysis and Data Mining, Elsevier, 6/2009. Chapter 4. Data Understanding and Preparation; Chapter 5. Feature Selection. [Chap05] Chapman, A. D. (2005). Principles of Data Cleaning, Report for  the Global Biodiversity Information Facility, Copenhagen [Chap05a] Chapman, A. D. (2005a). Principles and Methods of Data  Cleaning – Primary Species and Species- Occurrence Data (version 1.0), Report for the Global Biodiversity Information Facility, Copenhagen [Hai02] Đoàn An Hải (2002). Learning to Map between Structured  Representations of Data, PhD Thesis, The University of Washington, ACM 2003 Award Winners and Fellows (Doctoral Dissertation Award). [RD00] Erhard Rahm, Hong Hai Do (2000). Data Cleaning: Problems and  Current Approaches, IEEE Data Eng. Bull., 23(4): 3-13 (2000) và một số tài liệu khác December27,2012 2 Chapter3:Tiềnxửlýdữliệu Hiểudữliệuvàchuẩnbịdữliệu  Vaitròcủatiềnxửlýdữliệu  Làmsạchdữliệu  Tíchhợpvàchuyểndạngdữliệu  Rútgọndữliệu  Rờirạcvàsinhkiếntrúckháiniệm December27,2012 3 Nhữngvấnđềcơbảnđểhiểudữliệu Cáchthuthậpđượcdữliệucầnthiếtđểmôhìnhhóa:  DataAcquisition  Cáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhau  DataIntegeation.  Môtảdữliệu  DataDescription  Đánhgiáchấtlượng(sựsạchsẽ)củadữliệu  DataAssessment December27,2012 4 Thuthậpdữliệu Cách thu thập dữ liệu cần thiết để mô hình hóa  Data Acquisition: TríchchọndữliệutheocâuhỏitừCSDLtớitậptinphẳng  NgônngữhỏibậccaotruynhậptrựctiếpCSDL  KếtnốimứcthấpđểtruynhậptrựctiếpCSDL  Loại bỏ ràng buộc không gian/thời gian khi di chuyển khối  lượng lớn dữ liệu Hỗ trợ việc quản lý và bảo quản dữ liệu tập trung hóa  Rút gọn sự tăng không cần thiết của dữ liệu  Tạo điều kiện quản trị dữ liệu tốt hơn để đáp ứng mối  quan tâm đúng đắnDecember27,2012 5 Tíchhợpdữliệu CáchkếthợpdữliệutìmđượctừcácnguồndữliệukhácnhauData  Integeation.December27,2012 6 Môtảdữliệu Giá trị kỳ vọng (mean)  Xu hướng trung tâm của tập dữ liệu  Độ lệch chuẩn (Standarddeviation)  Phânbốdữliệuxungquanhkỳvọng  Cựctiểu(Minimum)  Giátrịnhỏnhất  Cựcđại(Maximum)  Giátrịlớnnhất  Bảngtầnsuất(Frequencytables)  Phânbốtầnsuấtgiátrịcủacácbiến  Lượcđồ(Histograms)  Cungcấpkỹthuậtđồhọabiểudiễntầnsốgiátrịcủamộtbiến December27,2012 7 Mô tả dữ liệu, so sánh với phân bố chuẩn (chủ yếu trong miền [0,10])December27,2012 8 Đánhgiávàlậphồsơdữliệu Đánh giá dữ liệu  Định vị một vấn đề trong dữ liệu cần giải quyết: Tìm ra và quyết định  cách nắm bắt vấn đề Mô tả dữ liệu sẽ làm hiện rõ một số vấn đề  Kiểm toán dữ liệu: lập ...

Tài liệu được xem nhiều: