Danh mục

Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý các dữ liệu

Số trang: 44      Loại file: pptx      Dung lượng: 2.12 MB      Lượt xem: 19      Lượt tải: 0    
Hoai.2512

Hỗ trợ phí lưu trữ khi tải xuống: 19,000 VND Tải xuống file đầy đủ (44 trang) 0

Báo xấu

Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng cung cấp cho người học các kiến thức: Tiền xử lý dữ liệu. Hi vọng đây sẽ là một tài liệu hữu ích dành cho các bạn sinh viên đang theo học môn dùng làm tài liệu học tập và nghiên cứu.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu - Chương 2: Tiền xử lý các dữ liệu TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM KHOA CÔNG NGHỆ THÔNG TINBÀI GIẢNG MÔN HỌCKHAI PHÁ DỮ LIỆU CH ƯƠN G2 :TIỀN X ỬLÝ D ỮLIỆU Gi ản g v iê n :Th S . N g u y ễn V ươn g Th ịn h B ộm ô n : H ệt h ốn g t h ô n g t in H ảiP h ò n g , Th ô n g t in v ềg i ản g v iê n Họ và tên Nguyễn Vương Thịnh Đơn vị công tác Bộ môn Hệ thống thông tin – Khoa Công nghệ thông tin Học vị Thạc sỹ Chuyên ngành Hệ thống thông tin Cơ sở đào tạo Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội Năm tốt nghiệp 2012 Điện thoại 0983283791 Email thinhnv@vimaru.edu.vn Website cá nhân http://scholar.vimaru.edu.vn/thinhnv2 Th ô n g t in v ềh ọc p h ần Tên học phần Khai phá dữ liệu Tên tiếng Anh Data Mining Mã học phần 17409 Số tín chỉ 03 tín chỉ Số tiết lý thuyết 39 tiết (13 tuần x 03 tiết/tuần) Số tiết thực hành 10 tiết (05 tuần x 02 tiết/tuần) Bộ môn phụ trách Hệ thống thông tin PHƯƠNGPHÁPHỌCTẬP,NGHIÊNCỨU v N g h e g i ản g , t h ảo lu ận , t ra o đ ổiv ớig i ản g v iê n t rê n l ớp . P H ƯƠTNựGP n g HÁP h iê nĐ c ứ ÁNu tHGIÁ à ili ệu v à là m b à it ập ởn h à . v v S Vp h ảit h a m d ự ít n h ất 7 5 %t h ờig ia n . v Có 0 2 b à i k i ểm t ra v i ết g i ữa h ọc p h ần ( X = X2 = ( L1 + L2 ) /2 ) .3 v Th i k ết t h ú c h ọc p h ần b ằn g h ìn h t h ức t r ắc n g h i ệm k h á c h q u a n t rê n m á y t ín h ( Z= 0 . 5 X+ 0 . 5 Y) . Tàiliệuthamkhảo1. Jiawei Han and Micheline Kamber, D a t a Min in g Co n c e p t s a n d Te c h n iq u e s , Elsevier Inc, 2006.2. Ian H. Witten, Eibe Frank, D a t a Min in g – P ra c t ic a l Ma c h in e Le a rn in g To o ls a n d Te c h n iq u e s ( t h e s e c o n d e d it io n ) , Elsevier Inc, 2005 (sửdụngkèmvớicôngcụWeka).3. Elmasri, Navathe, Somayajulu, Gupta, Fu n d a m e n t a ls o f D a t a b a s e S y s t e m s ( t h e 4 t h Ed it io n ) , Pearson Education Inc, 2004.4. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú, Giá o t rìn h Kh a i p h á d ữ li ệu We b , NXB Giáo dục, 2009 45 Cô n g c ụp h ần m ềm h ỗ t rợPhầnmềmWekađượcpháttriểnbởinhómnghiêncứucủatrườngĐạihọcWaikato(NewZealand)từnăm1999.Cóthểdownloadvềtạiđịachỉ:http://www.cs.waikato.ac.nz/ml/weka/downloading.html67 CHƯƠNG 2: TIỀN XỬ LÝ DỮ LIỆU 2.1. KHÁI NIỆM VỀ TIỀN XỬ LÝ DỮ LIỆU? 2.2. TÓM TẮT MÔ TẢ DỮ LIỆU 2.3. LÀM SẠCH DỮ LIỆU 2.4. TÍCH HỢP VÀ CHUYỂN DẠNG DỮ LIỆU 2.5. RÚT GỌN DỮ LIỆU8 2.1.KHÁINIỆMVỀTIỀNXỬLÝDỮLIỆU2.1.1. Tại sao phải tiền xử lý dữ liệu?Dữ liệu trong thế giới thực (mà chúng ta muốn phân tích bằng cách ápdụng các kỹ thuật khai phá dữ liệu) thường: • Không hoàn chỉnh (incomplete): thiếu vắng các giá trị hoặc các thuộc tính đáng quan tâm, hoặc chỉ chứa các dữ liệu gộp nhóm. • Chứa đựng các giá trị nhiễu (noisy): bao gồm các lỗi hoặc các giá trị lệch quá xa ra ngoài phạm vi mong đợi. • Không nhất quán (inconsistent).Lý do: q Kích thước dữ liệu quá lớn. q Được thu thập từ nhiều nguồn khác nhau.⟹Chất lượng dữ liệu thấp sẽ dẫn tới những kết quả khai phá tồi.Tiền xử lý dữ liệu là quá trình áp dụng các kỹ thuật nhằm nâng caochất lượng dữ liệu và từ đó giúp nâng cao chất lượng kết quả khaiphá.92.1.2. Những nguyên nhân ảnh hưởng đến chất lượng dữ liệu A. Nguyên nhân khiến dữ liệu không hoàn chỉnh (incomplete): ü Giá trị tương ứng không thể chấp nhận vào thời điểm thu thập. ü Sự khác biệt về quan điểm giữa thời điểm thu thập và thời điểm phân tích. ü Các lỗi gây ra bởi con người (nhập liệu sót) hoặc bởi hệ thống (phần cứng/phần mềm). B. Nguyên nhân gây ra các giá trị nhiễu (noisy): ü Lỗi của các thiết bị thu thập dữ liệu. ü Lỗi nhập dữ liệu sai (gây ra bởi con người hay máy tính). ü Lỗi trong quá trình truyền dữ liệu. C. Nguyên nhân gây ra tính không nhất quán (inconsistent): ü Dữ liệu đến từ các nguồn khác nhau. ü Sự vi phạm các phụ thuộc hàm. D. Sự xuất hiện các bản ghi trùng lặp.10 2.1.3. Các kỹ thuật tiền xử lý dữ liệu A. Tích hợp dữ liệu (Data Integration): kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu thống nhất. ⟹Có thể gây ra: - Sự không nhất quán (inconsistencies). - Dư thừa dữ liệu (redundancies). B. Làm sạch dữ liệu (Data Cleaning): kỹ thuật này được thực hiện thông qua việc bổ sung các giá trị thiếu (missing values), loại bỏ các dữ liệu nhiễu (noisy data), xác định và loại bỏ những giá trị lệch quá xa so với mong đợi (outliers), giải quyết vấn đề không nhất quán trong dữ liệu (inconsistencies). q Nếu người dùng thấy rằng dữ liệu là không “sạch”, họ sẽ không mấy tin tưởng vào kết quả khai phá trên dữ liệu đó. q Dữ liệu không “sạch” có thể gây ra những nhiễu loạn cho các thủ tục khai phá dữ liệu và dẫn tới những kết quả không đáng tin cậy. q Dù trong hầu hết các thủ tục khai phá dữ liệu đều cài đặt những cơ ...

Tài liệu được xem nhiều: