Danh mục

Bài giảng Khai phá dữ liệu (Data mining): Chương 2 - Lê Tiến

Số trang: 56      Loại file: ppt      Dung lượng: 1.36 MB      Lượt xem: 19      Lượt tải: 0    
Jamona

Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Chương 2 đề cập đến các vấn đề tiền xử lý dữ liệu. Các nội dung chính trình bày trong chương gồm có: Tổng quan về giai đoạn tiền xử lý dữ liệu, tóm tắt mô tả về dữ liệu, làm sạch dữ liệu, tích hợp dữ liệu, biến đổi dữ liệu, thu giảm dữ liệu,... Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu (Data mining): Chương 2 - Lê TiếnChương2:Cácvấnđềtiềnxửlýdữliệu Khaiphádữliệu (Datamining) 1Nộidung 2.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu 2.2.Tómtắtmôtảvềdữliệu 2.3.Làmsạchdữliệu 2.4.Tíchhợpdữliệu 2.5.Biếnđổidữliệu 2.6.Thugiảmdữliệu 2.7.Rờirạchóadữliệu 2.8.Tạocâyphâncấpýniệm 2.9.Tómtắt 2 2.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Giaiđoạntiềnxửlýdữliệu  Quátrìnhxửlýdữliệuthô/gốc(raw/originaldata) nhằmcảithiệnchấtlượngdữliệu(qualityofthe data)vàdođó,cảithiệnchấtlượngcủakếtquả khaiphá.  Dữliệuthô/gốc  Cócấutrúc,báncấutrúc,phicấutrúc  Đượcđưavàotừcácnguồndữliệutrongcáchệthốngxửlý tậptin(fileprocessingsystems)và/haycáchệthốngcơsởdữ liệu(databasesystems)  Chấtlượngdữliệu(dataquality):tínhchínhxác,tínhhiện hành,tínhtoànvẹn,tínhnhấtquán 32.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Chấtlượngdữliệu(dataquality)  tínhchínhxác(accuracy):giátrịđượcghinhậnđúng vớigiátrịthực.  tínhhiệnhành(currency/timeliness):giátrịđượcghi nhậnkhôngbịlỗithời.  tínhtoànvẹn(completeness):tấtcảcácgiátrịdành chomộtbiến/thuộctínhđềuđượcghinhận.  tínhnhấtquán(consistency):tấtcảgiátrịdữliệuđều đượcbiểudiễnnhưnhautrongtấtcảcáctrườnghợp. 42.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu PatternEvaluation/ Presentation DataMining Patterns TaskrelevantData Data Selection/Transformation Warehouse DataCleaning DataIntegration DataSources 52.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu 62.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu  Làmsạchdữliệu(datacleaning/cleansing):loạibỏnhiễu(remove noise),hiệuchỉnhnhữngphầndữliệukhôngnhấtquán(correct datainconsistencies)  Tíchhợpdữliệu(dataintegration):trộndữliệu(mergedata)từ nhiềunguồnkhácnhauvàomộtkhodữliệu  Biếnđổidữliệu(datatransformation):chuẩnhoádữliệu(data normalization)  Thugiảmdữliệu(datareduction):thugiảmkíchthướcdữliệu (nghĩalàgiảmsốphầntử)bằngkếthợpdữliệu(data aggregation),loạibỏcácđặcđiểmdưthừa(redundantfeatures) (nghĩalàgiảmsốchiều/thuộctínhdữliệu),gomcụmdữliệu 72.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu  Làmsạchdữliệu(datacleaning/cleansing)  Tómtắthoádữliệu:nhậndiệnđặcđiểmchungcủadữliệuvàsự hiệndiệncủanhiễuhoặccácphầntửkìdị(outliers)  Xửlýdữliệubịthiếu(missingdata)  Xửlýdữliệubịnhiễu(noisydata)  Tíchhợpdữliệu(dataintegration)  Tíchhợplượcđồ(schemaintegration)vàsotrùngđốitượng(object matching)  Vấnđềdưthừa(redundancy)  Pháthiệnvàxửlýmâuthuẫngiátrịdữliệu(detectionandresolution ofdatavalueconflicts) 82.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu  Biếnđổidữliệu(datatransformation)  Làmtrơndữliệu(smoothing)  Kếthợpdữliệu(aggregation)  Tổngquáthóadữliệu(generalization)  Chuẩnhóadữliệu(normalization)  Xâydựngthuộctích(attribute/featureconstruction)  Thugiảmdữliệu(datareduction)  Kếthợpkhốidữliệu(datacubeaggregation)  Chọntậpconcácthuộctính(attributesubsetselection)  Thugiảmchiều(dimensionalityreduction)  Thugiảmlượng(numerosityreduction)  Tạophâncấpýniệm(concepthierarchygeneration)vàrờirạchóa (discretization) 92.2.Tómtắtmôtảvềdữliệu Xácđịnhcácthuộctính(properties)tiêubiểucủa dữliệuvềxuhướngchính(centraltendency)và sựphântán(dispersion)củadữliệu ...

Tài liệu được xem nhiều: