Bài giảng Khai phá dữ liệu (Data mining): Chương 2 - Lê Tiến
Số trang: 56
Loại file: ppt
Dung lượng: 1.36 MB
Lượt xem: 19
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Chương 2 đề cập đến các vấn đề tiền xử lý dữ liệu. Các nội dung chính trình bày trong chương gồm có: Tổng quan về giai đoạn tiền xử lý dữ liệu, tóm tắt mô tả về dữ liệu, làm sạch dữ liệu, tích hợp dữ liệu, biến đổi dữ liệu, thu giảm dữ liệu,... Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu (Data mining): Chương 2 - Lê TiếnChương2:Cácvấnđềtiềnxửlýdữliệu Khaiphádữliệu (Datamining) 1Nộidung 2.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu 2.2.Tómtắtmôtảvềdữliệu 2.3.Làmsạchdữliệu 2.4.Tíchhợpdữliệu 2.5.Biếnđổidữliệu 2.6.Thugiảmdữliệu 2.7.Rờirạchóadữliệu 2.8.Tạocâyphâncấpýniệm 2.9.Tómtắt 2 2.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Giaiđoạntiềnxửlýdữliệu Quátrìnhxửlýdữliệuthô/gốc(raw/originaldata) nhằmcảithiệnchấtlượngdữliệu(qualityofthe data)vàdođó,cảithiệnchấtlượngcủakếtquả khaiphá. Dữliệuthô/gốc Cócấutrúc,báncấutrúc,phicấutrúc Đượcđưavàotừcácnguồndữliệutrongcáchệthốngxửlý tậptin(fileprocessingsystems)và/haycáchệthốngcơsởdữ liệu(databasesystems) Chấtlượngdữliệu(dataquality):tínhchínhxác,tínhhiện hành,tínhtoànvẹn,tínhnhấtquán 32.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Chấtlượngdữliệu(dataquality) tínhchínhxác(accuracy):giátrịđượcghinhậnđúng vớigiátrịthực. tínhhiệnhành(currency/timeliness):giátrịđượcghi nhậnkhôngbịlỗithời. tínhtoànvẹn(completeness):tấtcảcácgiátrịdành chomộtbiến/thuộctínhđềuđượcghinhận. tínhnhấtquán(consistency):tấtcảgiátrịdữliệuđều đượcbiểudiễnnhưnhautrongtấtcảcáctrườnghợp. 42.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu PatternEvaluation/ Presentation DataMining Patterns TaskrelevantData Data Selection/Transformation Warehouse DataCleaning DataIntegration DataSources 52.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu 62.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu Làmsạchdữliệu(datacleaning/cleansing):loạibỏnhiễu(remove noise),hiệuchỉnhnhữngphầndữliệukhôngnhấtquán(correct datainconsistencies) Tíchhợpdữliệu(dataintegration):trộndữliệu(mergedata)từ nhiềunguồnkhácnhauvàomộtkhodữliệu Biếnđổidữliệu(datatransformation):chuẩnhoádữliệu(data normalization) Thugiảmdữliệu(datareduction):thugiảmkíchthướcdữliệu (nghĩalàgiảmsốphầntử)bằngkếthợpdữliệu(data aggregation),loạibỏcácđặcđiểmdưthừa(redundantfeatures) (nghĩalàgiảmsốchiều/thuộctínhdữliệu),gomcụmdữliệu 72.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu Làmsạchdữliệu(datacleaning/cleansing) Tómtắthoádữliệu:nhậndiệnđặcđiểmchungcủadữliệuvàsự hiệndiệncủanhiễuhoặccácphầntửkìdị(outliers) Xửlýdữliệubịthiếu(missingdata) Xửlýdữliệubịnhiễu(noisydata) Tíchhợpdữliệu(dataintegration) Tíchhợplượcđồ(schemaintegration)vàsotrùngđốitượng(object matching) Vấnđềdưthừa(redundancy) Pháthiệnvàxửlýmâuthuẫngiátrịdữliệu(detectionandresolution ofdatavalueconflicts) 82.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu Biếnđổidữliệu(datatransformation) Làmtrơndữliệu(smoothing) Kếthợpdữliệu(aggregation) Tổngquáthóadữliệu(generalization) Chuẩnhóadữliệu(normalization) Xâydựngthuộctích(attribute/featureconstruction) Thugiảmdữliệu(datareduction) Kếthợpkhốidữliệu(datacubeaggregation) Chọntậpconcácthuộctính(attributesubsetselection) Thugiảmchiều(dimensionalityreduction) Thugiảmlượng(numerosityreduction) Tạophâncấpýniệm(concepthierarchygeneration)vàrờirạchóa (discretization) 92.2.Tómtắtmôtảvềdữliệu Xácđịnhcácthuộctính(properties)tiêubiểucủa dữliệuvềxuhướngchính(centraltendency)và sựphântán(dispersion)củadữliệu ...
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu (Data mining): Chương 2 - Lê TiếnChương2:Cácvấnđềtiềnxửlýdữliệu Khaiphádữliệu (Datamining) 1Nộidung 2.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu 2.2.Tómtắtmôtảvềdữliệu 2.3.Làmsạchdữliệu 2.4.Tíchhợpdữliệu 2.5.Biếnđổidữliệu 2.6.Thugiảmdữliệu 2.7.Rờirạchóadữliệu 2.8.Tạocâyphâncấpýniệm 2.9.Tómtắt 2 2.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Giaiđoạntiềnxửlýdữliệu Quátrìnhxửlýdữliệuthô/gốc(raw/originaldata) nhằmcảithiệnchấtlượngdữliệu(qualityofthe data)vàdođó,cảithiệnchấtlượngcủakếtquả khaiphá. Dữliệuthô/gốc Cócấutrúc,báncấutrúc,phicấutrúc Đượcđưavàotừcácnguồndữliệutrongcáchệthốngxửlý tậptin(fileprocessingsystems)và/haycáchệthốngcơsởdữ liệu(databasesystems) Chấtlượngdữliệu(dataquality):tínhchínhxác,tínhhiện hành,tínhtoànvẹn,tínhnhấtquán 32.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Chấtlượngdữliệu(dataquality) tínhchínhxác(accuracy):giátrịđượcghinhậnđúng vớigiátrịthực. tínhhiệnhành(currency/timeliness):giátrịđượcghi nhậnkhôngbịlỗithời. tínhtoànvẹn(completeness):tấtcảcácgiátrịdành chomộtbiến/thuộctínhđềuđượcghinhận. tínhnhấtquán(consistency):tấtcảgiátrịdữliệuđều đượcbiểudiễnnhưnhautrongtấtcảcáctrườnghợp. 42.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu PatternEvaluation/ Presentation DataMining Patterns TaskrelevantData Data Selection/Transformation Warehouse DataCleaning DataIntegration DataSources 52.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu 62.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu Làmsạchdữliệu(datacleaning/cleansing):loạibỏnhiễu(remove noise),hiệuchỉnhnhữngphầndữliệukhôngnhấtquán(correct datainconsistencies) Tíchhợpdữliệu(dataintegration):trộndữliệu(mergedata)từ nhiềunguồnkhácnhauvàomộtkhodữliệu Biếnđổidữliệu(datatransformation):chuẩnhoádữliệu(data normalization) Thugiảmdữliệu(datareduction):thugiảmkíchthướcdữliệu (nghĩalàgiảmsốphầntử)bằngkếthợpdữliệu(data aggregation),loạibỏcácđặcđiểmdưthừa(redundantfeatures) (nghĩalàgiảmsốchiều/thuộctínhdữliệu),gomcụmdữliệu 72.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu Làmsạchdữliệu(datacleaning/cleansing) Tómtắthoádữliệu:nhậndiệnđặcđiểmchungcủadữliệuvàsự hiệndiệncủanhiễuhoặccácphầntửkìdị(outliers) Xửlýdữliệubịthiếu(missingdata) Xửlýdữliệubịnhiễu(noisydata) Tíchhợpdữliệu(dataintegration) Tíchhợplượcđồ(schemaintegration)vàsotrùngđốitượng(object matching) Vấnđềdưthừa(redundancy) Pháthiệnvàxửlýmâuthuẫngiátrịdữliệu(detectionandresolution ofdatavalueconflicts) 82.1.Tổngquanvềgiaiđoạntiềnxửlýdữliệu Cáckỹthuậttiềnxửlýdữliệu Biếnđổidữliệu(datatransformation) Làmtrơndữliệu(smoothing) Kếthợpdữliệu(aggregation) Tổngquáthóadữliệu(generalization) Chuẩnhóadữliệu(normalization) Xâydựngthuộctích(attribute/featureconstruction) Thugiảmdữliệu(datareduction) Kếthợpkhốidữliệu(datacubeaggregation) Chọntậpconcácthuộctính(attributesubsetselection) Thugiảmchiều(dimensionalityreduction) Thugiảmlượng(numerosityreduction) Tạophâncấpýniệm(concepthierarchygeneration)vàrờirạchóa (discretization) 92.2.Tómtắtmôtảvềdữliệu Xácđịnhcácthuộctính(properties)tiêubiểucủa dữliệuvềxuhướngchính(centraltendency)và sựphântán(dispersion)củadữliệu ...
Tìm kiếm theo từ khóa liên quan:
Khai phá dữ liệu Bài giảng Khai phá dữ liệu Data mining Tiền xử lý dữ liệu Làm sạch dữ liệu Tích hợp dữ liệuGợi ý tài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 349 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 228 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 204 0 0 -
17 trang 179 0 0
-
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 155 0 0 -
8 trang 129 0 0
-
4 trang 112 0 0
-
Bài giảng Phân tích dữ liệu với SPSS - TS. Nguyễn Thị Phương Giang
40 trang 105 0 0 -
Tích hợp dữ liệu và nhiệm vụ xây dựng hệ thống cơ sở dữ liệu quốc gia về biến đổi khí hậu
4 trang 50 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 43 0 0