Bài giảng Khai phá dữ liệu (Data mining): Chương 5 - Lê Tiến
Số trang: 84
Loại file: ppt
Dung lượng: 10.39 MB
Lượt xem: 7
Lượt tải: 0
Xem trước 9 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Chương 5 giúp người học hiểu được phương pháp gom cụm dữ liệu trong khai phá dữ liệu. Trong chương này sẽ trình bày các nội dung chính như: Tổng quan về gom cụm dữ liệu, gom cụm dữ liệu bằng phân hoạch, gom cụm dữ liệu bằng phân cấp, gom cụm dữ liệu dựa trên mật độ, gom cụm dữ liệu dựa trên mô hình, các phương pháp gom cụm dữ liệu khác. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu (Data mining): Chương 5 - Lê TiếnChương5:Gomcụmdữliệu Khaiphádữliệu (Datamining) 1Nộidung 5.1.Tổngquanvềgomcụmdữliệu 5.2.Gomcụmdữliệubằngphânhoạch 5.3.Gomcụmdữliệubằngphâncấp 5.4.Gomcụmdữliệudựatrênmậtđộ 5.5.Gomcụmdữliệudựatrênmôhình 5.6.Cácphươngphápgomcụmdữliệukhác 5.7.Tómtắt 25.0.Tìnhhuống1–Outlierdetection Ngườiđangsửdụng thẻID=1234thậtsự làchủnhâncủathẻ haylàmộttêntrộm? 35.0.Tìnhhuống2Làmsạchdữliệu Nhậndiệnphầntửbiên(outliers)vàgiảmthiểu nhiễu(noisydata) Giảiphápgiảmthiểunhiễu Phântíchcụm(clusteranalysis) 45.0.Tìnhhuống3 55.0.Tìnhhuống3 65.0.Tìnhhuống3 75.0.Tìnhhuống3 85.0.Tìnhhuống3 95.0.Tìnhhuống3 105.0.Tìnhhuống3 115.0.Tìnhhuống4 http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.data.html Gomcụmảnh 125.0.Tìnhhuống… Gomcụm 135.0.Tìnhhuống… Hỗtrợgiaiđoạntiềnxửlýdữliệu(datapreprocessing) Môtảsựphânbốdữliệu/đốitượng(datadistribution) Nhậndạngmẫu(patternrecognition) Phântíchdữliệukhônggian(spatialdataanalysis) Xửlýảnh(imageprocessing) Phânmảnhthịtrường(marketsegmentation) Gomcụmtàiliệu((WWW)documentclustering) … 145.1.Tổngquanvềgomcụmdữliệu Gomcụm Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác. Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Gomcụm 155.1.Tổngquanvềgomcụmdữliệu Gomcụm Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác. Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Intracluster distancesare minimized. Intercluster distancesare maximized. 165.1.Tổngquanvềgomcụmdữliệu Gomcụm Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác. Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Lowinter Intracluster cluster/class distancesare similarity minimized. InterclusterHighintra distancesarecluster/class maximized.similarity 175.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụm Matrậndữliệu(datamatrix) x11 ... x1f ... x1p ... ... ... ... ... xi1 ... xif ... xip ... ... ... ... ... xn1 ... xnf ... xnp nđốitượng(objects) pbiến/thuộctính(variables/attributes) 185.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụm Matrậnsaibiệt(dissimilaritymatrix) 0 d(2,1) 0 d(3,1) d ( 3,2) 0 : : : d ( n,1) d ( n,2) ... ... 0d(i,j)làkhoảngcáchgiữađốitượngivàj;thểhiệnsựkhácbiệtgiữađốitượngivàj;đượctínhtuỳthuộcvàokiểucủacácbiến/thuộctính. 195.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụmd(i,j)làkhoảngcáchgiữađốitượngivàj;thểhiệnsựkhácbiệtgiữađốitượngivàj;đượctínhtuỳthuộcvàokiểucủacácbiến/thuộctính. d(i,j) 0 d(i,i)=0 d(i,j)=d(j,i) d(i,j) d(i,k)+d(k,j) 20 ...
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu (Data mining): Chương 5 - Lê TiếnChương5:Gomcụmdữliệu Khaiphádữliệu (Datamining) 1Nộidung 5.1.Tổngquanvềgomcụmdữliệu 5.2.Gomcụmdữliệubằngphânhoạch 5.3.Gomcụmdữliệubằngphâncấp 5.4.Gomcụmdữliệudựatrênmậtđộ 5.5.Gomcụmdữliệudựatrênmôhình 5.6.Cácphươngphápgomcụmdữliệukhác 5.7.Tómtắt 25.0.Tìnhhuống1–Outlierdetection Ngườiđangsửdụng thẻID=1234thậtsự làchủnhâncủathẻ haylàmộttêntrộm? 35.0.Tìnhhuống2Làmsạchdữliệu Nhậndiệnphầntửbiên(outliers)vàgiảmthiểu nhiễu(noisydata) Giảiphápgiảmthiểunhiễu Phântíchcụm(clusteranalysis) 45.0.Tìnhhuống3 55.0.Tìnhhuống3 65.0.Tìnhhuống3 75.0.Tìnhhuống3 85.0.Tìnhhuống3 95.0.Tìnhhuống3 105.0.Tìnhhuống3 115.0.Tìnhhuống4 http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.data.html Gomcụmảnh 125.0.Tìnhhuống… Gomcụm 135.0.Tìnhhuống… Hỗtrợgiaiđoạntiềnxửlýdữliệu(datapreprocessing) Môtảsựphânbốdữliệu/đốitượng(datadistribution) Nhậndạngmẫu(patternrecognition) Phântíchdữliệukhônggian(spatialdataanalysis) Xửlýảnh(imageprocessing) Phânmảnhthịtrường(marketsegmentation) Gomcụmtàiliệu((WWW)documentclustering) … 145.1.Tổngquanvềgomcụmdữliệu Gomcụm Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác. Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Gomcụm 155.1.Tổngquanvềgomcụmdữliệu Gomcụm Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác. Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Intracluster distancesare minimized. Intercluster distancesare maximized. 165.1.Tổngquanvềgomcụmdữliệu Gomcụm Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác. Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Lowinter Intracluster cluster/class distancesare similarity minimized. InterclusterHighintra distancesarecluster/class maximized.similarity 175.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụm Matrậndữliệu(datamatrix) x11 ... x1f ... x1p ... ... ... ... ... xi1 ... xif ... xip ... ... ... ... ... xn1 ... xnf ... xnp nđốitượng(objects) pbiến/thuộctính(variables/attributes) 185.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụm Matrậnsaibiệt(dissimilaritymatrix) 0 d(2,1) 0 d(3,1) d ( 3,2) 0 : : : d ( n,1) d ( n,2) ... ... 0d(i,j)làkhoảngcáchgiữađốitượngivàj;thểhiệnsựkhácbiệtgiữađốitượngivàj;đượctínhtuỳthuộcvàokiểucủacácbiến/thuộctính. 195.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụmd(i,j)làkhoảngcáchgiữađốitượngivàj;thểhiệnsựkhácbiệtgiữađốitượngivàj;đượctínhtuỳthuộcvàokiểucủacácbiến/thuộctính. d(i,j) 0 d(i,i)=0 d(i,j)=d(j,i) d(i,j) d(i,k)+d(k,j) 20 ...
Tìm kiếm theo từ khóa liên quan:
Khai phá dữ liệu Bài giảng Khai phá dữ liệu Data mining Gom cụm dữ liệu Gom cụm dữ liệu bằng phân hoạch Phương pháp gom cụm dữ liệuGợi ý tài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 351 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 230 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 222 0 0 -
17 trang 186 0 0
-
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 170 0 0 -
8 trang 131 0 0
-
4 trang 115 0 0
-
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 48 0 0 -
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 45 0 0 -
68 trang 44 0 0