Danh mục

Bài giảng Khai phá dữ liệu (Data mining): Chương 5 - Lê Tiến

Số trang: 84      Loại file: ppt      Dung lượng: 10.39 MB      Lượt xem: 7      Lượt tải: 0    
Thu Hiền

Phí tải xuống: 30,000 VND Tải xuống file đầy đủ (84 trang) 0
Xem trước 9 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Chương 5 giúp người học hiểu được phương pháp gom cụm dữ liệu trong khai phá dữ liệu. Trong chương này sẽ trình bày các nội dung chính như: Tổng quan về gom cụm dữ liệu, gom cụm dữ liệu bằng phân hoạch, gom cụm dữ liệu bằng phân cấp, gom cụm dữ liệu dựa trên mật độ, gom cụm dữ liệu dựa trên mô hình, các phương pháp gom cụm dữ liệu khác. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Khai phá dữ liệu (Data mining): Chương 5 - Lê TiếnChương5:Gomcụmdữliệu Khaiphádữliệu (Datamining) 1Nộidung 5.1.Tổngquanvềgomcụmdữliệu 5.2.Gomcụmdữliệubằngphânhoạch 5.3.Gomcụmdữliệubằngphâncấp 5.4.Gomcụmdữliệudựatrênmậtđộ 5.5.Gomcụmdữliệudựatrênmôhình 5.6.Cácphươngphápgomcụmdữliệukhác 5.7.Tómtắt 25.0.Tìnhhuống1–Outlierdetection Ngườiđangsửdụng thẻID=1234thậtsự làchủnhâncủathẻ haylàmộttêntrộm? 35.0.Tìnhhuống2Làmsạchdữliệu  Nhậndiệnphầntửbiên(outliers)vàgiảmthiểu nhiễu(noisydata)  Giảiphápgiảmthiểunhiễu  Phântíchcụm(clusteranalysis) 45.0.Tìnhhuống3 55.0.Tìnhhuống3 65.0.Tìnhhuống3 75.0.Tìnhhuống3 85.0.Tìnhhuống3 95.0.Tìnhhuống3 105.0.Tìnhhuống3 115.0.Tìnhhuống4 http://kdd.ics.uci.edu/databases/CorelFeatures/CorelFeatures.data.html Gomcụmảnh 125.0.Tìnhhuống… Gomcụm 135.0.Tìnhhuống… Hỗtrợgiaiđoạntiềnxửlýdữliệu(datapreprocessing) Môtảsựphânbốdữliệu/đốitượng(datadistribution) Nhậndạngmẫu(patternrecognition) Phântíchdữliệukhônggian(spatialdataanalysis) Xửlýảnh(imageprocessing) Phânmảnhthịtrường(marketsegmentation) Gomcụmtàiliệu((WWW)documentclustering) … 145.1.Tổngquanvềgomcụmdữliệu Gomcụm  Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm  Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác.  Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Gomcụm 155.1.Tổngquanvềgomcụmdữliệu Gomcụm  Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm  Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác.  Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Intracluster distancesare minimized. Intercluster distancesare maximized. 165.1.Tổngquanvềgomcụmdữliệu Gomcụm  Quátrìnhgomnhóm/cụmdữliệu/đốitượngvàocáclớp/cụm  Cácđốitượngtrongcùngmộtcụmtươngtựvớinhauhơnsovới đốitượngởcáccụmkhác.  Obj1,Obj2ởcụmC1;Obj3ởcụmC2Obj1tươngtựObj2hơnso vớitươngtựObj3. Lowinter Intracluster cluster/class distancesare similarity minimized. InterclusterHighintra distancesarecluster/class maximized.similarity 175.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụm  Matrậndữliệu(datamatrix) x11 ... x1f ... x1p ... ... ... ... ... xi1 ... xif ... xip ... ... ... ... ... xn1 ... xnf ... xnp nđốitượng(objects) pbiến/thuộctính(variables/attributes) 185.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụm  Matrậnsaibiệt(dissimilaritymatrix) 0 d(2,1) 0 d(3,1) d ( 3,2) 0 : : : d ( n,1) d ( n,2) ... ... 0d(i,j)làkhoảngcáchgiữađốitượngivàj;thểhiệnsựkhácbiệtgiữađốitượngivàj;đượctínhtuỳthuộcvàokiểucủacácbiến/thuộctính. 195.1.Tổngquanvềgomcụmdữliệu Vấnđềkiểudữliệu/đốitượngđượcgomcụmd(i,j)làkhoảngcáchgiữađốitượngivàj;thểhiệnsựkhácbiệtgiữađốitượngivàj;đượctínhtuỳthuộcvàokiểucủacácbiến/thuộctính. d(i,j) 0 d(i,i)=0 d(i,j)=d(j,i) d(i,j) d(i,k)+d(k,j) 20 ...

Tài liệu được xem nhiều: