Thông tin tài liệu:
Thuật toán DBSCAN do Martin Ester và các tác giả khác đề xuất là thuật toán gom tụm dựa trên mật độ, hiệu quả với cơ sở dữ liệu lớn, có khả năng xử lý nhiễu. Ý tưởng chính của thuật toán là vùng lân cận mỗi đối tượng trong một cụm có số đối tượng lớn hơn ngưỡng tối thiểu. Hình dạng vùng lân cận phụ thuộc vào hàm khoảng cách giữa các đối tượng (nếu sử dụng khoảng cách Manhattan trong không gian......
Nội dung trích xuất từ tài liệu:
THUẬT TOÁN DBSCANNguyễn Hoài Phương –CH0403014- Email: phuongnh@dsp.com.vn THUẬT TOÁN DBSCAN (Nguồn: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise Martin Ester, Hans-Peter Kriegel, Jörg Sander, Xiaowei Xu Institute for Computer Science, University of Munich Oettingenstr. 67, D-80538 München, Germany {ester | kriegel | sander | xwxu}@informatik.uni-muenchen.de) Thuật toán DBSCAN ((Density Based Spatial Clustering of Applications with Noise)do Martin Ester và các tác giả khác đề xuất là thuật toán gom tụm dựa trên mật độ, hiệuquả với cơ sở dữ liệu lớn, có khả năng xử lý nhiễu. Ý tưởng chính của thuật toán là vùng lân cận mỗi đối tượng trong một cụm có số đốitượng lớn hơn ngưỡng tối thiểu. Hình dạng vùng lân cận phụ thuộc vào hàm khoảng cáchgiữa các đối tượng (nếu sử dụng khoảng cách Manhattan trong không gian 2 chiều thìvùng lân cận có hình chữ nhật, nếu sử dụng khoảng cách Eucler trong không gian 2 chiềuthì vùng lân cận có hình tròn). Các đối tượng trong mỗi cụm được phân làm 2 loại: đối tượng bên trong cụm (corepoint: đối tượng lõi) và đối tượng nằm trên đường biên của cụm (border point: đối tượngbiên). Hình 1. Đối tượng biên và đối tuợng lõiI. Định nghĩa Định nghĩa 1 Vùng lân cận Eps của đối tượng p, ký hiệu NEps(p) là tập hợp các đối tượng q sao cho khoảng cách giữa p và q dist(p,q) nhỏ hơn Eps.NEps(p) = {q∈D | dist(p,q) ≤ Eps}. Tính chất: - Nói chung vùng lân cận của đối tượng biên có số đối tượng ít hơn đáng kể so hơn đối tượng biên Định nghĩa 2 Đối tượng p tới được trực tiếp theo mật độ (directly density-reachable) thỏa Eps, MinPts từ đối tượng q nếu p∈NEps(q) và |NEps(q)| ≥ MinPts.Data Minning –DBSCAN Trang 1/7Nguyễn Hoài Phương –CH0403014- Email: phuongnh@dsp.com.vn Tính chất: - Nếu p, q đều là core point quan hệ directly density-reachable là đối xứng nghĩa là p tới được trực tiếp theo mật độ từ q và ngược lại. - Nếu trong p, q có một đối tượng lõi (core point), một đối tượng biên như hình dưới thì chỉ đối tượng biên có tới được trực tiếp theo mật độ từ đối tượng lõi mà không có chiều ngược lại (bất đối xứng). Hình 2. Quan hệ tới được trực tiếp theo mật độ Định nghĩa 3 Đối tượng p tới được theo mật độ (density-reachable) thỏa Eps, MinPts từ đối tượng q nếu tồn tại một dãy p1, p2, ..., pn (p1 =q, pn= p) sao cho pi+1 tới được theo mật độ trực tiếp từ pi. Tính chất: - Quan hệ density-reachable là sự mở rộng của directly density-reachable. - Quan hệ density-reachable có tính bắt cầu - Nếu p, q đều là đối tượng lõi (core point) thì quan hệ density-reachable là đối xứng nghĩa là p tới được theo mật độ từ q và ngược lại. - Nếu p, q đều là đối tượng biên (border point) thì p không tới được theo mật độ từ q và ngược lại. - Nếu trong p, q có một đối tượng lõi (core point), một đối tượng biên như hình dưới thì chỉ đối tượng biên có tới được theo mật độ từ đối tượng lõi mà không có chiều ngược lại (bất đối xứng). Hình 3 Quan hệ tới được theo mật độData Minning –DBSCAN Trang 2/7Nguyễn Hoài Phương –CH0403014- Email: phuongnh@dsp.com.vn Định nghĩa 4 Đối tượng p kết nối theo mật độ (density-connected) thỏa Eps, MinPts với đối tượng q tồn tại đối tượng o sao cho cả p và q đều tới được theo mật độ từ o. Tính chất: - Đối với các đối tượng tới được theo mật độ với đối tượng khác, quan hệ density-connected có tính phản xạ - Quan hệ density-connected có tính đối xứng. Hình 4 Quan hệ kết nối theo mật độ Định nghĩa 5 Cho cơ sở dữ liệu D, cụm C thỏa Eps và MinPts là tập con khác rỗng của D thỏa 2 điều kiện sau: 1) ∀p,q: nếu p ∈C và q liên hệ theo mật độ từ p thỏa Eps và MinPts thì q∈C. 2) ∀p,q∈C: p kết nối theo mật độ với p thỏa Eps và MinPts. Cụm C thỏa định nghĩa trên sẽ có ít nhất MinPts đối tượng vì lý do sau: C phải có ít nhất một đối tượng p (C khác rỗng), p phải liên hệ mật độ với bản thân nó thông qua một đối tượng o (điều kiện 2 của định nghĩa 5). Vì vậy, o là đối tượng lõi và vùng lân cận Eps của o có ít nhất MinPts đối tượng (do p có liên hệ mật độ từ o). Định nghĩa 6 Cho các cụm C1 ,. . ., Ck của cơ sở dữ liệu D với các tham số Epsi and MinPtsi, (i = 1, . . ., k). Tập nhiễu là tập các đối tượng thuộc D nhưng không thuộc bất kỳ cụm Ci nào. noise = {p∈D | ∀i: p ∉ Ci}.II. Bổ đề Bổ đề 1 Cho p là một đối tượng trong D và |NEps(p)| ≥ MinPts. Tập O = {o | o∈D và o tới được theo mật độ từ p thỏa Eps and MinPts} là một cụm thỏa Eps and MinPts. Bổ đề 2 Gọi C là một cụm thỏa Eps và MinPts, p là một đối tượng thuộc C sao cho | NEps(p)| ≥ MinPts. Khi đó tập C tương đương với tập O = {o | o tới được theo mật độ từ p thỏa Eps and MinPts}.Data Minning –DBSCAN Trang 3/7Nguyễn Hoài Phương –CH0403014- Email: phuongnh@dsp.com.vnIII. Thuật toán Thuật toán DBSCAN (Density Based Spatial Clustering of Applications with Noise) là thuật toán gom tụm các đối tượng trong cơ sở dữ liệu không gian thỏa mãn định nghĩa 5 và 6. Ứng với thông số Eps, MinPts cho trước, DBSCAN xác định một cụm thông qua 2 bước: 1) chọn đối tượng bất kỳ thỏa mãn điều kiện đối tượng lõi làm đối tuợng hạt giống; 2) tìm các đ ...