Bài giảng Xây dựng hệ: Khai mỏ dữ liệu - Phan Hiền
Số trang: 13
Loại file: pdf
Dung lượng: 556.47 KB
Lượt xem: 16
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Khai mỏ dữ liệu là một phương pháp rút trích, truy dữ liệu để lấy được thông tin mới (tiềm ẩn) hữu ích; là phần quan trọng trong hệ thống khám phá tri thức. Và để hiểu rõ hơn về điều này mời các bạn tham khảo bài giảng Xây dựng hệ: Khai mỏ dữ liệu do Phan Hiền biên soạn sau đây.
Nội dung trích xuất từ tài liệu:
Bài giảng Xây dựng hệ: Khai mỏ dữ liệu - Phan Hiền XÂY DỰNG HỆ KHAI MỎ DỮ LIỆU Phan Hiền KHÁI QUÁT Khai mỏ dữ liệu (DataMining - DM) là một phương pháp rút trích, truy dữ liệu để lấy được thông tin mới (tiềm ẩn) hữu ích. DM là phần quan trọng trong hệ thống khám phá tri thức (Knowledge discovery - KD). Đóng góp cho DSS. Đóng góp lớn trong hệ thống quản lý tri thức (Knowledge management system- KMS) KHÁI QUÁT DM thường được chia theo 3 loại ◦ Khai mỏ dựa trên phương pháp thống kê (Statistical Methods) Hàm hồi quy, mô hình dự báo, mạng bayes, suy diễn mờ,… ◦ Khai mỏ dựa trên phương pháp máy học (Machine Learning Technologies) Phân lớp, cụm, học, cây quyết định, mạng trí tuệ,… ◦ Khai mỏ dựa trên phương pháp dữ liệu (Database Technologies) Luật kết hợp KHAI MỎ Mục đích tìm ra tri thức mới. Tri thức được mô tả đơn giản như luật “nếu … thì …..” Để có thể nhận định và rút ra các luật như vậy Tập trung nhiều vào việc ◦ Phân lớp (classifying) : Cây quyết định,Rought Set (thêm độ đo tương tự nghĩa)… ◦ Tiên đoán : Hồi quy, khử nhiễu,mô hình mờ,… ◦ Xác định luật : Luật kết hợp trong dữ liệu,… PHÂN LỚP & PHÂN CỤM Phân lớp thường được hiểu như cơ chế học có giám sát. Ta cho một tập các dữ liệu huấn luyện mà ở đó đã có sự hỗ trợ phân nhóm, vấn đề là xác định nếu dữ liệu mới vào sẽ thuộc nhóm nào ? Phân cụm thường được hiểu là cơ chế học không có giám sát. ◦ Không có sự hỗ trợ phân nhóm qua dữ liệu huấn luyện đoán số nhóm, tự xác định nhóm. QUÁ TRÌNH KHAI MỎ Tiền xử lý dữ liệu ◦ Thu thập dữ liệu ◦ Làm sạch dữ liệu ◦ Chuyển thể ◦ Tinh giảm dữ liệu Khai mỏ dữ liệu Thể hiện lưu trử tri thức Làm sạch Thay đổi các giá trị rổng Bổ sung các giá trị thiếu Xử lý dữ liệu cùng ý nghĩa nhưng khác tên (hay sai biệt chút về kiểu dữ liệu) Gắn kết các dữ liệu gần với nhau Phân chia nhóm theo giá trị, theo viền 2,3,4,7,12,14,23,25 -> {2,3,4,7} {12,14} {23,25} -> {2,4,12,14} {3,7,23,25} Làm sạch Tất cả để giúp cho dữ liệu có thể sẳn sàng phục vụ cho việc khai mỏ dữ liệu được nhanh chóng, giúp cho việc cập nhập lại kho dữ liệu nhanh hơn. Chuyển thể Làm gọn giá trị, chuyển dạng dữ liệu Ví dụ ◦ Tập {Gao, Duong, Muoi} có thể {G,D,M} ◦ Tập {4,5,10,15} và miền giá trị phần tử thuộc [0,20], có thể chuyển thành {0.2, 0.25,0.1,0.75} V Min ◦ Hay dùng V cu *cu ( Max Min ) Min Max Min moi moi moi moi cu cu ◦ ……. Tùy theo phương pháp khai mỏ dữ liệu lựa chọn Tinh giảm dữ liệu Lựa chọn thuộc tính (giảm chiều) ◦ Cần thiết cho khai mỏ theo 1 mục đích Phân nhóm ◦ Dùng phân đoạn giá trị liên tục ◦ Dùng số mờ để phân đoạn ngữ nghĩa Giảm số thể hiện dữ liệu, trợ giúp cho tính toán nhanh (Sampling) ◦ Cho tập các hóa đơn sản phẩm {1,A} {2,A} {3,B} {4,B} {5,B} {6,B} {7,B} {8,B} {9,C} {10,C} {11,C} {12,C} {1,A} {4,B} {6,B} {7,B} {10,C} {12,C} PHƯƠNG PHÁP KHAI MỎ Phương pháp dựa trên các mẫu dữ liệu xuất hiện thường xuyên và tạo luật ◦ Luật kết hợp dựa trên sự lặp lại ◦ Khai thác các sự kết hợp từ luật ràng buộc ◦ ….. Phương pháp dựa trên sự phân lớp và tạo luật ◦ Cây quyết định, Mạng Bayes ◦ Support vector machine (svm) ◦ ….. LƯU TRỬ TRI THỨC Tri thức thường được lưu dưới dạng các luật. Được lưu kèm với mức độ tin tưởng. Lượng hóa (số hóa) tri thức để giúp ích cho việc suy diễn trong mô hình hỗ trợ ra quyết định. Có tồn tại sự mâu thuẩn giữa các luật với nhau không ???? Có tồn tại các quy luật hiếm hay không ??? VẤN ĐỀ QUAN TÂM Ý nghĩa trong việc lựa chọn dữ liệu và thuộc tính cho khai mỏ. Sau khi tiến hành khai mỏ dữ liệu ◦ Dữ liệu thêm vào có ý nghĩa gì ??? ◦ Sự cập nhập mới tiến hành thế nào ??? Quan tâm đến tốc độ khai mỏ dữ liệu ◦ Dữ liệu thì lớn ◦ Khả năng xử lý của 1 máy có hạn ◦ Giải pháp xử lý phân tán, song song.
Nội dung trích xuất từ tài liệu:
Bài giảng Xây dựng hệ: Khai mỏ dữ liệu - Phan Hiền XÂY DỰNG HỆ KHAI MỎ DỮ LIỆU Phan Hiền KHÁI QUÁT Khai mỏ dữ liệu (DataMining - DM) là một phương pháp rút trích, truy dữ liệu để lấy được thông tin mới (tiềm ẩn) hữu ích. DM là phần quan trọng trong hệ thống khám phá tri thức (Knowledge discovery - KD). Đóng góp cho DSS. Đóng góp lớn trong hệ thống quản lý tri thức (Knowledge management system- KMS) KHÁI QUÁT DM thường được chia theo 3 loại ◦ Khai mỏ dựa trên phương pháp thống kê (Statistical Methods) Hàm hồi quy, mô hình dự báo, mạng bayes, suy diễn mờ,… ◦ Khai mỏ dựa trên phương pháp máy học (Machine Learning Technologies) Phân lớp, cụm, học, cây quyết định, mạng trí tuệ,… ◦ Khai mỏ dựa trên phương pháp dữ liệu (Database Technologies) Luật kết hợp KHAI MỎ Mục đích tìm ra tri thức mới. Tri thức được mô tả đơn giản như luật “nếu … thì …..” Để có thể nhận định và rút ra các luật như vậy Tập trung nhiều vào việc ◦ Phân lớp (classifying) : Cây quyết định,Rought Set (thêm độ đo tương tự nghĩa)… ◦ Tiên đoán : Hồi quy, khử nhiễu,mô hình mờ,… ◦ Xác định luật : Luật kết hợp trong dữ liệu,… PHÂN LỚP & PHÂN CỤM Phân lớp thường được hiểu như cơ chế học có giám sát. Ta cho một tập các dữ liệu huấn luyện mà ở đó đã có sự hỗ trợ phân nhóm, vấn đề là xác định nếu dữ liệu mới vào sẽ thuộc nhóm nào ? Phân cụm thường được hiểu là cơ chế học không có giám sát. ◦ Không có sự hỗ trợ phân nhóm qua dữ liệu huấn luyện đoán số nhóm, tự xác định nhóm. QUÁ TRÌNH KHAI MỎ Tiền xử lý dữ liệu ◦ Thu thập dữ liệu ◦ Làm sạch dữ liệu ◦ Chuyển thể ◦ Tinh giảm dữ liệu Khai mỏ dữ liệu Thể hiện lưu trử tri thức Làm sạch Thay đổi các giá trị rổng Bổ sung các giá trị thiếu Xử lý dữ liệu cùng ý nghĩa nhưng khác tên (hay sai biệt chút về kiểu dữ liệu) Gắn kết các dữ liệu gần với nhau Phân chia nhóm theo giá trị, theo viền 2,3,4,7,12,14,23,25 -> {2,3,4,7} {12,14} {23,25} -> {2,4,12,14} {3,7,23,25} Làm sạch Tất cả để giúp cho dữ liệu có thể sẳn sàng phục vụ cho việc khai mỏ dữ liệu được nhanh chóng, giúp cho việc cập nhập lại kho dữ liệu nhanh hơn. Chuyển thể Làm gọn giá trị, chuyển dạng dữ liệu Ví dụ ◦ Tập {Gao, Duong, Muoi} có thể {G,D,M} ◦ Tập {4,5,10,15} và miền giá trị phần tử thuộc [0,20], có thể chuyển thành {0.2, 0.25,0.1,0.75} V Min ◦ Hay dùng V cu *cu ( Max Min ) Min Max Min moi moi moi moi cu cu ◦ ……. Tùy theo phương pháp khai mỏ dữ liệu lựa chọn Tinh giảm dữ liệu Lựa chọn thuộc tính (giảm chiều) ◦ Cần thiết cho khai mỏ theo 1 mục đích Phân nhóm ◦ Dùng phân đoạn giá trị liên tục ◦ Dùng số mờ để phân đoạn ngữ nghĩa Giảm số thể hiện dữ liệu, trợ giúp cho tính toán nhanh (Sampling) ◦ Cho tập các hóa đơn sản phẩm {1,A} {2,A} {3,B} {4,B} {5,B} {6,B} {7,B} {8,B} {9,C} {10,C} {11,C} {12,C} {1,A} {4,B} {6,B} {7,B} {10,C} {12,C} PHƯƠNG PHÁP KHAI MỎ Phương pháp dựa trên các mẫu dữ liệu xuất hiện thường xuyên và tạo luật ◦ Luật kết hợp dựa trên sự lặp lại ◦ Khai thác các sự kết hợp từ luật ràng buộc ◦ ….. Phương pháp dựa trên sự phân lớp và tạo luật ◦ Cây quyết định, Mạng Bayes ◦ Support vector machine (svm) ◦ ….. LƯU TRỬ TRI THỨC Tri thức thường được lưu dưới dạng các luật. Được lưu kèm với mức độ tin tưởng. Lượng hóa (số hóa) tri thức để giúp ích cho việc suy diễn trong mô hình hỗ trợ ra quyết định. Có tồn tại sự mâu thuẩn giữa các luật với nhau không ???? Có tồn tại các quy luật hiếm hay không ??? VẤN ĐỀ QUAN TÂM Ý nghĩa trong việc lựa chọn dữ liệu và thuộc tính cho khai mỏ. Sau khi tiến hành khai mỏ dữ liệu ◦ Dữ liệu thêm vào có ý nghĩa gì ??? ◦ Sự cập nhập mới tiến hành thế nào ??? Quan tâm đến tốc độ khai mỏ dữ liệu ◦ Dữ liệu thì lớn ◦ Khả năng xử lý của 1 máy có hạn ◦ Giải pháp xử lý phân tán, song song.
Tìm kiếm theo từ khóa liên quan:
Khai mỏ dữ liệu Bài giảng Khai mỏ dữ liệu Xây dựng hệ Quá trình khai mỏ Tinh giảm dữ liệu Phương pháp khai mỏGợi ý tài liệu liên quan:
-
Luận văn tốt nghiệp: Khai mỏ dữ liệu và khám phá tri thức - ĐH Tây Đô
104 trang 23 0 0 -
Bài giảng Khai mở dữ liệu: Phương pháp học cây quyết định (Decision Tree)
39 trang 19 0 0 -
Bài giảng Khai mở dữ liệu: Giải thuật gom cụm (Clustering algorithms)
43 trang 19 0 0 -
Bài giảng Khai mở dữ liệu: Máy học véctơ hỗ trợ (Support vector machines)
54 trang 19 0 0 -
Bài giảng Khai mở dữ liệu: Phương pháp học Bayes (Bayesian claification)
23 trang 17 0 0 -
Bài giảng Khai mở dữ liệu: Phương pháp k láng giềng (K nearest neighbors)
17 trang 16 0 0 -
77 trang 15 0 0
-
Bài giảng Xây dựng hệ: Biểu diễn và suy luận - Phan Hiền
39 trang 15 0 0 -
Công nghệ tri thức và ứng dụng (GS.TSKH. Hoàng Kiếm) - Chương 7. Khai mỏ dữ liệu
20 trang 14 0 0 -
Bài giảng Khai mở dữ liệu: Phương pháp tập hợp mô hình (Ensemble-based methods)
21 trang 13 0 0