Áp dụng kỹ thuật phân cụm dữ liệu mờ trong khai phá dữ liệu Web
Số trang: 14
Loại file: pdf
Dung lượng: 837.51 KB
Lượt xem: 22
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết này trình bày tổng quan về khai phá dữ liệu Web, các hướng tiếp cận phân cụm tài liệu Web. Qua đó, bài viết giới thiệu mô hình tiếp cận phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ và trình bày cụ thể quá trình tìm kiếm và phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ với thuật toán Fuzzy C-Means.
Nội dung trích xuất từ tài liệu:
Áp dụng kỹ thuật phân cụm dữ liệu mờ trong khai phá dữ liệu Web ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ<br /> TRONG KHAI PHÁ DỮ LIỆU WEB<br /> Đỗ Quang Khôi1<br /> Tóm tắt: World Wide Web là một kho dữ liệu khổng lồ, vì vậy việc khai phá Web<br /> để khám phá ra những thông tin, tri thức hữu ích mang một ý nghĩa hết sức quan trọng.<br /> Với mục đích đó, bài báo này trình bày tổng quan về khai phá dữ liệu Web, các hướng<br /> tiếp cận phân cụm tài liệu Web. Qua đó, bài báo giới thiệu mô hình tiếp cận phân cụm<br /> tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ và trình bày cụ thể quá trình tìm kiếm<br /> và phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ với thuật toán Fuzzy<br /> C-Means.<br /> 1. Giới thiệu<br /> Các phương pháp phân tích dữ liệu truyền thống (dữ liệu rõ) tập trung phân tích<br /> một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu<br /> chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám phá ra các<br /> cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được xác định tốt. Tuy<br /> nhiên, trong thực tế, đường biên giữa các cụm có thể mờ, các cụm có thể chồng lên<br /> nhau, nghĩa là một số các đối tượng dữ liệu thuộc về nhiều cụm khác nhau. Do đó, các<br /> phương pháp phân cụm truyền thống không mô tả được dữ liệu thực. Vì vậy, người ta<br /> đã áp dụng lý thuyết tập mờ trong phân cụm dữ liệu (PCDL) để giải quyết cho trường<br /> hợp này. Cách thức kết hợp này được gọi là PCDL mờ (gọi tắt là phân cụm mờ).<br /> Hơn nữa, World Wide Web (WWW) là một kho thông tin khổng lồ với tiềm năng<br /> được coi là không có giới hạn. Để đáp ứng phần nào nhu cầu tìm kiếm và sử dụng<br /> nguồn tri thức này, người ta đã xây dựng các công cụ tìm kiếm và xử lý thông tin bằng<br /> cách áp dụng các kỹ thuật khai phá dữ liệu (KPDL) trong khai phá tài nguyên Web.<br /> Trong đó, PCDL Web là một bài toán điển hình trong khai phá tài nguyên Web.<br /> Hiện tại đã có một số thuật toán PCDL được sử dụng trong phân cụm tài liệu như<br /> các thuật toán phân cụm phân hoạch, các thuật toán phân cụm phân cấp,… Tuy nhiên,<br /> trong thực tế nội dung của một trang Web có thể thuộc vào nhiều nhóm chủ đề khác<br /> nhau. Vì vậy, phân cụm theo nội dung trang Web với hướng tiếp cận truyền thống tỏ ra<br /> còn nhiều hạn chế. Để giải quyết vấn đề này, một hướng đi mới đó là nghiên cứu và áp<br /> dụng các kỹ thuật PCDL theo cách tiếp cận mờ trong KPDL Web.<br /> Bài báo này xem xét khía cạnh sử dụng kỹ thuật phân cụm dữ liệu mờ trong<br /> KPDL Web và được thực nghiệm bằng chương trình ứng dụng thực hiện tìm kiếm trên<br /> Web và sau đó phân cụm kết quả tìm kiếm này bằng hai kỹ thuật phân cụm: phân cụm<br /> rõ với thuật toán k-means và phân cụm mờ với thuật toán Fuzzy C-Means (FCM).<br /> <br /> 1<br /> <br /> ThS, Trung tâm Học liệu, trường Đại học Quảng Nam<br /> <br /> ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ …<br /> 2. Tổng quan về khai phá dữ liệu Web<br /> Với sự phát triển nhanh chóng của Internet, các thông tin trên WWW đã trở thành<br /> một kho dữ liệu khổng lồ trong hầu hết các lĩnh vực kinh tế, xã hội, chính trị, giáo dục,<br /> khoa học,... WWW chứa một bộ sưu tập các thông tin phong phú và đa dạng về nội<br /> dung trang web với cấu trúc siêu văn bản và đa phương tiện, thông tin siêu liên kết, truy<br /> cập và sử dụng thông tin, cung cấp một nguồn dữ liệu đồ sộ cho KPDL.<br /> <br /> Hình 1. Phân loại KPDL Web.<br /> Có nhiều khái niệm khác nhau về KPDL Web. Tuy nhiên, theo [6], [8], ta có khái<br /> niệm tổng quát nhất như sau: KPDL Web là việc sử dụng các kỹ thuật KPDL để khám<br /> phá ra những thông tin, tri thức hữu ích từ các cấu trúc siêu liên kết, nội dung trang web<br /> và dữ liệu sử dụng. Dựa trên các kiểu dữ liệu chính được sử dụng trong quá trình khai<br /> phá, KPDL Web có thể được phân thành ba loại: khai phá nội dung, khai phá cấu trúc và<br /> khai phá theo sử dụng [8].<br /> • Khai phá nội dung Web:<br /> Khai phá nội dung Web nhằm trích lọc hoặc khai thác những thông tin hữu ích, tri<br /> thức từ nội dung trang. Khai phá nội dung Web có thể được phân biệt bởi hai cách tiếp<br /> cận: tiếp cận dựa trên hành động và tiếp cận dựa trên CSDL. Cách tiếp cận thứ nhất nhằm<br /> mục đích cải thiện việc tìm kiếm và trích lọc thông tin. Cách tiếp cận thứ hai nhằm mục<br /> đích mô hình hóa dữ liệu trên Web thành dạng có cấu trúc hơn để áp dụng vào truy vấn<br /> CSDL và các ứng dụng KPDL.<br /> • Khai phá cấu trúc Web:<br /> Khai phá cấu trúc Web nhằm phát hiện ra tri thức hữu ích từ các siêu liên kết, các<br /> siêu liên kết này chính là đặc trưng cho cấu trúc Web. Ví dụ, từ các liên kết, chúng ta có<br /> thể khám phá các trang web quan trọng, và chúng cũng chính là một kỹ thuật quan trọng<br /> được sử dụng trong các máy tìm kiếm. KPDL truyền thống không thực hiện được như<br /> vậy bởi vì nó thường là không có cấu trúc liên kết trong một bảng quan hệ.<br /> 51<br /> <br /> ĐỖ QUANG KHÔI<br /> • Khai phá theo sử dụng Web:<br /> Khai phá theo sử dụng Web đề cập đến sự khám phá các mẫu truy cập của người<br /> dùng từ các bản ghi sử dụng Web (Web log records). Phân tích quá trình đăng nhập<br /> Web của người dùng cũng có thể giúp cho việc xây dựng các dịch vụ Web theo yêu cầu<br /> đối với từng người dùng riêng lẻ được tốt hơn. Một trong những vấn đề quan trọng<br /> trong khai phá theo sử dụng Web là tiền xử lý luồng dữ liệu nhấp chuột trong các bản<br /> ghi sử dụng nhằm đem lại dữ liệu đúng đắn đ ...
Nội dung trích xuất từ tài liệu:
Áp dụng kỹ thuật phân cụm dữ liệu mờ trong khai phá dữ liệu Web ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ<br /> TRONG KHAI PHÁ DỮ LIỆU WEB<br /> Đỗ Quang Khôi1<br /> Tóm tắt: World Wide Web là một kho dữ liệu khổng lồ, vì vậy việc khai phá Web<br /> để khám phá ra những thông tin, tri thức hữu ích mang một ý nghĩa hết sức quan trọng.<br /> Với mục đích đó, bài báo này trình bày tổng quan về khai phá dữ liệu Web, các hướng<br /> tiếp cận phân cụm tài liệu Web. Qua đó, bài báo giới thiệu mô hình tiếp cận phân cụm<br /> tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ và trình bày cụ thể quá trình tìm kiếm<br /> và phân cụm tài liệu Web bằng kỹ thuật phân cụm dữ liệu mờ với thuật toán Fuzzy<br /> C-Means.<br /> 1. Giới thiệu<br /> Các phương pháp phân tích dữ liệu truyền thống (dữ liệu rõ) tập trung phân tích<br /> một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu<br /> chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám phá ra các<br /> cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được xác định tốt. Tuy<br /> nhiên, trong thực tế, đường biên giữa các cụm có thể mờ, các cụm có thể chồng lên<br /> nhau, nghĩa là một số các đối tượng dữ liệu thuộc về nhiều cụm khác nhau. Do đó, các<br /> phương pháp phân cụm truyền thống không mô tả được dữ liệu thực. Vì vậy, người ta<br /> đã áp dụng lý thuyết tập mờ trong phân cụm dữ liệu (PCDL) để giải quyết cho trường<br /> hợp này. Cách thức kết hợp này được gọi là PCDL mờ (gọi tắt là phân cụm mờ).<br /> Hơn nữa, World Wide Web (WWW) là một kho thông tin khổng lồ với tiềm năng<br /> được coi là không có giới hạn. Để đáp ứng phần nào nhu cầu tìm kiếm và sử dụng<br /> nguồn tri thức này, người ta đã xây dựng các công cụ tìm kiếm và xử lý thông tin bằng<br /> cách áp dụng các kỹ thuật khai phá dữ liệu (KPDL) trong khai phá tài nguyên Web.<br /> Trong đó, PCDL Web là một bài toán điển hình trong khai phá tài nguyên Web.<br /> Hiện tại đã có một số thuật toán PCDL được sử dụng trong phân cụm tài liệu như<br /> các thuật toán phân cụm phân hoạch, các thuật toán phân cụm phân cấp,… Tuy nhiên,<br /> trong thực tế nội dung của một trang Web có thể thuộc vào nhiều nhóm chủ đề khác<br /> nhau. Vì vậy, phân cụm theo nội dung trang Web với hướng tiếp cận truyền thống tỏ ra<br /> còn nhiều hạn chế. Để giải quyết vấn đề này, một hướng đi mới đó là nghiên cứu và áp<br /> dụng các kỹ thuật PCDL theo cách tiếp cận mờ trong KPDL Web.<br /> Bài báo này xem xét khía cạnh sử dụng kỹ thuật phân cụm dữ liệu mờ trong<br /> KPDL Web và được thực nghiệm bằng chương trình ứng dụng thực hiện tìm kiếm trên<br /> Web và sau đó phân cụm kết quả tìm kiếm này bằng hai kỹ thuật phân cụm: phân cụm<br /> rõ với thuật toán k-means và phân cụm mờ với thuật toán Fuzzy C-Means (FCM).<br /> <br /> 1<br /> <br /> ThS, Trung tâm Học liệu, trường Đại học Quảng Nam<br /> <br /> ÁP DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ TRONG KHAI PHÁ …<br /> 2. Tổng quan về khai phá dữ liệu Web<br /> Với sự phát triển nhanh chóng của Internet, các thông tin trên WWW đã trở thành<br /> một kho dữ liệu khổng lồ trong hầu hết các lĩnh vực kinh tế, xã hội, chính trị, giáo dục,<br /> khoa học,... WWW chứa một bộ sưu tập các thông tin phong phú và đa dạng về nội<br /> dung trang web với cấu trúc siêu văn bản và đa phương tiện, thông tin siêu liên kết, truy<br /> cập và sử dụng thông tin, cung cấp một nguồn dữ liệu đồ sộ cho KPDL.<br /> <br /> Hình 1. Phân loại KPDL Web.<br /> Có nhiều khái niệm khác nhau về KPDL Web. Tuy nhiên, theo [6], [8], ta có khái<br /> niệm tổng quát nhất như sau: KPDL Web là việc sử dụng các kỹ thuật KPDL để khám<br /> phá ra những thông tin, tri thức hữu ích từ các cấu trúc siêu liên kết, nội dung trang web<br /> và dữ liệu sử dụng. Dựa trên các kiểu dữ liệu chính được sử dụng trong quá trình khai<br /> phá, KPDL Web có thể được phân thành ba loại: khai phá nội dung, khai phá cấu trúc và<br /> khai phá theo sử dụng [8].<br /> • Khai phá nội dung Web:<br /> Khai phá nội dung Web nhằm trích lọc hoặc khai thác những thông tin hữu ích, tri<br /> thức từ nội dung trang. Khai phá nội dung Web có thể được phân biệt bởi hai cách tiếp<br /> cận: tiếp cận dựa trên hành động và tiếp cận dựa trên CSDL. Cách tiếp cận thứ nhất nhằm<br /> mục đích cải thiện việc tìm kiếm và trích lọc thông tin. Cách tiếp cận thứ hai nhằm mục<br /> đích mô hình hóa dữ liệu trên Web thành dạng có cấu trúc hơn để áp dụng vào truy vấn<br /> CSDL và các ứng dụng KPDL.<br /> • Khai phá cấu trúc Web:<br /> Khai phá cấu trúc Web nhằm phát hiện ra tri thức hữu ích từ các siêu liên kết, các<br /> siêu liên kết này chính là đặc trưng cho cấu trúc Web. Ví dụ, từ các liên kết, chúng ta có<br /> thể khám phá các trang web quan trọng, và chúng cũng chính là một kỹ thuật quan trọng<br /> được sử dụng trong các máy tìm kiếm. KPDL truyền thống không thực hiện được như<br /> vậy bởi vì nó thường là không có cấu trúc liên kết trong một bảng quan hệ.<br /> 51<br /> <br /> ĐỖ QUANG KHÔI<br /> • Khai phá theo sử dụng Web:<br /> Khai phá theo sử dụng Web đề cập đến sự khám phá các mẫu truy cập của người<br /> dùng từ các bản ghi sử dụng Web (Web log records). Phân tích quá trình đăng nhập<br /> Web của người dùng cũng có thể giúp cho việc xây dựng các dịch vụ Web theo yêu cầu<br /> đối với từng người dùng riêng lẻ được tốt hơn. Một trong những vấn đề quan trọng<br /> trong khai phá theo sử dụng Web là tiền xử lý luồng dữ liệu nhấp chuột trong các bản<br /> ghi sử dụng nhằm đem lại dữ liệu đúng đắn đ ...
Tìm kiếm theo từ khóa liên quan:
Kỹ thuật phân cụm dữ liệu mờ Khai phá dữ liệu Web Phân cụm tài liệu Web Thuật toán Fuzzy C-Means Khai phá cấu trúc Web Mô hình biểu diễn tài liệu WebTài liệu liên quan:
-
69 trang 192 0 0
-
Bài giảng Khai phá dữ liệu web: Giới thiệu môn học
13 trang 39 0 0 -
Khai phá dữ liệu web nhằm tối ưu hóa kênh phân phối trên internet
5 trang 28 0 0 -
26 trang 26 0 0
-
Đánh cắp máy ảo và dữ liệu máy ảo
3 trang 25 0 0 -
45 trang 20 0 0
-
Luận văn: NGHIÊN CỨU KHAI PHÁ DỮ LIỆU WEB VÀ ỨNG DỤNG TÌM KIẾM TRÍCH CHỌN THÔNG TIN THEO CHỦ ĐỀ
26 trang 20 0 0 -
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 6. Tìm kiếm web
110 trang 20 0 0 -
Bài giảng Khai phá dữ liệu web (PGS.TS. Hà Quang Thụy) - Chương 3 & 4
43 trang 19 0 0 -
Chương trình giáo dục đại học ngành Khoa học dữ liệu và phân tích kinh doanh – ĐH Đà Nẵng
9 trang 19 0 0