Tóm tắt luận văn Thạc sĩ: Phân cụm người sử dụng Web dựa trên mẫu truy cập
Số trang: 25
Loại file: pdf
Dung lượng: 791.67 KB
Lượt xem: 8
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài luận văn được chia thành 3 chương chính như sau: Chương 1 Tổng quan về khai phá Web, chương 2 Phân cụm người sử dụng Web dựa trên mẫu truy cập, chương 3 Cài đặt và thử nghiệm.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ: Phân cụm người sử dụng Web dựa trên mẫu truy cập HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------------- HOÀNG VŨ PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP Chuyên ngành: Khoa học máy tính Mã số: 60.48.01Người hướng dẫn khoa học: PGS. TS Trần Đình Quế TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2012 -1- MỞ ĐẦU Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu đểkhám phá và trích rút những thông tin hữu ích từ các tài liệu, cácdịch vụ và cấu trúc Web. Nói cách khác, khai phá Web là việc thămdò những thông tin quan trọng và những mẫu tiềm năng từ nội dungWeb, từ thông tin truy cập Web, từ liên kết trang,… bằng việc sửdụng các kỹ thuật khai phá dữ liệu, nó có thể giúp con người rút ranhững tri thức, cải tiến việc thiết kế các Web site và phát triểnthương mại điện tử tốt hơn[12]. Khai phá Web được phân loại thành 3 lĩnh vực chính [12]: Khaiphá nội dung Web (Web Content Mining); Khai phá cấu trúc Web(Web Structure Mining); Khai phá sử dụng Web (Web UsageMining). Khai phá sử dụng Web là một trong những lĩnh vực nghiên cứuchính trong khai phá Web tập trung vào việc xem xét người sử dụngWeb và tương tác của họ với các trang Web. Động lực của khai phásử dụng Web là tìm những mô hình truy cập của người sử dụng từkhối lượng lớn dữ liệu đăng nhập Web, chẳng hạn như: đường dẫntruy cập thường xuyên, tần xuất truy cập nhóm trang và phân nhómngười dùng. Thông qua khai phá sử dụng Web, thông tin đăng nhậpmáy chủ, đăng ký thông tin và thông tin liên quan khác của người -2-truy cập sẽ cung cấp nền tảng cho việc ra quyết định đối với việc tổchức không gian Web, tối ưu Web site [9][11]. Phân cụm người sử dụng Web là việc tạo các nhóm người sửdụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức choviệc cá nhân hóa các dịch vụ Web [10]. Việc nghiên cứu các mô hình phân cụm và áp dụng các phươngpháp phân cụm người dùng Web trong khai phá sử dụng Web là mộtxu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn. Luận văn tập trung nghiên cứu về ứng dụng của kỹ thuật phâncụm người sử dụng Web dựa trên mẫu truy cập Web. Dựa trênnhững tiêu chuẩn khác nhau, người dùng Web có thể được phân cụmvà tri thức hữu ích có thể được lấy ra từ các mẫu truy cập của họ. Nộidung bao gồm: Tìm hiểu về bài toán phân cụm người sử dụng Web dựa trên mẫu truy cập và các ứng dụng. Nghiên cứu, cài đặt các thuật toán sử dụng trong quá trình tiền xử lý dữ liệu, bao gồm các giải thuật trong các pha: - Làm sạch dữ liệu - Xác định người sử dụng - Xác định phiên của người sử dụng - Xác định phiên giao dịch với đường dẫn đầy đủ - Biểu diễn dữ liệu theo mô hình không gian vector -3- Tiến hành thực nghiệm với nguồn dữ liệu thực tế: Từ nguồn dữ liệu thực tế, sau các pha tiền xử lý, dữ liệu được biểu diễn theo mô hình không gian vector, phù hợp với định dạng mà bộ công cụ WEKA chấp nhận, tiến hành thực nghiệm phân cụm. Dựa trên các kết quả thử nghiệm, phân tích và đánh giá, hỗ trợ đưa ra khuyến cáo giúp cho việc phát triển các chiến lược tiếp cận người sử dụng phù hợp, xây dựng và tổ chức một cách tốt nhất không gian Web. Luận văn được chia thành 3 chương chính như sau: Chương 1 – Tổng quan về khai phá Web: Chương này trìnhbày tổng quan về lĩnh vực khai phá Web, những vấn đề trong khaiphá sử dụng Web cũng như các ứng dụng của bài toán. Giới thiệucác đặc trưng và một số kỹ thuật phân cụm, một số phương pháp,thuật toán tiêu biểu. Chương 2 – Phân cụm người sử dụng Web dựa trên mẫutruy cập: Chương này giới thiệu về phân cụm người sử dụng Web,mẫu truy cập, phân cụm người sử dụng Web dựa trên mẫu truy cập.Chương này cũng đi sâu trình bày về kỹ thuật và các thuật toán liênqua đến quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu để thựcnghiệm phân cụm. Chương 3 – Cài đặt và thử nghiệm: Chương này sẽ mô tả chitiết về các công cụ, dữ liệu, phương pháp, kỹ thuật lựa chọn thựcnghiệm và toàn bộ quá trình tiến hành thực nghiệm. Kết quả thựcnghiệm sẽ được phân tích, so sánh và đánh giá.-4- -5-Chương 1. TỔNG QUAN VỀ KHAI PHÁ WEB1.1. Khai phá Web Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu đểtự động hóa quá trình khám phá và trích rút những thông tin hữu íchtừ các tài liệu, các dịch vụ và cấu trúc Web. Có thể phân các hướng nghiên cứu khai phá Web thành 3 lĩnhvực chính, bao gồm: Khai phá nội dung Web (Web Content Mining): Khai phá nội dung web là các quá trình xử lý để lấy ra các tri thức từ nội dung các trang văn bản hoặc mô tả của chúng. Khai phá cấu trúc Web (Web Structure Mining): Nhờ vào các kết nối giữa các văn bản siêu liên kết, World Wide Web có thể chứa đựng nhiều thông tin hơn nhiều so với các thông tin ở bên trong văn bản. Nội dung của khai phá cấu trúc Web là các quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang Web. Khai phá sử dụng Web (Web Usage Mining): Phân tích các nhật ký truy cập (Web log) để khám phá ra các mẫu truy cập của người dùng truy cập vào trang Web.1.2. Khai phá sử dụng Web Khai phá sử dụng Web là việc xử lý để lấy ra các thông tin hữuích trong các log file truy cập Web đã được ghi lại và tích luỹ về cáctương tác người dùng mỗi khi máy chủ nhận được yêu cầu truy cập. -6-Việc phân tích các log truy cập Web của các Web site khác nhau sẽdự đoán các tương tác của người dùng khi họ tương tác với Webcũng như tìm hiểu cấu trúc của Web. Thông thường các máy chủ ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ: Phân cụm người sử dụng Web dựa trên mẫu truy cập HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG ---------------------------------------- HOÀNG VŨ PHÂN CỤM NGƯỜI SỬ DỤNG WEB DỰA TRÊN MẪU TRUY CẬP Chuyên ngành: Khoa học máy tính Mã số: 60.48.01Người hướng dẫn khoa học: PGS. TS Trần Đình Quế TÓM TẮT LUẬN VĂN THẠC SỸ HÀ NỘI – 2012 -1- MỞ ĐẦU Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu đểkhám phá và trích rút những thông tin hữu ích từ các tài liệu, cácdịch vụ và cấu trúc Web. Nói cách khác, khai phá Web là việc thămdò những thông tin quan trọng và những mẫu tiềm năng từ nội dungWeb, từ thông tin truy cập Web, từ liên kết trang,… bằng việc sửdụng các kỹ thuật khai phá dữ liệu, nó có thể giúp con người rút ranhững tri thức, cải tiến việc thiết kế các Web site và phát triểnthương mại điện tử tốt hơn[12]. Khai phá Web được phân loại thành 3 lĩnh vực chính [12]: Khaiphá nội dung Web (Web Content Mining); Khai phá cấu trúc Web(Web Structure Mining); Khai phá sử dụng Web (Web UsageMining). Khai phá sử dụng Web là một trong những lĩnh vực nghiên cứuchính trong khai phá Web tập trung vào việc xem xét người sử dụngWeb và tương tác của họ với các trang Web. Động lực của khai phásử dụng Web là tìm những mô hình truy cập của người sử dụng từkhối lượng lớn dữ liệu đăng nhập Web, chẳng hạn như: đường dẫntruy cập thường xuyên, tần xuất truy cập nhóm trang và phân nhómngười dùng. Thông qua khai phá sử dụng Web, thông tin đăng nhậpmáy chủ, đăng ký thông tin và thông tin liên quan khác của người -2-truy cập sẽ cung cấp nền tảng cho việc ra quyết định đối với việc tổchức không gian Web, tối ưu Web site [9][11]. Phân cụm người sử dụng Web là việc tạo các nhóm người sửdụng có các mẫu truy cập Web tương tự nhau, cung cấp tri thức choviệc cá nhân hóa các dịch vụ Web [10]. Việc nghiên cứu các mô hình phân cụm và áp dụng các phươngpháp phân cụm người dùng Web trong khai phá sử dụng Web là mộtxu thế tất yếu vừa có ý nghĩa khoa học vừa mang ý nghĩa thực tiễn. Luận văn tập trung nghiên cứu về ứng dụng của kỹ thuật phâncụm người sử dụng Web dựa trên mẫu truy cập Web. Dựa trênnhững tiêu chuẩn khác nhau, người dùng Web có thể được phân cụmvà tri thức hữu ích có thể được lấy ra từ các mẫu truy cập của họ. Nộidung bao gồm: Tìm hiểu về bài toán phân cụm người sử dụng Web dựa trên mẫu truy cập và các ứng dụng. Nghiên cứu, cài đặt các thuật toán sử dụng trong quá trình tiền xử lý dữ liệu, bao gồm các giải thuật trong các pha: - Làm sạch dữ liệu - Xác định người sử dụng - Xác định phiên của người sử dụng - Xác định phiên giao dịch với đường dẫn đầy đủ - Biểu diễn dữ liệu theo mô hình không gian vector -3- Tiến hành thực nghiệm với nguồn dữ liệu thực tế: Từ nguồn dữ liệu thực tế, sau các pha tiền xử lý, dữ liệu được biểu diễn theo mô hình không gian vector, phù hợp với định dạng mà bộ công cụ WEKA chấp nhận, tiến hành thực nghiệm phân cụm. Dựa trên các kết quả thử nghiệm, phân tích và đánh giá, hỗ trợ đưa ra khuyến cáo giúp cho việc phát triển các chiến lược tiếp cận người sử dụng phù hợp, xây dựng và tổ chức một cách tốt nhất không gian Web. Luận văn được chia thành 3 chương chính như sau: Chương 1 – Tổng quan về khai phá Web: Chương này trìnhbày tổng quan về lĩnh vực khai phá Web, những vấn đề trong khaiphá sử dụng Web cũng như các ứng dụng của bài toán. Giới thiệucác đặc trưng và một số kỹ thuật phân cụm, một số phương pháp,thuật toán tiêu biểu. Chương 2 – Phân cụm người sử dụng Web dựa trên mẫutruy cập: Chương này giới thiệu về phân cụm người sử dụng Web,mẫu truy cập, phân cụm người sử dụng Web dựa trên mẫu truy cập.Chương này cũng đi sâu trình bày về kỹ thuật và các thuật toán liênqua đến quá trình tiền xử lý dữ liệu và chuẩn bị dữ liệu để thựcnghiệm phân cụm. Chương 3 – Cài đặt và thử nghiệm: Chương này sẽ mô tả chitiết về các công cụ, dữ liệu, phương pháp, kỹ thuật lựa chọn thựcnghiệm và toàn bộ quá trình tiến hành thực nghiệm. Kết quả thựcnghiệm sẽ được phân tích, so sánh và đánh giá.-4- -5-Chương 1. TỔNG QUAN VỀ KHAI PHÁ WEB1.1. Khai phá Web Khai phá Web là việc sử dụng các kỹ thuật khai phá dữ liệu đểtự động hóa quá trình khám phá và trích rút những thông tin hữu íchtừ các tài liệu, các dịch vụ và cấu trúc Web. Có thể phân các hướng nghiên cứu khai phá Web thành 3 lĩnhvực chính, bao gồm: Khai phá nội dung Web (Web Content Mining): Khai phá nội dung web là các quá trình xử lý để lấy ra các tri thức từ nội dung các trang văn bản hoặc mô tả của chúng. Khai phá cấu trúc Web (Web Structure Mining): Nhờ vào các kết nối giữa các văn bản siêu liên kết, World Wide Web có thể chứa đựng nhiều thông tin hơn nhiều so với các thông tin ở bên trong văn bản. Nội dung của khai phá cấu trúc Web là các quá trình xử lý nhằm rút ra các tri thức từ cách tổ chức và liên kết giữa các tham chiếu của các trang Web. Khai phá sử dụng Web (Web Usage Mining): Phân tích các nhật ký truy cập (Web log) để khám phá ra các mẫu truy cập của người dùng truy cập vào trang Web.1.2. Khai phá sử dụng Web Khai phá sử dụng Web là việc xử lý để lấy ra các thông tin hữuích trong các log file truy cập Web đã được ghi lại và tích luỹ về cáctương tác người dùng mỗi khi máy chủ nhận được yêu cầu truy cập. -6-Việc phân tích các log truy cập Web của các Web site khác nhau sẽdự đoán các tương tác của người dùng khi họ tương tác với Webcũng như tìm hiểu cấu trúc của Web. Thông thường các máy chủ ...
Tìm kiếm theo từ khóa liên quan:
Luận văn thạc sĩ Tóm tắt luận văn thạc sĩ Khoa học máy tính Luận văn khoa học máy tính Phân cụm người sử dụng Web Luận văn phân cụm người sử dụng WebGợi ý tài liệu liên quan:
-
30 trang 546 0 0
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 474 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 377 6 0 -
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 363 5 0 -
97 trang 325 0 0
-
97 trang 302 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 299 0 0 -
26 trang 283 0 0
-
155 trang 273 0 0
-
26 trang 271 0 0