Danh mục

LUẬN VĂN: BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB

Số trang: 59      Loại file: pdf      Dung lượng: 861.55 KB      Lượt xem: 8      Lượt tải: 0    
Hoai.2512

Phí tải xuống: 29,500 VND Tải xuống file đầy đủ (59 trang) 0
Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán trích xuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thống trích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đã được đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán trích xuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nội dung trang web và việc khai phá, đánh giá từ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh MinhBÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANGWEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Chu Anh MinhBÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANGWEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ HTML VÀ ĐỒ THỊ WEB KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: Th.S Nguyễn Thị Hậu Cán bộ đồng hướng dẫn: CN. Trần Mai Vũ HÀ NỘI - 2009 Lời cảm ơnTrước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc đến Th.s Nguyễn Thị Hậu vàCN. Trần Mai Vũ, người đã tận tình chỉ bảo hướng dẫn tôi trong suốt quá trình thựchiện khoá luận tốt nghiệp.Tôi xin bày tỏ lời cảm ơn sâu sắc đến các thầy cô giáo đã giảng dạy tôi trong suốt bốnnăm học qua, đã cho tôi nhiều kiến thức quý báu để tôi vững bước trên con đường họctập của mình.Tôi xin gửi lời cảm ơn chân thành tới các anh chị, các bạn trong nhóm seminar về khaiphá dữ liệu đã nhiệt tình giúp đỡ tôi trong quá trình tham gia nghiên cứu khoa học vàlàm khoá luận tốt nghiệp.Tôi xin gửi lời cảm ơn tới các bạn trong lớp K50CA, và K50CHTTT đã ủng hộkhuyến khích tôi trong suốt quá trình học tập tại trường.Và cuối cùng, tôi xin bày tỏ niềm biết ơn vô hạn tới bố mẹ, chị tôi, và những ngườibạn thân luôn bên cạnh, động viên tôi trong suốt quá trình thực hiện khoá luận tốtnghiệp. Hà Nội, ngày 12 tháng 05 năm 2009 Sinh Viên Chu Anh Minh TÓM TẮT NỘI DUNG Trích xuất từ khoá cho trang web là một bài toán mở rộng của bài toán tríchxuất từ khoá cho một văn bản. Ở mức cao hơn, nó là một bài toán con trong hệ thốngtrích xuất thông tin (Information Retrieval). Trong nhiều năm qua, bài toán này đãđược đề cập, quan tâm nhiều ở các hội nghị quốc tế và các công ty lớn. Bài toán tríchxuất từ khoá cho trang web là việc kết hợp giữa trích xuất từ khóa trong văn bản nộidung trang web và việc khai phá, đánh giá từ khoá dựa trên các đặc trưng, cấu trúc củaWeb. Đây cũng là vấn đề khá mới mẻ và được áp dụng trong rất nhiều lĩnh vực khácnhau như: quảng cáo trên máy tìm kiếm, phân cụm các trang web, hỗ trợ tìm kiếm, hỗtrợ gợi ý người dùng.... Trong khoá luận tốt nghiệp này, tác giả đã đề xuất mô hình giải quyết bài toántrên dựa vào các phương pháp: độ quan trọng các thẻ HTML, đồ thị web. Ngoài ra, cácphương pháp hỗ trợ là khai phá log và từ điển hỗ trợ cũng được trình bày nhằm nângcao chất lượng từ khóa. Khóa luận đã áp dụng trên một số miền dữ liệu cụ thể của cáctrang web tiếng Việt, tiếng Anh và cho kết quả khả quan. i MỤC LỤCTÓM TẮT NỘI DUNG................................................................................................... iMỤC LỤC ...................................................................................................................... iiBảng các kí hiệu và chữ viết tắt..................................................................................... ivDanh mục hình vẽ ............................................................................................................vDanh mục các bảng biểu................................................................................................ viMỞ ĐẦU .........................................................................................................................1Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web.............................3 1.1. Đặt vấn đề .............................................................................................................3 1.2. Khái niệm và các đặc trưng của từ khóa...............................................................4 1.3. Đánh giá các từ khóa.............................................................................................5 1.4. Thách thức của bài toán sinh từ khóa cho trang web............................................5 1.4.1. Đối với các trang có nội dung tập trung.........................................................6 1.4.2. Đối với các trang có nội dung tổng hợp.........................................................6 1.4.3. Các vấn đề khác .............................................................................................6 1.5. Ứng dụng của từ ...

Tài liệu được xem nhiều: