![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Luận văn tốt nghiệp: Giải pháp tính hạng trang khai thác cấu trúc Block của web và áp dụng vào máy tìm kiếm
Số trang: 36
Loại file: pdf
Dung lượng: 1.07 MB
Lượt xem: 12
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Ngày nay, với những tác động to lớn và mạnh mẽ của mạng Internet tới đời sống kinh tế, chính trị và văn hóa của con người, lĩnh vực khai phá dữ liệu Web đã và đang trở thành lĩnh vực nghiên cứu thời sự, thu hút được sự quan tâm của rất nhiều nhà nghiên cứu. Khai phá dữ liệu Web là điểm hội tụ của rất nhiều lĩnh vực nghiên cứu như: cơ sở dữ liệu, truy xuất thông tin (information retrival), trí tuệ nhân tạo, nó còn là một lĩnh vực nhỏ trong học máy (machine learning)...
Nội dung trích xuất từ tài liệu:
Luận văn tốt nghiệp: Giải pháp tính hạng trang khai thác cấu trúc Block của web và áp dụng vào máy tìm kiếm Luận văn tốt nghiệpGiải pháp tính hạng trang khai thác cấu trúcBlock của web và áp dụng vào máy tìm kiếm Mở đầ u Ngày nay, với những tác động to lớn và mạnh mẽ của mạng Internet tới đờisống kinh tế, chính trị và văn hóa của con người, lĩnh vực khai phá dữ liệu Web đã vàđang trở thành lĩnh vực nghiên cứu thời sự, thu hút được sự quan tâm của rất nhiều nhànghiên cứu. Khai phá dữ liệu Web là điểm hội tụ của rất nhiều lĩnh vực nghiên cứunhư: cơ sở dữ liệu, truy xuất thông tin (information retrival), trí tuệ nhân tạo, nó còn làmột lĩnh vực nhỏ trong học máy (machine learning) và xử lý ngôn ngữ tự nhiên. Một trong những lĩnh vực nghiên cứu đang rất được quan tâm hiện nay trongkhai phá Web là việc xây dựng các công cụ tìm kiếm trên Web. Bởi trong bối cảnh xãhội thông tin ngày nay, nhu cầu nhận được các thông tin một cách nhanh chóng, chínhxác đang ngày càng trở nên cấp thiết. Để tìm ra được các thông tin có ích đối với mỗingười dùng, đặc biệt là với những người dùng thiếu kinh nghiệm hoàn toàn không phảilà việc đơn giản. Với một công cụ tìm kiếm, khả năng người dùng có thể duyệt Webvà định vị được các trang Web mình quan tâm đã trở nên dễ dàng hơn nhiều. Tuy nhiên hiện nay, do sự phát triển và thay đổi với tốc độ quá nhanh củaInternet, các công cụ tìm kiếm đang phải đối mặt với những bài toán nan giải về tốcđộ. Trong đó có bài toán về tốc độ tính toán hạng cho các trang Web, thực thi nhiệmvụ tính toán độ “quan trọng” cho các trang thông tin kết quả tìm được so với yêu cầutìm kiếm của người dùng. Vì kích thước của World Wide Web là vô cùng lớn, lên tớihàng tỉ trang web, không những thế các trang Web này không ở trạng thái tĩnh mà luônluôn thay đổi. Do đó tính hiệu quả về thời gian càng trở nên quan trọng. Nếu phép tínhPageRank cho tập các trang web trong cơ sở dữ liệu không đủ nhanh, hệ thống tìmkiếm sẽ không cung cấp được chất lượng tìm kiếm tốt cho người dùng. Ý thức đây là một lĩnh vực nghiên cứu có nhiều triển vọng, chúng tôi đã chọnhướng nghiên cứu “Giải pháp tính hạng trang khai thác cấu trúc Block của Web vàáp dụng vào máy tìm kiếm” cho đề tài khóa luận tốt nghiệp của mình. Khóa luận tậptrung nghiên cứu bài toán tính hạng trang web (PageRank) trong các máy tìm kiếm:cấu trúc, thuật toán cũng như các tiêu chuẩn đánh giá quá trình này. Chúng tôi cũng đãáp dụng các lý thuyết trên để đi sâu phân tích mã nguồn, tìm hiểu cơ chế thực thi quátrình tính PageRank trong máy tìm kiếm Vinahoo, một máy tìm kiếm tiếng Việt mãnguồn mở với nhiều tính năng ưu việt. Từ việc nghiên cứu này, chúng tôi đã đề xuấtmột giải pháp áp dụng khái niệm thành phần liên thông trong ma trận liên kết Webtrong Vinahoo, đồng thời thực hiện việc cài đặt thử nghiệm trên mã nguồn của máytìm kiếm này. Nội dung của khóa luận được tổ chức thành bốn chương với nội dung đượcgiới thiệu như dưới đây. 1 Chương 1 với tên gọi “Tổng quan về khai phá dữ liệu web và máy tìm kiếm”trình bày về những nội dung nghiên cứu cơ bản của khai phá web, những thuận lợi vàkhó khăn trong lĩnh vực này. Phần cuối của chương này trình bày các thành phần cơbản của một máy tìm kiếm. “Một số thuật toán tính hạng trang điển hình” là tiêu đề của chương 2. Phầnđầu chương này giới thiệu tổng quan về bài toán xêp hạng trang Web trong máy tìmkiếm và thuật toán tính PageRank cơ bản. Việc phân tích nhu cầu tăng tốc độ tính toánPageRank trong máy tìm kiếm, một số thuật toán cải tiến từ phương pháp PageRankcùng với đánh giá được trình bày trong phần cuối của chương. Chương 3 với tên gọi “Thuật toán sử dụng cấu trúc Block theo thành phầnliên thông” tập trung nghiên cứu về giải pháp khai thác cấu trúc Web. Chương nàygiới thiệu khái niệm, một số vấn đề về lý thuyết, chứng minh và đánh giá thuật toánCCP sử dụng cấu trúc này. Chương 4 với tiêu đề “Giải pháp tính hạng trang cải tiến cho máy tìm kiếmVinahoo” giới thiệu thành phần tính PageRank trong module đánh chỉ số củaVinahoo, các cải tiến, cài đặt và đánh giá kết quả thực nghiệm. 2 Chương 1. Tổng quan về khai phá dữ liệu Web và máy tìm kiếm1.1. Khai phá dữ l iệ u Web1.1.1. Tổng quan về khai phá dữ liệu Web Ngày nay, sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ramột khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Trong nhữngnăm gần đây Intrnet đã trở thành một trong những kênh về khoa học, thông tin kinh tế,thương mại và quảng cáo. Một trong những lý do cho sự phát triển này là chi phí thấpđể duy trì một trang Web trên Internet. So sánh với những dịch vụ khác như đăng tinhay quảng cáo trên một tờ báo hay tạp chí, thì một trang Web đòi rẻ hơn rất nhiều vàcập nhật nhanh chó ...
Nội dung trích xuất từ tài liệu:
Luận văn tốt nghiệp: Giải pháp tính hạng trang khai thác cấu trúc Block của web và áp dụng vào máy tìm kiếm Luận văn tốt nghiệpGiải pháp tính hạng trang khai thác cấu trúcBlock của web và áp dụng vào máy tìm kiếm Mở đầ u Ngày nay, với những tác động to lớn và mạnh mẽ của mạng Internet tới đờisống kinh tế, chính trị và văn hóa của con người, lĩnh vực khai phá dữ liệu Web đã vàđang trở thành lĩnh vực nghiên cứu thời sự, thu hút được sự quan tâm của rất nhiều nhànghiên cứu. Khai phá dữ liệu Web là điểm hội tụ của rất nhiều lĩnh vực nghiên cứunhư: cơ sở dữ liệu, truy xuất thông tin (information retrival), trí tuệ nhân tạo, nó còn làmột lĩnh vực nhỏ trong học máy (machine learning) và xử lý ngôn ngữ tự nhiên. Một trong những lĩnh vực nghiên cứu đang rất được quan tâm hiện nay trongkhai phá Web là việc xây dựng các công cụ tìm kiếm trên Web. Bởi trong bối cảnh xãhội thông tin ngày nay, nhu cầu nhận được các thông tin một cách nhanh chóng, chínhxác đang ngày càng trở nên cấp thiết. Để tìm ra được các thông tin có ích đối với mỗingười dùng, đặc biệt là với những người dùng thiếu kinh nghiệm hoàn toàn không phảilà việc đơn giản. Với một công cụ tìm kiếm, khả năng người dùng có thể duyệt Webvà định vị được các trang Web mình quan tâm đã trở nên dễ dàng hơn nhiều. Tuy nhiên hiện nay, do sự phát triển và thay đổi với tốc độ quá nhanh củaInternet, các công cụ tìm kiếm đang phải đối mặt với những bài toán nan giải về tốcđộ. Trong đó có bài toán về tốc độ tính toán hạng cho các trang Web, thực thi nhiệmvụ tính toán độ “quan trọng” cho các trang thông tin kết quả tìm được so với yêu cầutìm kiếm của người dùng. Vì kích thước của World Wide Web là vô cùng lớn, lên tớihàng tỉ trang web, không những thế các trang Web này không ở trạng thái tĩnh mà luônluôn thay đổi. Do đó tính hiệu quả về thời gian càng trở nên quan trọng. Nếu phép tínhPageRank cho tập các trang web trong cơ sở dữ liệu không đủ nhanh, hệ thống tìmkiếm sẽ không cung cấp được chất lượng tìm kiếm tốt cho người dùng. Ý thức đây là một lĩnh vực nghiên cứu có nhiều triển vọng, chúng tôi đã chọnhướng nghiên cứu “Giải pháp tính hạng trang khai thác cấu trúc Block của Web vàáp dụng vào máy tìm kiếm” cho đề tài khóa luận tốt nghiệp của mình. Khóa luận tậptrung nghiên cứu bài toán tính hạng trang web (PageRank) trong các máy tìm kiếm:cấu trúc, thuật toán cũng như các tiêu chuẩn đánh giá quá trình này. Chúng tôi cũng đãáp dụng các lý thuyết trên để đi sâu phân tích mã nguồn, tìm hiểu cơ chế thực thi quátrình tính PageRank trong máy tìm kiếm Vinahoo, một máy tìm kiếm tiếng Việt mãnguồn mở với nhiều tính năng ưu việt. Từ việc nghiên cứu này, chúng tôi đã đề xuấtmột giải pháp áp dụng khái niệm thành phần liên thông trong ma trận liên kết Webtrong Vinahoo, đồng thời thực hiện việc cài đặt thử nghiệm trên mã nguồn của máytìm kiếm này. Nội dung của khóa luận được tổ chức thành bốn chương với nội dung đượcgiới thiệu như dưới đây. 1 Chương 1 với tên gọi “Tổng quan về khai phá dữ liệu web và máy tìm kiếm”trình bày về những nội dung nghiên cứu cơ bản của khai phá web, những thuận lợi vàkhó khăn trong lĩnh vực này. Phần cuối của chương này trình bày các thành phần cơbản của một máy tìm kiếm. “Một số thuật toán tính hạng trang điển hình” là tiêu đề của chương 2. Phầnđầu chương này giới thiệu tổng quan về bài toán xêp hạng trang Web trong máy tìmkiếm và thuật toán tính PageRank cơ bản. Việc phân tích nhu cầu tăng tốc độ tính toánPageRank trong máy tìm kiếm, một số thuật toán cải tiến từ phương pháp PageRankcùng với đánh giá được trình bày trong phần cuối của chương. Chương 3 với tên gọi “Thuật toán sử dụng cấu trúc Block theo thành phầnliên thông” tập trung nghiên cứu về giải pháp khai thác cấu trúc Web. Chương nàygiới thiệu khái niệm, một số vấn đề về lý thuyết, chứng minh và đánh giá thuật toánCCP sử dụng cấu trúc này. Chương 4 với tiêu đề “Giải pháp tính hạng trang cải tiến cho máy tìm kiếmVinahoo” giới thiệu thành phần tính PageRank trong module đánh chỉ số củaVinahoo, các cải tiến, cài đặt và đánh giá kết quả thực nghiệm. 2 Chương 1. Tổng quan về khai phá dữ liệu Web và máy tìm kiếm1.1. Khai phá dữ l iệ u Web1.1.1. Tổng quan về khai phá dữ liệu Web Ngày nay, sự phát triển nhanh chóng của mạng Internet và Intranet đã sinh ramột khối lượng khổng lồ các dữ liệu dạng siêu văn bản (dữ liệu Web). Trong nhữngnăm gần đây Intrnet đã trở thành một trong những kênh về khoa học, thông tin kinh tế,thương mại và quảng cáo. Một trong những lý do cho sự phát triển này là chi phí thấpđể duy trì một trang Web trên Internet. So sánh với những dịch vụ khác như đăng tinhay quảng cáo trên một tờ báo hay tạp chí, thì một trang Web đòi rẻ hơn rất nhiều vàcập nhật nhanh chó ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin máy tìm kiếm cấu trúc Block tính hạng trang cấu trúc cấu trúc Block khai phá dữ liệu webTài liệu liên quan:
-
52 trang 442 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 332 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 318 0 0 -
74 trang 311 0 0
-
96 trang 307 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 300 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 293 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 291 1 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 280 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 275 0 0