Luận văn: Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin
Số trang: 60
Loại file: pdf
Dung lượng: 1.32 MB
Lượt xem: 10
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Do nhu cầu thu thập thông tin của con người ngày càng tăng, lượng thông tin trên internet ngày càng phong phú nên vấn đề tổng hợp thông tin ngày càng trở nên bức thiết. Với một lượng dữ liệu lớn việc thu thập bằng tay tốn rất nhiều công sức, và không đạt hiệu quả cao, chính vì thế cần một công nghệ có thể tổng hợp thông tin một cách tự động và trình thu thập web đã ra đời. Đề tài khóa luận đặt ra vấn đề tìm hiểu về trình thu thập thông tin trên web...
Nội dung trích xuất từ tài liệu:
Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010 TRƯỜNG …………………. KHOA………………………. ----- ---- Báo cáo tốt nghiệpĐề tài: TÌM HIỂU VỀ TRÌNH THU THẬP WEB VÀ XÂY DỰNG TRANG WEB VÀ XÂY DỰNG TRANG TỔNG TỔNG HỢP THÔNG TIN I Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010L ỜI C Ả M ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc của mình đến thầy Hoàng Xuân Huấn, thuộcbộ môn Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học Công Nghệ,ĐHQGHN. Trong quá trình thực hiện khóa luận, thầy đã nhiệt tình giúp đỡ, giải đápcác thắc mắc tạo động lực giúp tôi hoàn thành khóa luận tốt nghiệp này. Tôi cũng xin được bày tỏ lời cảm ơn tới các thầy cô trong bộ môn nói riêng vàtrong khoa Công nghệ thông tin nói chung đã nhiệt tình giảng dạy để giúp chúng tôi cóđược như ngày hôm nay. Cuối cùng là lời cảm ơn tới gia đình, bạn bè những người luôn sát cánh bên tôinhững lúc khó khăn, luôn ủng hộ giúp đỡ để tôi hoàn thành khóa luận này. II Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010TÓM TẮT NỘI DUNG Do nhu cầu thu thập thông tin của con người ngày càng tăng, lượng thông tin trêninternet ngày càng phong phú nên vấn đề tổng hợp thông tin ngày càng trở nên bứcthiết. Với một lượng dữ liệu lớn việc thu thập bằng tay tốn rất nhiều công sức, vàkhông đạt hiệu quả cao, chính vì thế cần một công nghệ có thể tổng hợp thông tin mộtcách tự động và trình thu thập web đã ra đời. Đề tài khóa luận đặt ra vấn đề tìm hiểu về trình thu thập thông tin trên web vàbước đầu sẽ xây dựng một ứng dụng có khả năng tổng hợp thông tin tự động từ trangbáo điện tử lớn là trang Dân trí (http://dantri.com.vn). Ứng dụng được viết bằng ngônngữ lập trình PHP tương tác với cơ sở dữ liệu mySQL và được xây dựng dựa trên cáctiêu chí: tốc độ thu thập nhanh, cơ sở dữ liệu gọn nhẹ, đảm bảo tính toàn vẹn của tàiliệu gốc. III Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010MỤC LỤC MỞ ĐẦU ............................................................................................................1 CHƯƠNG 1. TÌM HIỂU VỀ TRÌNH THU THẬP WEB .................................3 1.1. GIỚI THIỆU VỀ TRÌNH THU THẬP WEB ..............................................3 1.2. CÁCH XÂY DỰNG MỘT HẠ TẦNG THU THẬP...................................4 1.2.1. Frontier .................................................................................................6 1.2.2. Lược sử và kho lưu trữ trang.................................................................7 1.2.3. Cách lấy trang........................................................................................8 1.2.3.1. Tiêu chuẩn loại trừ robot ................................................................9 1.2.4. Bóc tách trang......................................................................................10 1.2.4.1. Tiêu chuẩn trích xuất URL ...........................................................11 1.2.4.2. Mô hình thẻ HTML dạng cây .......................................................12 1.2.5. Trình thu thập đa luồng .......................................................................13 1.3. CÁC CHIẾN LƯỢC THU THẬP DỮ LIỆU ............................................15 1.3.1. Chiến lược thu thập dữ liệu theo chiều sâu .........................................16 1.3.2. Chiến lược thu thập dữ liệu theo chiều rộng .......................................16 1.3.3. Chiến lược thu thập dữ liệu theo ngẫu nhiên ......................................17 1.3.4. Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ. .............17 1.4. ĐÁNH GIÁ CỦA TRÌNH THU THẬP.....................................................19 1.4.1. Độ quan trọng của trang web ..............................................................20 1.4.2. Phân tích tổng quát ..............................................................................21 1.4.2.1. Thước đo độ chính xác .................................................................22 1.4.2.2. Thước đo độ hoàn chỉnh ...............................................................22 CHƯƠNG 2. XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN ...............25 2.1. CÁC KIẾN THỨC NỀN TẢNG ...............................................................25 IVTìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010 2.1.1. M ...
Nội dung trích xuất từ tài liệu:
Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010 TRƯỜNG …………………. KHOA………………………. ----- ---- Báo cáo tốt nghiệpĐề tài: TÌM HIỂU VỀ TRÌNH THU THẬP WEB VÀ XÂY DỰNG TRANG WEB VÀ XÂY DỰNG TRANG TỔNG TỔNG HỢP THÔNG TIN I Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010L ỜI C Ả M ƠN Tôi xin bày tỏ lòng biết ơn sâu sắc của mình đến thầy Hoàng Xuân Huấn, thuộcbộ môn Khoa học máy tính, khoa Công nghệ thông tin, trường Đại học Công Nghệ,ĐHQGHN. Trong quá trình thực hiện khóa luận, thầy đã nhiệt tình giúp đỡ, giải đápcác thắc mắc tạo động lực giúp tôi hoàn thành khóa luận tốt nghiệp này. Tôi cũng xin được bày tỏ lời cảm ơn tới các thầy cô trong bộ môn nói riêng vàtrong khoa Công nghệ thông tin nói chung đã nhiệt tình giảng dạy để giúp chúng tôi cóđược như ngày hôm nay. Cuối cùng là lời cảm ơn tới gia đình, bạn bè những người luôn sát cánh bên tôinhững lúc khó khăn, luôn ủng hộ giúp đỡ để tôi hoàn thành khóa luận này. II Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010TÓM TẮT NỘI DUNG Do nhu cầu thu thập thông tin của con người ngày càng tăng, lượng thông tin trêninternet ngày càng phong phú nên vấn đề tổng hợp thông tin ngày càng trở nên bứcthiết. Với một lượng dữ liệu lớn việc thu thập bằng tay tốn rất nhiều công sức, vàkhông đạt hiệu quả cao, chính vì thế cần một công nghệ có thể tổng hợp thông tin mộtcách tự động và trình thu thập web đã ra đời. Đề tài khóa luận đặt ra vấn đề tìm hiểu về trình thu thập thông tin trên web vàbước đầu sẽ xây dựng một ứng dụng có khả năng tổng hợp thông tin tự động từ trangbáo điện tử lớn là trang Dân trí (http://dantri.com.vn). Ứng dụng được viết bằng ngônngữ lập trình PHP tương tác với cơ sở dữ liệu mySQL và được xây dựng dựa trên cáctiêu chí: tốc độ thu thập nhanh, cơ sở dữ liệu gọn nhẹ, đảm bảo tính toàn vẹn của tàiliệu gốc. III Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010MỤC LỤC MỞ ĐẦU ............................................................................................................1 CHƯƠNG 1. TÌM HIỂU VỀ TRÌNH THU THẬP WEB .................................3 1.1. GIỚI THIỆU VỀ TRÌNH THU THẬP WEB ..............................................3 1.2. CÁCH XÂY DỰNG MỘT HẠ TẦNG THU THẬP...................................4 1.2.1. Frontier .................................................................................................6 1.2.2. Lược sử và kho lưu trữ trang.................................................................7 1.2.3. Cách lấy trang........................................................................................8 1.2.3.1. Tiêu chuẩn loại trừ robot ................................................................9 1.2.4. Bóc tách trang......................................................................................10 1.2.4.1. Tiêu chuẩn trích xuất URL ...........................................................11 1.2.4.2. Mô hình thẻ HTML dạng cây .......................................................12 1.2.5. Trình thu thập đa luồng .......................................................................13 1.3. CÁC CHIẾN LƯỢC THU THẬP DỮ LIỆU ............................................15 1.3.1. Chiến lược thu thập dữ liệu theo chiều sâu .........................................16 1.3.2. Chiến lược thu thập dữ liệu theo chiều rộng .......................................16 1.3.3. Chiến lược thu thập dữ liệu theo ngẫu nhiên ......................................17 1.3.4. Chiến lược thu thập dữ liệu theo lựa chọn tốt nhất ngây thơ. .............17 1.4. ĐÁNH GIÁ CỦA TRÌNH THU THẬP.....................................................19 1.4.1. Độ quan trọng của trang web ..............................................................20 1.4.2. Phân tích tổng quát ..............................................................................21 1.4.2.1. Thước đo độ chính xác .................................................................22 1.4.2.2. Thước đo độ hoàn chỉnh ...............................................................22 CHƯƠNG 2. XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN ...............25 2.1. CÁC KIẾN THỨC NỀN TẢNG ...............................................................25 IVTìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin 2010 2.1.1. M ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin tổng hợp thông tin thu thập wed ngôn ngữ lập trình PHP cơ sở dữ liệu mySQLGợi ý tài liệu liên quan:
-
52 trang 426 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 309 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 302 0 0 -
74 trang 293 0 0
-
96 trang 289 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 288 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 276 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 270 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 269 1 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 259 0 0