Bài giảng Tìm kiếm và trình diễn thông tin: Bài 18 - TS.Nguyễn Bá Ngọc
Số trang: 25
Loại file: pdf
Dung lượng: 977.98 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mời các bạn cùng tìm hiểu Bài giảng Tìm kiếm và trình diễn thông tin: Bài 18 do TS.Nguyễn Bá Ngọc biên soạn với vấn đề tìm kiếm trên Web hướng đến trình bày những đặc điểm Web; khó khăn với tìm kiếm trên Web; sao lưu Web; đặc điểm đồ thị Web; những thuộc tính đồ thị cơ bản;...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 18 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Vấn đề tìm kiếm trên Web Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Đặc điểm Web Ước lượng kích thước Căn bản tìm kiếm trên Web 3 Khó khăn với tìm kiếm trên WebWeb toàn cầu: Phân tán; Thay đổi thường xuyên; Rất lớn; Phi cấu trúc; Nhiều trùng lặp; Chất lượng không đồng nhất; Đa ngôn ngữ. 4 Sao lưu Web http://www.archive.org Thu gom bởi Alexa và Compaq Năm 2001 quy mô 4 tỉ trang (40 TB) Năm 2002: 100TB Được ví như “cỗ máy thời gian” với khả năng hiển thị trang web như trong quá khứ 5 Đặc điểm đồ thị Web Coi mỗi trang web (được xác định bởi một url duy nhất) là một đỉnh của độ thị, các siêu liên kết là các cạnh có hướng của đồ thị. Broder et al (2000), WWW9 Công trình nghiên cứu tính chất đồ thị web quy mô lớn Dữ liệu được thu thập hai lần từ AltaVista Tháng 5 năm 99: 203M trang, 1.5 tỉ liên kết; Tháng 10 năm 99: 271M trang, 2.1 tỉ liên kết. 6 Những thuộc tính đồ thị cơ bản Bậc-vào của một đỉnh là số cạnh đi tới một nút Bậc-ra: số cạnh đi ra từ một nút Đường kính Giá trị cực đại của các độ dài ngắn nhất giữa tất cả cặp đỉnh (u, v). Thành phần liên kết Thành phần liên kết yếu (WCC – Weakly connected component) là tập đỉnh trong đồ thị vô hướng, trong đó luôn tồn tại đường đi giữa hai nút bất kỳ; Thành phần liên kết mạnh (SCC – Strongly connected component) là thành phần liên kết trong đồ thị có hướng. 7 Kết quả nghiên cứu Broder et al (2000), WWW9 Số lượng trang với bậc vào i ∝ 1/i2.1 Thống nhất với những nghiên cứu trên quy mô nhỏ hơn Kích thước của thành phần liên kết cũng tuân theo quy luật lũy thừa WCC lớn nhất 91%, SCC lớn nhất 26% 8Kết cấu web, hình nơ 9 Đường dẫn và tính liên thông Đường kính tối thiểu của SCC là 28 Đường kính của toàn bộ Web là trên 500 Không phải tất cả cặp đỉnh đều liên thông Cho cặp (u, v) ngẫu nhiên, P(path(u, v))=0,24 Xác suất tồn tại đường đi từ u đến v là 0,24 Độ dài trung bình của đường dẫn có hướng là 16 Đường dẫn vô hướng là 6 Tuy nhiên trong trường hợp tổng quát, Web có mức liên thông cao Nếu loại bỏ đỉnh với bậc vào > 5, trên Web vẫn tồn tại thành phần liên thông yếu ~ 59M nút 10 Nội dung chính Đặc điểm Web Ước lượng kích thước Căn bản tìm kiếm trên Web 11 Web lớn tới mức nào Kích thước web là vô hạn Nội dung động Soft 404: www.yahoo.com/ Web tĩnh chứa nhiều trùng lặp (~30%) 12 Kích thước chỉ mục tìm kiếm Công cụ tìm kiếm đánh chỉ mục web tĩnh Các công cụ tìm kiếm khác nhau có chỉ mục khác nhau: Độ sâu url, luật phát hiện spam, độ ưu tiên v.v. … thu thập các nội dung khác nhau từ một URL 13 Sec. 19.5Tỉ lể chỉ mục Lấy mẫu ngẫu nhiên URLs từ A, kiểm tra nếu có trong B; và ngược lại A B A B = (1/2) * Size A A B = (1/6) * Size B (1/2)*Size A = (1/6)*Size B Size A / Size B = (1/6)/(1/2) = 1/3Phép thử: (i) Lấy mẫu (ii) Kiểm tra 14 Sec. 19.5 Các truy vấn trong nghiên cứu của Lawrence và Giles adaptive access control softmax activation function neighborhood preservation bose multidimensional system topographic theory hamiltonian structures gamma mlp right linear grammar dvi2pdf pulse width modulation neural john oliensis unbalanced prior probabilities rieke spikes exploring neural ranked assignment method video watermarking internet explorer favourites counterpropagation network import ...
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin: Bài 18 - TS.Nguyễn Bá Ngọc(IT4853) Tìm kiếm và trình diễn thông tin Vấn đề tìm kiếm trên Web Giảng viên TS. Nguyễn Bá Ngọc Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603 Email: ngocnb@soict.hust.edu.vn Website: http://is.hust.edu.vn/~ngocnb 2 Nội dung chính Đặc điểm Web Ước lượng kích thước Căn bản tìm kiếm trên Web 3 Khó khăn với tìm kiếm trên WebWeb toàn cầu: Phân tán; Thay đổi thường xuyên; Rất lớn; Phi cấu trúc; Nhiều trùng lặp; Chất lượng không đồng nhất; Đa ngôn ngữ. 4 Sao lưu Web http://www.archive.org Thu gom bởi Alexa và Compaq Năm 2001 quy mô 4 tỉ trang (40 TB) Năm 2002: 100TB Được ví như “cỗ máy thời gian” với khả năng hiển thị trang web như trong quá khứ 5 Đặc điểm đồ thị Web Coi mỗi trang web (được xác định bởi một url duy nhất) là một đỉnh của độ thị, các siêu liên kết là các cạnh có hướng của đồ thị. Broder et al (2000), WWW9 Công trình nghiên cứu tính chất đồ thị web quy mô lớn Dữ liệu được thu thập hai lần từ AltaVista Tháng 5 năm 99: 203M trang, 1.5 tỉ liên kết; Tháng 10 năm 99: 271M trang, 2.1 tỉ liên kết. 6 Những thuộc tính đồ thị cơ bản Bậc-vào của một đỉnh là số cạnh đi tới một nút Bậc-ra: số cạnh đi ra từ một nút Đường kính Giá trị cực đại của các độ dài ngắn nhất giữa tất cả cặp đỉnh (u, v). Thành phần liên kết Thành phần liên kết yếu (WCC – Weakly connected component) là tập đỉnh trong đồ thị vô hướng, trong đó luôn tồn tại đường đi giữa hai nút bất kỳ; Thành phần liên kết mạnh (SCC – Strongly connected component) là thành phần liên kết trong đồ thị có hướng. 7 Kết quả nghiên cứu Broder et al (2000), WWW9 Số lượng trang với bậc vào i ∝ 1/i2.1 Thống nhất với những nghiên cứu trên quy mô nhỏ hơn Kích thước của thành phần liên kết cũng tuân theo quy luật lũy thừa WCC lớn nhất 91%, SCC lớn nhất 26% 8Kết cấu web, hình nơ 9 Đường dẫn và tính liên thông Đường kính tối thiểu của SCC là 28 Đường kính của toàn bộ Web là trên 500 Không phải tất cả cặp đỉnh đều liên thông Cho cặp (u, v) ngẫu nhiên, P(path(u, v))=0,24 Xác suất tồn tại đường đi từ u đến v là 0,24 Độ dài trung bình của đường dẫn có hướng là 16 Đường dẫn vô hướng là 6 Tuy nhiên trong trường hợp tổng quát, Web có mức liên thông cao Nếu loại bỏ đỉnh với bậc vào > 5, trên Web vẫn tồn tại thành phần liên thông yếu ~ 59M nút 10 Nội dung chính Đặc điểm Web Ước lượng kích thước Căn bản tìm kiếm trên Web 11 Web lớn tới mức nào Kích thước web là vô hạn Nội dung động Soft 404: www.yahoo.com/ Web tĩnh chứa nhiều trùng lặp (~30%) 12 Kích thước chỉ mục tìm kiếm Công cụ tìm kiếm đánh chỉ mục web tĩnh Các công cụ tìm kiếm khác nhau có chỉ mục khác nhau: Độ sâu url, luật phát hiện spam, độ ưu tiên v.v. … thu thập các nội dung khác nhau từ một URL 13 Sec. 19.5Tỉ lể chỉ mục Lấy mẫu ngẫu nhiên URLs từ A, kiểm tra nếu có trong B; và ngược lại A B A B = (1/2) * Size A A B = (1/6) * Size B (1/2)*Size A = (1/6)*Size B Size A / Size B = (1/6)/(1/2) = 1/3Phép thử: (i) Lấy mẫu (ii) Kiểm tra 14 Sec. 19.5 Các truy vấn trong nghiên cứu của Lawrence và Giles adaptive access control softmax activation function neighborhood preservation bose multidimensional system topographic theory hamiltonian structures gamma mlp right linear grammar dvi2pdf pulse width modulation neural john oliensis unbalanced prior probabilities rieke spikes exploring neural ranked assignment method video watermarking internet explorer favourites counterpropagation network import ...
Tìm kiếm theo từ khóa liên quan:
Tìm kiếm và trình diễn thông tin Hệ thống thông tin Trình diễn thông tin Vấn đề tìm kiếm trên Web Những đặc điểm Web Sao lưu WebGợi ý tài liệu liên quan:
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 314 0 0 -
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 241 0 0 -
Bài giảng HỆ THỐNG THÔNG TIN KẾ TOÁN - Chương 2
31 trang 231 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng quản lý kho hàng trên nền Web
61 trang 215 0 0 -
Phương pháp và và ứng dụng Phân tích thiết kế hệ thống thông tin: Phần 1 - TS. Nguyễn Hồng Phương
124 trang 212 0 0 -
62 trang 206 2 0
-
Bài giảng Phân tích thiết kế hệ thống thông tin - Chương 9: Thiết kế giao diện
21 trang 183 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Bài thuyết trình Logistic: Thực tế hệ thống thông tin logistic của Công ty Vinamilk
15 trang 166 0 0 -
65 trang 159 0 0