Thông tin tài liệu:
Bài giảng Web search - Bài 1: Tổng quan về các máy tìm kiếm. bài này cung cấp cho học viên những kiến thức về: khái niệm và đặc điểm của máy tìm kiếm dữ liệu trên Internet; cấu trúc của các máy tìm kiếm dữ liệu trên Internet; cấu trúc webpage trong kết quả tìm kiếm trả về và nguyên tắc hoạt động của máy tìm kiếm;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Web search - Bài 1: Tổng quan về các máy tìm kiếm
1
BÀI SỐ
TỔNG QUAN VỀ
CÁC
MÁY TÌM KIẾM
TS. Nguyễn Trần Hưng
Khoa HTTT Kinh tế và TMĐT
NỘI DUNG CHÍNH
• 1.1. Khái niệm và đặc điểm của máy tìm kiếm dữ liệu
trên Internet
• 1.2. Cấu trúc của các máy tìm kiếm dữ liệu trên
Internet
• 1.3. Cấu trúc webpage trong kết quả tìm kiếm trả về
và nguyên tắc hoạt động của máy tìm kiếm.
• 1.4. Máy tìm kiếm theo chủ đề và máy tìm kiếm toàn
bộ văn bản
• 1.5. Máy tìm kiếm AND và máy tìm kiếm OR
• 1.6. Phối hợp toán tử và từ bổ nghĩa của các máy tìm
kiếm
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 2
Kinh tế và TMĐT
1.1. Khái niệm và đặc điểm của máy tìm
kiếm dữ liệu trên Internet
• Khái niệm máy tìm kiếm (Search Engines)
Máy tìm kiếm là một
website được thiết kế đặc
Khái biệt để giúp đỡ người sử
niệm dụng tìm kiếm các thông
tin theo yêu cầu trên môi
trường mạng Internet
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 3
Kinh tế và TMĐT
Đặc điểm của máy tìm kiếm dữ liệu trên
Internet
• Tìm kiếm trong cơ sở dữ liệu được tự động xây dựng
bởi một robot, không phải do con người xây dựng.
• Máy tìm kiếm sẽ so sánh các từ khóa người dùng
nhập vào vào cửa sổ tìm kiếm với các từ được viết ở
các trang web mà nó lưu trữ.
• Luợng thông tin mà các máy tìm kiếm có thể chứa
đựng hơn 90% nội dung của các trang web có thể xử
lý được.
• Kết quả tìm kiếm của người dùng phụ thuộc vào khả
năng sử dụng nhuần nhuyễn các tính năng và cú
pháp của máy tìm kiếm.
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 4
Kinh tế và TMĐT
1.2. Cấu trúc của máy tìm kiếm dữ liệu
trên Internet
Bộ thu thập thông tin
(web spider, web
wanderer, web worm) Các bộ
Bộ lập chỉ mục (Index)
phận cấu – Hệ thống phân tích
thành và xử lý dữ liệu
Bộ tìm kiếm thông tin –
Search Engine
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 5
Kinh tế và TMĐT
1.3. Cấu trúc webpage trong kết quả trả về và
nguyên tắc hoạt động của máy tìm kiếm
• Cấu trúc webpage trong kết quả trả về
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 6
Kinh tế và TMĐT
Nguyên tắc hoạt động của máy tìm kiếm
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 7
Kinh tế và TMĐT
1.4. Máy tìm kiếm theo chủ đề và máy tìm
kiếm toàn bộ văn bản.
Máy tìm kiếm toàn bộ
Hai văn bản
trường
phái tìm Google Teoma
kiếm
thông
tin
Máy tìm kiếm theo chủ đề
Yahoo Yandex
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 8
Kinh tế và TMĐT
http://www.google.com.vn
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 9
Kinh tế và TMĐT
http://www.dmoz-odp.org
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 10
Kinh tế và TMĐT
http://www.odp.org
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 11
Kinh tế và TMĐT
Tại sao lại có hai cách thức tìm kiếm
Máy tìm kiếm toàn bộ Máy tìm kiếm theo
văn bản chủ đề
Tìm kiếm những kiểu
thông tin được phân Rất hứu ích cho sự tìm
biệt rõ ràng. kiếm chung, tìm kiếm
Những lời trích dẫn, các đề tài chung, các
những bài hát. tiêu đề chung.
Những địa chỉ, những
câu hỏi phức tạp,
những nơi ít được biết
đến
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 12
Kinh tế và TMĐT
1.5. Máy tìm kiếm AND và máy tìm kiếm OR.
Điều đầu tiên và quan trọng nhất khi tiến hành tìm kiếm
thông tin đó là cần phải biết về một máy tìm kiếm thuộc
loại nào: tìm kiếm toàn bộ văn bản hay là một máy tìm
kiếm theo chủ đề và sau đó là máy tìm kiếm đang sử dụng
được mặc định AND hay OR
Mặc định tìm
kiếm AND
Mặc định tìm
kiếm OR
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 13
Kinh tế và TMĐT
Ví dụ về một máy tìm kiếm được mặc định AND
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 14
Kinh tế và TMĐT
Ví dụ về máy tìm kiếm mặc định OR
Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 15
Kinh tế và TMĐT
1.6. Phối hợp toán tử và từ bổ nghĩa
của các máy tìm kiếm
• Những toán tử và từ bổ nghĩa này sẽ khiến cho máy tìm
kiếm biết được chính xác bạn đang muốn những từ tìm
kiếm sẽ được xử lý như thế nào.
+: Phải xuất hiện trong kết quả tìm
Toán ...