5 thách thức lớn của công nghệ tìm kiếm kế tiếp

Số trang: 3 Loại file: pdf Dung lượng: 97.29 KB Lượt xem: 15 Lượt tải: 0

Thư viện của tui

Phí lưu trữ: miễn phí

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nhu cầu hiện hữu hoặc chưa hiện hữu. Ngày nay, chúng ta khá thỏa mãn với những gì mà Google mang lại. Nhưng chưa chắc cảm giác này còn tồn tại ở tương lai. Ngay cả với cha đẻ Google, Search Engine do họ tạo ra sẽ không dừng ở khả năng hiện tại bởi những nhu cầu sắp tới, sự cạnh tranh dữ dội từ đối thủ và thách thức phát triển của Internet. Bằng hiểu biết hạn hẹp, người viết xin được đưa ra 5 vấn đề lớn mà các máy tìm kiếm đã, đang và sẽ cần...
Nội dung trích xuất từ tài liệu:
5 thách thức lớn của công nghệ tìm kiếm kế tiếp 5 thách thức lớn của công nghệ tìm kiếm kế tiếpNhu cầu hiện hữu hoặc chưa hiện hữu. Ngày nay, chúng ta khá thỏa mãn vớinhững gì mà Google mang lại. Nhưng chưa chắc cảm giác này còn tồn tại ởtương lai. Ngay cả với cha đẻ Google, Search Engine do họ tạo ra sẽ khôngdừng ở khả năng hiện tại bởi những nhu cầu sắp tới, sự cạnh tranh dữ dội từđối thủ và thách thức phát triển của Internet. Bằng hiểu biết hạn hẹp, ngườiviết xin được đưa ra 5 vấn đề lớn mà các máy tìm kiếm đã, đang và sẽ cầngiải quyết trong tương lai gần.Thách thức thứ nhất: Dữ liệu Web 2.0Không cần phải đề cập nhiều, sự bùng nổ của Web 2.0 kéo theo trào lưungười dùng tham gia tạo nội dung trên Internet. Sự bùng nổ này là một tháchthức lớn với việc xử lý dữ liệu trong hệ thống máy tìm kiếm.Khoảng 5 năm trở lại đây, dữ liệu gia tăng đột biến về lượng. Lượng dữ liệunày tồn tại trên các diễn đàn, blog, wiki, social network, multimediaservice,... cùng với một lượng dữ liệu rác khổng lồ đang được tạo ra hàngngày. Bằng giải pháp lưu trữ và xử lý phân tán, máy tìm kiếm hiện tại giảiquyết khá hoàn hảo nhiệm vụ này. Tuy nhiên, tốc độ tăng trưởng dữ liệuchẳng những không ngừng mà thậm chí còn mạnh hơn. Đồng nghĩa với nó,chi phí băng thông, phần cứng lưu trữ, năng lực phần mềm, năng lượng,...duy trì trung tâm dữ liệu sẽ tăng lên đặt ra những thách thức về giá: giá pháttriển và giá vận hành hệ thống search engine.Không phải bất cứ nhà quản trị nào cũng muốn Google đánh chỉ mụcWebsite của họ. Và cũng có rất nhiều trang bắt người dùng đăng ký thànhviên mới cho phép xem nội dung. Mỗi khi Crawler ghé thăm site là một lầntrang Web bị ngốn băng thông rất lớn, có thể vượt xa với lượng người vàotrang mỗi ngày.Dịch vụ mạng 2.0 bùng nổ, dữ liệu cá nhân được sinh ra và tồn tại trênInternet ngày càng nhiều. Chúng có thể được bảo vệ bởi sự riêng tư hoặc rấtkhó truy vấn theo phương pháp lần liên kết (link) thông thường. Hơn nữa,nhiều Web 2.0 sử dụng script để sinh URL hoặc chọn phương thức Post(HTTP Post) khi truy vấn dữ liệu. Vậy làm sao để máy tìm kiếm có thể quéthết dữ liệu trên Internet? Đây là một thách thức khó khăn đặt ra cho Crawlercủa các Search Engine. Dĩ nhiên, không phải đến thời 2.0, Search Enginemới phải đối mặt với Invisible Web (Web ẩn) nhưng khi mạng dịch vụ dữliệu bùng nổ, Invisible web trở nên phức tạp và và rắc rối hơn nhiều.Cập nhật dữ liệu thời gian thực cũng là một nhu cầu. Bài báo đăng tải trênCNN có thể dễ dàng tìm thấy ngay khi có truy vấn gửi tới Google. Cập nhậtthời gian thực với một lượng nhỏ dữ liệu thì không quá khó khăn, nhưng cácmáy tìm kiếm phải xử lý đến hàng tỉ loại dữ liệu trong một ngày. Đây làthách thức đặt ra cho việc đánh chỉ mục trong các hệ thống Search Engine.Thách thức thứ hai: Lọc bỏ dữ liệu rác và trùng lặpNhư đã đề cập ở phần trên, chi phí về mặt lưu trữ phải được tính toán saocho rẻ nhất. Do đó, càng ít dữ liệu nháp, ít dữ liệu trùng lặp càng tốt. Nhữngdữ liệu kiểu này còn ảnh hưởng đến tốc độ tiếp cận và chất lượng kết quảsearch trả về cho người dùng. Trong khi vấn nạn thư rác đang hoành hoànhthì vấn nạn dữ liệu rác cũng làm đau đầu các công cụ tìm kiếm