LUẬN VĂN: NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE
Số trang: 56
Loại file: pdf
Dung lượng: 1.55 MB
Lượt xem: 9
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Thông qua tìm hiểu mô hình hệ thống Greenstone, để thấy được kiến trúc của máy tìm kiếm là như thế nào, sử dụng công nghệ và nền tảng kỹ thuật gì. Công nghệ được nghiên cứu ở đây, là Lucene. Nó sử dụng những kỹ thuật như: lập chỉ mục, tìm kiếm, xếp hạng.Nghiên cứu tìm hiểu kiến trúc, công nghệ, kỹ thuật một cách rõ ràng, đã giúp cho chúng tôi xây dựng thành công một máy tìm kiếm. Và để máy tìm kiếm mang bản sắc của người Việt, chúng tôi đã tiến thành xây dựng thành...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Đức KhoaNGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2009 1Mở Đầu…………….…………….…………….…………….……………………….1Chương 1. Giới thiệu…………….…………….…………….…………………..31.1. Bài toán tìm kiếm…………….…………….…………….…………….……….31.2. Sơ lược sự phát triển của các hệ thống tìm kiếm…………….…………...41.3. Tình hình nghiên cứu, ứng dụng máy tìm kiếm tại Việt Nam………….5 1.3.1 Tình hình nghiên cứu…………….…………….…………….…………….…..5 1.3.2 Tình hình ứng dụng …………….…………….…………….………………….81.4. Động cơ và mục tiêu của luận văn…………….…………….……………...8Chương 2. Các vấn đề cơ bản trong một hệ thống máy tìmkiếm…………….…………….…………….…………….…………….………………102.1. Tiến trình lập chỉ mục (Indexing) …………….…………….…………….10 2.1.1 Lập chỉ mục…………….…………….…………….…………….…………...10 2.1.2 Các loại chỉ mục…………….…………….…………….…………….………10 2.1.2.1 Chỉ mục tệp đảo…………….…………….…………….…………….…11 2.1.2.2 Chỉ mục tệp ký số…………….…………….…………….……………..12 2.1.2.3 Đánh giá và kết luận…………….…………….…………….…………..152.2. Tiến trình tìm kiếm thông tin (Searching) …………….…………….…...162.3. Xếp hạng tài liệu liên quan (Ranking) …………….…………….……….17 2.3.1 Các khái niệm cơ bản…………….…………….…………….…………….…17 2.3.2 Xếp hạng tài liệu…………….…………….…………….…………….……...18Chương 3: Hệ thống Greenstone…………….…………….……………....213.1. Giới thiệu chung về Greenstone…………….…………….………………..21 3.1.1 Các bộ tài liệu…………….…………….…………….…………….………..21 3.1.2 Tìm kiếm thông tin…………….…………….…………….…………….……22 3.1.3 Định dạng dữ liệu…………….…………….…………….…………….……..23 3.1.4 Các tài liệu đa phương tiện và đa ngôn ngữ…………….…………….………23 3.1.5 Chức năng phân phối của phầm mềm…………….…………….…………….23 23.2. Kiến trúc của hệ thống Greenstone…………….…………….…………...243.3. Xây dựng bộ sưu tập…………….…………….…………….……………….26 3.3.1 Khái niệm…………….…………….…………….…………….…………….26 3.3.2 Thực nghiệm xây dựng bộ sưu tập…………….…………….………………29 3.3.2.1 Chương trình mkcol.pl…………….…………….……………………..30 3.3.2.2 Chương trình import.pl…………….…………….…………….………31 3.3.2.3 Chương trình buildcol.pl…………….…………….…………….……..32 3.3.2.4 - Cấu trúc của một bộ sưu tập…………….…………….……………….33 3.3.3 Hiển thị collection lên website……………………………………………….35 3.3.3.1 Thư mục etc…………….…………….…………….…………………...35 3.3.3.2 Thư mục index…………….…………….…………….………………...38Chương 4: Thực nghiệm xây dựng máy tìm kiếm tiếng Việt……414.1. Vấn đề tìm kiếm tiếng Việt và tiếp cận…………….…………….……….414.2. Hệ thống Lucene…………….…………….…………….…………………….424.3. Phần mềm VietSearch…………….…………….…………….……………..44 4.3.1 Hệ thống lập chỉ mục…………….…………….…………….………………44 4.3.2 Hệ thống tìm kiếm…………….…………….…………….…………………..46 4.3.3 Mô hình tương tự …………….…………….…………….…………………..46 4.3.3.1 Hệ số Cosine…………….…………….…………….…………….…….47 4.3.3.2 Khoảng cách Euclidean…………….…………….…………….……….47 4.3.3.3 Khoảng cách Manhattan…………….…………….…………….………47 4.3.4 Bộ phân loại tự động…………….…………….…………….………………..48 4.3.5 Tìm kiếm các tài liệu liên quan…………….…………….…………….……..494.4. Kết quả và đánh giá…………….…………….…………….………………....49KẾT LUẬN…………….…………….…………….…………….………………..52 3 BẢNG CÁC TỪ VIẾT TẮTKí hiệu Từ Tiếng Anh Giải thíchIFID Inverted file index Chỉ mục tệp đảoSFID Signature file index Chỉ mục tệp ký số IF Inverted file Tệp đảo IL Inverted list Danh sách đảoCSDL Cơ sở dữ liệu SF Signature file Tệp ký số 4 MỞ ĐẦU Máy tìm kiếm (Search Engine) đã phát triển khá hoàn thiện ở các nướcphát triển. Ở Việt Nam, nghiên cứu và ứng dụng máy tìm kiếm đang tronggiai đoạn phát triển ban đầu. Luận văn đặt vấn đề nghiên cứu tìm hiểu cáckỹ thuật cơ bản và công nghệ trong xây dựng máy tìm kiếm đồng thời ápdụng cho tiếng Việt. Mô hình hệ thống mà luận văn đặt trọng tâm nghiêncứu là hệ thống GreenStone, một hệ thống tìm kiếm hữu dụng phổ biến vàlà giải pháp cho nhiều thư viện số. Trong luận văn này, chúng tôi tìm hiểu sâu vào các công nghệ quan trọngcủa máy tìm kiếm: bộ lập chỉ mục (indexing), bộ tìm kiếm (searching), bộxếp hạng (ranking). Đồng thời nghiên cứu kiến trúc các hệ thống và enginesẵn có phục vụ mục đích xây dựng một hệ tìm kiếm cho tiếng Việt. Bêncạnh đó, một nhiệm vụ quan trọng nữa của luận văn là việc làm thế nào đểáp dụng cho tìm kiếm cho đặc trưng tiếng Việt (áp dụng kết quả của phânđoạn từ). Áp dụng những thành tựu của khoa học máy tính để hoàn thiện cỗ máytìm kiếm là một công việc quan trọng . Bởi tìm kiếm những thứ tốt nhấtphục vụ cho công vi ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Đức KhoaNGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2009 1Mở Đầu…………….…………….…………….…………….……………………….1Chương 1. Giới thiệu…………….…………….…………….…………………..31.1. Bài toán tìm kiếm…………….…………….…………….…………….……….31.2. Sơ lược sự phát triển của các hệ thống tìm kiếm…………….…………...41.3. Tình hình nghiên cứu, ứng dụng máy tìm kiếm tại Việt Nam………….5 1.3.1 Tình hình nghiên cứu…………….…………….…………….…………….…..5 1.3.2 Tình hình ứng dụng …………….…………….…………….………………….81.4. Động cơ và mục tiêu của luận văn…………….…………….……………...8Chương 2. Các vấn đề cơ bản trong một hệ thống máy tìmkiếm…………….…………….…………….…………….…………….………………102.1. Tiến trình lập chỉ mục (Indexing) …………….…………….…………….10 2.1.1 Lập chỉ mục…………….…………….…………….…………….…………...10 2.1.2 Các loại chỉ mục…………….…………….…………….…………….………10 2.1.2.1 Chỉ mục tệp đảo…………….…………….…………….…………….…11 2.1.2.2 Chỉ mục tệp ký số…………….…………….…………….……………..12 2.1.2.3 Đánh giá và kết luận…………….…………….…………….…………..152.2. Tiến trình tìm kiếm thông tin (Searching) …………….…………….…...162.3. Xếp hạng tài liệu liên quan (Ranking) …………….…………….……….17 2.3.1 Các khái niệm cơ bản…………….…………….…………….…………….…17 2.3.2 Xếp hạng tài liệu…………….…………….…………….…………….……...18Chương 3: Hệ thống Greenstone…………….…………….……………....213.1. Giới thiệu chung về Greenstone…………….…………….………………..21 3.1.1 Các bộ tài liệu…………….…………….…………….…………….………..21 3.1.2 Tìm kiếm thông tin…………….…………….…………….…………….……22 3.1.3 Định dạng dữ liệu…………….…………….…………….…………….……..23 3.1.4 Các tài liệu đa phương tiện và đa ngôn ngữ…………….…………….………23 3.1.5 Chức năng phân phối của phầm mềm…………….…………….…………….23 23.2. Kiến trúc của hệ thống Greenstone…………….…………….…………...243.3. Xây dựng bộ sưu tập…………….…………….…………….……………….26 3.3.1 Khái niệm…………….…………….…………….…………….…………….26 3.3.2 Thực nghiệm xây dựng bộ sưu tập…………….…………….………………29 3.3.2.1 Chương trình mkcol.pl…………….…………….……………………..30 3.3.2.2 Chương trình import.pl…………….…………….…………….………31 3.3.2.3 Chương trình buildcol.pl…………….…………….…………….……..32 3.3.2.4 - Cấu trúc của một bộ sưu tập…………….…………….……………….33 3.3.3 Hiển thị collection lên website……………………………………………….35 3.3.3.1 Thư mục etc…………….…………….…………….…………………...35 3.3.3.2 Thư mục index…………….…………….…………….………………...38Chương 4: Thực nghiệm xây dựng máy tìm kiếm tiếng Việt……414.1. Vấn đề tìm kiếm tiếng Việt và tiếp cận…………….…………….……….414.2. Hệ thống Lucene…………….…………….…………….…………………….424.3. Phần mềm VietSearch…………….…………….…………….……………..44 4.3.1 Hệ thống lập chỉ mục…………….…………….…………….………………44 4.3.2 Hệ thống tìm kiếm…………….…………….…………….…………………..46 4.3.3 Mô hình tương tự …………….…………….…………….…………………..46 4.3.3.1 Hệ số Cosine…………….…………….…………….…………….…….47 4.3.3.2 Khoảng cách Euclidean…………….…………….…………….……….47 4.3.3.3 Khoảng cách Manhattan…………….…………….…………….………47 4.3.4 Bộ phân loại tự động…………….…………….…………….………………..48 4.3.5 Tìm kiếm các tài liệu liên quan…………….…………….…………….……..494.4. Kết quả và đánh giá…………….…………….…………….………………....49KẾT LUẬN…………….…………….…………….…………….………………..52 3 BẢNG CÁC TỪ VIẾT TẮTKí hiệu Từ Tiếng Anh Giải thíchIFID Inverted file index Chỉ mục tệp đảoSFID Signature file index Chỉ mục tệp ký số IF Inverted file Tệp đảo IL Inverted list Danh sách đảoCSDL Cơ sở dữ liệu SF Signature file Tệp ký số 4 MỞ ĐẦU Máy tìm kiếm (Search Engine) đã phát triển khá hoàn thiện ở các nướcphát triển. Ở Việt Nam, nghiên cứu và ứng dụng máy tìm kiếm đang tronggiai đoạn phát triển ban đầu. Luận văn đặt vấn đề nghiên cứu tìm hiểu cáckỹ thuật cơ bản và công nghệ trong xây dựng máy tìm kiếm đồng thời ápdụng cho tiếng Việt. Mô hình hệ thống mà luận văn đặt trọng tâm nghiêncứu là hệ thống GreenStone, một hệ thống tìm kiếm hữu dụng phổ biến vàlà giải pháp cho nhiều thư viện số. Trong luận văn này, chúng tôi tìm hiểu sâu vào các công nghệ quan trọngcủa máy tìm kiếm: bộ lập chỉ mục (indexing), bộ tìm kiếm (searching), bộxếp hạng (ranking). Đồng thời nghiên cứu kiến trúc các hệ thống và enginesẵn có phục vụ mục đích xây dựng một hệ tìm kiếm cho tiếng Việt. Bêncạnh đó, một nhiệm vụ quan trọng nữa của luận văn là việc làm thế nào đểáp dụng cho tìm kiếm cho đặc trưng tiếng Việt (áp dụng kết quả của phânđoạn từ). Áp dụng những thành tựu của khoa học máy tính để hoàn thiện cỗ máytìm kiếm là một công việc quan trọng . Bởi tìm kiếm những thứ tốt nhấtphục vụ cho công vi ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin hệ thống Greenstone bộ máy tìm kiếm phân loại tự động từ loại lập chỉ mục tìm kiếm xếp hạngGợi ý tài liệu liên quan:
-
52 trang 426 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 309 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 302 0 0 -
74 trang 293 0 0
-
96 trang 289 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 288 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 276 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 270 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 269 1 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 259 0 0