Danh mục

LUẬN VĂN: NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE

Số trang: 56      Loại file: pdf      Dung lượng: 1.55 MB      Lượt xem: 9      Lượt tải: 0    
Jamona

Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Thông qua tìm hiểu mô hình hệ thống Greenstone, để thấy được kiến trúc của máy tìm kiếm là như thế nào, sử dụng công nghệ và nền tảng kỹ thuật gì. Công nghệ được nghiên cứu ở đây, là Lucene. Nó sử dụng những kỹ thuật như: lập chỉ mục, tìm kiếm, xếp hạng.Nghiên cứu tìm hiểu kiến trúc, công nghệ, kỹ thuật một cách rõ ràng, đã giúp cho chúng tôi xây dựng thành công một máy tìm kiếm. Và để máy tìm kiếm mang bản sắc của người Việt, chúng tôi đã tiến thành xây dựng thành...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:NGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Vũ Đức KhoaNGHIÊN CỨU MÁY TÌM KIẾM QUA HỆ THỐNG GREENSTONE KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công Nghệ Thông Tin HÀ NỘI - 2009 1Mở Đầu…………….…………….…………….…………….……………………….1Chương 1. Giới thiệu…………….…………….…………….…………………..31.1. Bài toán tìm kiếm…………….…………….…………….…………….……….31.2. Sơ lược sự phát triển của các hệ thống tìm kiếm…………….…………...41.3. Tình hình nghiên cứu, ứng dụng máy tìm kiếm tại Việt Nam………….5 1.3.1 Tình hình nghiên cứu…………….…………….…………….…………….…..5 1.3.2 Tình hình ứng dụng …………….…………….…………….………………….81.4. Động cơ và mục tiêu của luận văn…………….…………….……………...8Chương 2. Các vấn đề cơ bản trong một hệ thống máy tìmkiếm…………….…………….…………….…………….…………….………………102.1. Tiến trình lập chỉ mục (Indexing) …………….…………….…………….10 2.1.1 Lập chỉ mục…………….…………….…………….…………….…………...10 2.1.2 Các loại chỉ mục…………….…………….…………….…………….………10 2.1.2.1 Chỉ mục tệp đảo…………….…………….…………….…………….…11 2.1.2.2 Chỉ mục tệp ký số…………….…………….…………….……………..12 2.1.2.3 Đánh giá và kết luận…………….…………….…………….…………..152.2. Tiến trình tìm kiếm thông tin (Searching) …………….…………….…...162.3. Xếp hạng tài liệu liên quan (Ranking) …………….…………….……….17 2.3.1 Các khái niệm cơ bản…………….…………….…………….…………….…17 2.3.2 Xếp hạng tài liệu…………….…………….…………….…………….……...18Chương 3: Hệ thống Greenstone…………….…………….……………....213.1. Giới thiệu chung về Greenstone…………….…………….………………..21 3.1.1 Các bộ tài liệu…………….…………….…………….…………….………..21 3.1.2 Tìm kiếm thông tin…………….…………….…………….…………….……22 3.1.3 Định dạng dữ liệu…………….…………….…………….…………….……..23 3.1.4 Các tài liệu đa phương tiện và đa ngôn ngữ…………….…………….………23 3.1.5 Chức năng phân phối của phầm mềm…………….…………….…………….23 23.2. Kiến trúc của hệ thống Greenstone…………….…………….…………...243.3. Xây dựng bộ sưu tập…………….…………….…………….……………….26 3.3.1 Khái niệm…………….…………….…………….…………….…………….26 3.3.2 Thực nghiệm xây dựng bộ sưu tập…………….…………….………………29 3.3.2.1 Chương trình mkcol.pl…………….…………….……………………..30 3.3.2.2 Chương trình import.pl…………….…………….…………….………31 3.3.2.3 Chương trình buildcol.pl…………….…………….…………….……..32 3.3.2.4 - Cấu trúc của một bộ sưu tập…………….…………….……………….33 3.3.3 Hiển thị collection lên website……………………………………………….35 3.3.3.1 Thư mục etc…………….…………….…………….…………………...35 3.3.3.2 Thư mục index…………….…………….…………….………………...38Chương 4: Thực nghiệm xây dựng máy tìm kiếm tiếng Việt……414.1. Vấn đề tìm kiếm tiếng Việt và tiếp cận…………….…………….……….414.2. Hệ thống Lucene…………….…………….…………….…………………….424.3. Phần mềm VietSearch…………….…………….…………….……………..44 4.3.1 Hệ thống lập chỉ mục…………….…………….…………….………………44 4.3.2 Hệ thống tìm kiếm…………….…………….…………….…………………..46 4.3.3 Mô hình tương tự …………….…………….…………….…………………..46 4.3.3.1 Hệ số Cosine…………….…………….…………….…………….…….47 4.3.3.2 Khoảng cách Euclidean…………….…………….…………….……….47 4.3.3.3 Khoảng cách Manhattan…………….…………….…………….………47 4.3.4 Bộ phân loại tự động…………….…………….…………….………………..48 4.3.5 Tìm kiếm các tài liệu liên quan…………….…………….…………….……..494.4. Kết quả và đánh giá…………….…………….…………….………………....49KẾT LUẬN…………….…………….…………….…………….………………..52 3 BẢNG CÁC TỪ VIẾT TẮTKí hiệu Từ Tiếng Anh Giải thíchIFID Inverted file index Chỉ mục tệp đảoSFID Signature file index Chỉ mục tệp ký số IF Inverted file Tệp đảo IL Inverted list Danh sách đảoCSDL Cơ sở dữ liệu SF Signature file Tệp ký số 4 MỞ ĐẦU Máy tìm kiếm (Search Engine) đã phát triển khá hoàn thiện ở các nướcphát triển. Ở Việt Nam, nghiên cứu và ứng dụng máy tìm kiếm đang tronggiai đoạn phát triển ban đầu. Luận văn đặt vấn đề nghiên cứu tìm hiểu cáckỹ thuật cơ bản và công nghệ trong xây dựng máy tìm kiếm đồng thời ápdụng cho tiếng Việt. Mô hình hệ thống mà luận văn đặt trọng tâm nghiêncứu là hệ thống GreenStone, một hệ thống tìm kiếm hữu dụng phổ biến vàlà giải pháp cho nhiều thư viện số. Trong luận văn này, chúng tôi tìm hiểu sâu vào các công nghệ quan trọngcủa máy tìm kiếm: bộ lập chỉ mục (indexing), bộ tìm kiếm (searching), bộxếp hạng (ranking). Đồng thời nghiên cứu kiến trúc các hệ thống và enginesẵn có phục vụ mục đích xây dựng một hệ tìm kiếm cho tiếng Việt. Bêncạnh đó, một nhiệm vụ quan trọng nữa của luận văn là việc làm thế nào đểáp dụng cho tìm kiếm cho đặc trưng tiếng Việt (áp dụng kết quả của phânđoạn từ). Áp dụng những thành tựu của khoa học máy tính để hoàn thiện cỗ máytìm kiếm là một công việc quan trọng . Bởi tìm kiếm những thứ tốt nhấtphục vụ cho công vi ...

Tài liệu được xem nhiều: