Danh mục

Tạp chí khoa học và công nghệ: Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản

Số trang: 10      Loại file: pdf      Dung lượng: 507.07 KB      Lượt xem: 13      Lượt tải: 0    
Thư viện của tui

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài báo này giới thiệu những nghiên cứu về mã nguồn mở Lucene và chỉ ra cách thức ứng dụng nó trong hệ thống tìm kiếm. Lucene là dự án mã nguồn mở được cung cấp và quản lý bởi tổ chức Apache Software Foundation, đây là công cụ lập chỉ mục cho văn bản, sử dụng trong hệ thống tìm kiếm.
Nội dung trích xuất từ tài liệu:
Tạp chí khoa học và công nghệ: Nghiên cứu ứng dụng mã nguồn mở Lucene để xây dựng phần mềm tìm kiếm thông tin trên văn bản TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010 NGHIÊN CỨU ỨNG DỤNG MÃ NGUỒN MỞ LUCENE ĐỂ XÂY DỰNG PHẦN MỀM TÌM KIẾM THÔNG TIN TRÊN VĂN BẢN A CASE STUDY ON USING OPEN SOURCE LUCENE TO BUILD THE FULL TEXT SEARCH ENGINE Huỳnh Đức Việt Võ Duy Thanh Võ Trung Hùng Trung tâm Công nghệ Phần Trường Cao đẳng Công nghệ Trường Đại học Bách khoa,mềm, Trường Đại học Duy Tân Thông tin Hữu nghị Việt – Hàn Đại học Đà Nẵng TÓM TẮT Trong bài báo này chúng tôi giới thiệu những nghiên cứu về mã nguồn mở Lucene và chỉra cách thức ứng dụng nó trong hệ thống tìm kiếm. Lucene là dự án mã nguồn mở được cungcấp và quản lý bởi tổ chức Apache Software Foundation, đây là công cụ lập chỉ mục cho văn bản,sử dụng trong hệ thống tìm kiếm. Lucene cho phép xử lý các văn bản đầu vào ở dạng văn bản(text) để tạo ra tập chỉ mục và cung cấp phương thức tìm kiếm trên tập chỉ mục đó. Nó cũng chophép người dùng kế thừa và phát triển để phù hợp với nhiều ngôn ngữ khác nhau. Chúng tôi đềxuất mô hình ứng dụng Lucene để phát triển hệ thống tìm kiếm trên các văn bản lưu trữ. Trongmô hình này, chúng tôi sử dụng mã nguồn của Lucene và xây dựng một số xử lý cho ngôn ngữtiếng Việt. Đầu tiên, chúng tôi tiến hành tách nội dung của các loại văn bản, sau đó thực hiện mộtsố xử lý cho tiếng Việt và lập chỉ mục cho các văn bản, cuối cùng chúng tôi xây dựng các ứngdụng tìm kiếm sử dụng tập chỉ mục này để truy vấn và lấy về tài liệu liên quan. ABSTRACT In this paper, we introduce our research on open- source Lucene and how to apply it toa search engine. Lucene is the open source project which is supplied and managed by ApacheFoundation Organization. This is a tool applied to create an index for the text used in searchengine. Lucene helps to process on input documents for plain text to create an index and supplysearch mode based on this index. It also helps users inherit and develop in appropriation todifferent languages. We propose applied Lucene to develop a search engine on storeddocuments. In this model, we use the source code of Lucene and build some processingfunctions for Vietnamese. First, we begin to extract kinds of documents, and then perform someprocessing for Vietnamese and create the index for the documents. Finally, we build searchapplications using this index to query and retrieve similar documents.1. Giới thiệu Cùng với sự phổ biến của công nghệ thông tin, số lượng các tài liệu điện tử cũnggia tăng từng ngày. Đến nay, số lượng các tài liệu được lưu trữ lên đến hàng tỷ trang.Trong khi đó, nhu cầu khai thác trong kho tài liệu khổng lồ này để tìm kiếm nhữngthông tin cần thiết đang là nhu cầu thường ngày và thiết thực của người sử dụng. Tuynhiên, một trong những khó khăn con người gặp phải trong việc khai thác thông tin làkhả năng tìm chính xác thông tin họ cần trong kho tài liệu. Để trợ giúp công việc này, 307 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ, ĐẠI HỌC ĐÀ NẴNG - SỐ 4(39).2010các hệ thống tìm kiếm đã lần lượt được phát triển nhằm phục vụ cho nhu cầu tìm kiếmcủa người sử dụng. Những hệ thống tìm kiếm bắt đầu phát triển và đưa vào ứng dụng, phổ biến làcác hệ thống tìm kiếm theo từ khóa. Nhiều hệ thống hoạt động hiệu quả trên Internetnhư Google, Bing, Yahoo!… Tuy nhiên, phần lớn các công cụ tìm kiếm này là nhữngsản phẩm thương mại và mã nguồn được giữ bí mật. Hoặc các hệ thống tìm kiếm trênmáy cá nhân như Windows Search, Google Desktop… đã đáp ứng phần nào nhu cầucủa người sử dụng, miễn phí cho cá nhân, tuy nhiên cũng chỉ đáp ứng được trên phạmvi nhỏ. Điều này dẫn tới kết quả là nhiều nhà phát triển riêng biệt hoặc các tổ chức sửdụng sẽ phải tự mình xây dựng từ đầu một công cụ tìm kiếm nếu hệ thống của họ cầnchức năng tìm kiếm này. Một cách tiếp cận hiệu quả để giải quyết vấn đề này là sử dụngcác thư viện mã nguồn mở để xây dựng hệ thống tìm kiếm. Trong bài báo này, chúng tôi giới thiệu những những tính năng nổi bật nhất củaLucene, cùng những kết quả thử nghiệm trên hệ thống này và đưa ra những phát triểnmở rộng cho văn bản tiếng Việt.2. Tìm kiếm thông tin Tìm kiếm thông tin (Information Retrieval – IR) là tìm kiếm tài nguyên (thườnglà các tài liệu - documents) trên một tập lớn các dữ liệu phi cấu trúc (thường là văn bản– text) được lưu trữ trên các máy tính nhằm thỏa mãn nhu cầu về thông tin [2]. Mục đích của IR là trả lại cho người dùng một tập các thông tin thỏa mãn nhucầu của họ. Chúng ta định nghĩa rằng thông tin cần thiết là “câu truy vấn” (query) vàcác thông tin đ ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: