Danh mục

Truy vấn thông tin trên văn bản pháp luật

Số trang: 7      Loại file: pdf      Dung lượng: 400.83 KB      Lượt xem: 14      Lượt tải: 0    
tailieu_vip

Phí tải xuống: 1,000 VND Tải xuống file đầy đủ (7 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Với sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do con người tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong kho tài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng.
Nội dung trích xuất từ tài liệu:
Truy vấn thông tin trên văn bản pháp luật TRUY VẤN THÔNG TIN TRÊN VĂN BẢN PHÁP LUẬT Phan Hải Đăng, Dương Thanh Toàn Viện Công nghệ Việt – Nhật (VJIT), Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD: TS. Lê Thị Ngọc ThơTÓM TẮTVới sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do conngười tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong khotài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng.Tuy nhiên, một trong những khó khăn mà con người gặp phải trong việc khai thác thông tinlà: Khả năng tìm kiếm chính xác thông tin cần tìm trong kho tài liệu, khả năng tìm kiếmnhanh với lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ để tìm kiếm dữliệu thì sẽ gặp phải các hạn chế như: Bị giới hạn cú pháp của ngôn ngữ SQL, tốc độ tìmkiếm chậm khi tìm kiếm gần đúng (dùng LIKE) trong cơ sở dữ liệu. Qua tìm hiểu thì chúngtôi thấy trang truy vấn thông tin pháp luật như thuvienphapluat.vn là trang website có thểkhai thác được với lượng dữ liệu lớn và mỗi một tài liệu thường rất dài và có sự trùng lắp vềmặt ngôn ngữ là rất lớn.Việc đó, gây ảnh hướng đến việc tìm kiếm của người sử dụng. Vì lído trên, chúng tôi mong muốn phát triển và cải thiện khả năng tìm kiếm thông tin trên vănbản pháp luật.Từ khóa: Apache Lucene, Elasticsearch, indexing, thu thập dữ liệu, vnTokenizer.ABSTRACTWith the continuous development of information technology, the number of electronicdocuments created by human is increasingly rich and diverse. The demand for this dataexploitation in the document warehouse is huge, this is in the daily necessities, practicalusers. However, one of the difficulties that we encounter in the exploitation of information is:the ability to search for accurate information to look for in document repositories, searchcapabilities with large amounts of data quickly. If you use relational database managementsystems to search data, you will encounter limitations such as: Limited SQL language syntax,slow search speed when searching approximate (using LIKE) in the database. Whilestudying, we find that information retrieval websites, such as thuvienphapluat.vn, are thosethat can be exploited with a large amount of data and each document is usually very longand has a great linguistic overlap. These facts affect the performance of users search. Forthe above reasons, we are going to develop and improve the ability to search for informationon legal documents.Keyword: Apache Lucene, crawling data, Elasticsearch, indexing, vnTokenizer.1021 GIỚI THIỆU CHUNGTruy vấn thông tin là hoạt động thu thập các nguồn thông tin liên quan đến một thông tin cầntìm kiếm, có thể dựa trên siêu dữ liệu (metadata) và trên việc đánh chỉ mục toàn văn bản(hoặc dựa vào nội dung khác). Những hệ thống truy vấn thông tin tự động được sử dụng đểgiảm thiểu việc quá tải thông tin. Nhiều các trường đại học và thư viện công cộng sử dụnghệ thống truy hồi thông tin để cung cấp truy cập đến sách báo và các tài liệu khác. Các máytìm kiếm trên website được coi là những ứng dụng truy vấn thông tin dễ nhận thấy nhất. Cáccông cụ tìm kiếm được tích hợp vào website thì có rất nhiều, trong đó công cụ được biết đếnkhá mạnh về lĩnh vực truy vấn thông tin thì không thể nói đến Elasticsearch để giải quyếtviệc tìm kiếm bằng thời gian thực và độ chính xác các văn bản trả về có độ tương quan cao.Để giải quyết vấn đề nêu trên, chúng tôi đã đưa ra một trang website giả lập xử lý truy vấnthông tin trên trang Thư viện Pháp luật. Mục tiêu cung cấp ứng dụng là cải thiện phần tìmkiếm cho các trang website giúp người dùng có thể dễ dàng lấy đưa các văn bản trả về màmình mong muốn, đồng thời đảm bảo về mặt thời gian và ý nghĩa của việc tìm kiếm.2 TRIỂN KHAI PHẦN MỀMPhần này trình bày chi tiết môi trường đề xuất, công cụ và phương pháp thực hiện phầnnghiên cứu tích hợp Elasticsearch để truy vấn thông tin trên Thư viện Pháp luật.Trong thời đại bùng nổ thông tin, việc tìm kiếm “thông tin” trở nên rất cần thiết và yêu cầucao hơn. Ngày nay, có rất nhiều cách để tìm kiếm phổ biến được sử dụng trong trangwebsite là câu lệnh truy vấn LIKE trong cơ sở dữ liệu quan hệ SQL. Tuy nhiên, việc sử dụngcâu truy vấn như vậy gặp một số vấn đề làm sai kết quả hiển thị và thời gian truy xuất thôngtin. Ví dụ: Nếu tìm kiếm bằng truy vấn LIKE “%one%” thì kết quả sẽ chỉ cần chứa “one” là ra.Ví dụ: các từ trong tiếng Anh như “phone”, “zone”, “money”, “alone”, … nói chung sẽ là mộtdanh sách kết quả không mong muốn. Còn đối với tiếng Việt, các từ khoá có dấu là “có”, nếutruy vấn LIKE chỉ gõ “co” thì sẽ không trả về được chính xác kết quả về hiệu suất truy vấnLIKE sẽ tìm kiếm đơn thuần toàn văn bản không sử dụng index, nghĩa là tập dữ liệu cànglớn thì tìm kiếm càng lâu. ...

Tài liệu được xem nhiều: