Truy vấn thông tin trên văn bản pháp luật
Số trang: 7
Loại file: pdf
Dung lượng: 400.83 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Với sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do con người tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong kho tài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng.
Nội dung trích xuất từ tài liệu:
Truy vấn thông tin trên văn bản pháp luật TRUY VẤN THÔNG TIN TRÊN VĂN BẢN PHÁP LUẬT Phan Hải Đăng, Dương Thanh Toàn Viện Công nghệ Việt – Nhật (VJIT), Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD: TS. Lê Thị Ngọc ThơTÓM TẮTVới sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do conngười tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong khotài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng.Tuy nhiên, một trong những khó khăn mà con người gặp phải trong việc khai thác thông tinlà: Khả năng tìm kiếm chính xác thông tin cần tìm trong kho tài liệu, khả năng tìm kiếmnhanh với lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ để tìm kiếm dữliệu thì sẽ gặp phải các hạn chế như: Bị giới hạn cú pháp của ngôn ngữ SQL, tốc độ tìmkiếm chậm khi tìm kiếm gần đúng (dùng LIKE) trong cơ sở dữ liệu. Qua tìm hiểu thì chúngtôi thấy trang truy vấn thông tin pháp luật như thuvienphapluat.vn là trang website có thểkhai thác được với lượng dữ liệu lớn và mỗi một tài liệu thường rất dài và có sự trùng lắp vềmặt ngôn ngữ là rất lớn.Việc đó, gây ảnh hướng đến việc tìm kiếm của người sử dụng. Vì lído trên, chúng tôi mong muốn phát triển và cải thiện khả năng tìm kiếm thông tin trên vănbản pháp luật.Từ khóa: Apache Lucene, Elasticsearch, indexing, thu thập dữ liệu, vnTokenizer.ABSTRACTWith the continuous development of information technology, the number of electronicdocuments created by human is increasingly rich and diverse. The demand for this dataexploitation in the document warehouse is huge, this is in the daily necessities, practicalusers. However, one of the difficulties that we encounter in the exploitation of information is:the ability to search for accurate information to look for in document repositories, searchcapabilities with large amounts of data quickly. If you use relational database managementsystems to search data, you will encounter limitations such as: Limited SQL language syntax,slow search speed when searching approximate (using LIKE) in the database. Whilestudying, we find that information retrieval websites, such as thuvienphapluat.vn, are thosethat can be exploited with a large amount of data and each document is usually very longand has a great linguistic overlap. These facts affect the performance of users search. Forthe above reasons, we are going to develop and improve the ability to search for informationon legal documents.Keyword: Apache Lucene, crawling data, Elasticsearch, indexing, vnTokenizer.1021 GIỚI THIỆU CHUNGTruy vấn thông tin là hoạt động thu thập các nguồn thông tin liên quan đến một thông tin cầntìm kiếm, có thể dựa trên siêu dữ liệu (metadata) và trên việc đánh chỉ mục toàn văn bản(hoặc dựa vào nội dung khác). Những hệ thống truy vấn thông tin tự động được sử dụng đểgiảm thiểu việc quá tải thông tin. Nhiều các trường đại học và thư viện công cộng sử dụnghệ thống truy hồi thông tin để cung cấp truy cập đến sách báo và các tài liệu khác. Các máytìm kiếm trên website được coi là những ứng dụng truy vấn thông tin dễ nhận thấy nhất. Cáccông cụ tìm kiếm được tích hợp vào website thì có rất nhiều, trong đó công cụ được biết đếnkhá mạnh về lĩnh vực truy vấn thông tin thì không thể nói đến Elasticsearch để giải quyếtviệc tìm kiếm bằng thời gian thực và độ chính xác các văn bản trả về có độ tương quan cao.Để giải quyết vấn đề nêu trên, chúng tôi đã đưa ra một trang website giả lập xử lý truy vấnthông tin trên trang Thư viện Pháp luật. Mục tiêu cung cấp ứng dụng là cải thiện phần tìmkiếm cho các trang website giúp người dùng có thể dễ dàng lấy đưa các văn bản trả về màmình mong muốn, đồng thời đảm bảo về mặt thời gian và ý nghĩa của việc tìm kiếm.2 TRIỂN KHAI PHẦN MỀMPhần này trình bày chi tiết môi trường đề xuất, công cụ và phương pháp thực hiện phầnnghiên cứu tích hợp Elasticsearch để truy vấn thông tin trên Thư viện Pháp luật.Trong thời đại bùng nổ thông tin, việc tìm kiếm “thông tin” trở nên rất cần thiết và yêu cầucao hơn. Ngày nay, có rất nhiều cách để tìm kiếm phổ biến được sử dụng trong trangwebsite là câu lệnh truy vấn LIKE trong cơ sở dữ liệu quan hệ SQL. Tuy nhiên, việc sử dụngcâu truy vấn như vậy gặp một số vấn đề làm sai kết quả hiển thị và thời gian truy xuất thôngtin. Ví dụ: Nếu tìm kiếm bằng truy vấn LIKE “%one%” thì kết quả sẽ chỉ cần chứa “one” là ra.Ví dụ: các từ trong tiếng Anh như “phone”, “zone”, “money”, “alone”, … nói chung sẽ là mộtdanh sách kết quả không mong muốn. Còn đối với tiếng Việt, các từ khoá có dấu là “có”, nếutruy vấn LIKE chỉ gõ “co” thì sẽ không trả về được chính xác kết quả về hiệu suất truy vấnLIKE sẽ tìm kiếm đơn thuần toàn văn bản không sử dụng index, nghĩa là tập dữ liệu cànglớn thì tìm kiếm càng lâu. ...
Nội dung trích xuất từ tài liệu:
Truy vấn thông tin trên văn bản pháp luật TRUY VẤN THÔNG TIN TRÊN VĂN BẢN PHÁP LUẬT Phan Hải Đăng, Dương Thanh Toàn Viện Công nghệ Việt – Nhật (VJIT), Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD: TS. Lê Thị Ngọc ThơTÓM TẮTVới sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do conngười tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong khotài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng.Tuy nhiên, một trong những khó khăn mà con người gặp phải trong việc khai thác thông tinlà: Khả năng tìm kiếm chính xác thông tin cần tìm trong kho tài liệu, khả năng tìm kiếmnhanh với lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ để tìm kiếm dữliệu thì sẽ gặp phải các hạn chế như: Bị giới hạn cú pháp của ngôn ngữ SQL, tốc độ tìmkiếm chậm khi tìm kiếm gần đúng (dùng LIKE) trong cơ sở dữ liệu. Qua tìm hiểu thì chúngtôi thấy trang truy vấn thông tin pháp luật như thuvienphapluat.vn là trang website có thểkhai thác được với lượng dữ liệu lớn và mỗi một tài liệu thường rất dài và có sự trùng lắp vềmặt ngôn ngữ là rất lớn.Việc đó, gây ảnh hướng đến việc tìm kiếm của người sử dụng. Vì lído trên, chúng tôi mong muốn phát triển và cải thiện khả năng tìm kiếm thông tin trên vănbản pháp luật.Từ khóa: Apache Lucene, Elasticsearch, indexing, thu thập dữ liệu, vnTokenizer.ABSTRACTWith the continuous development of information technology, the number of electronicdocuments created by human is increasingly rich and diverse. The demand for this dataexploitation in the document warehouse is huge, this is in the daily necessities, practicalusers. However, one of the difficulties that we encounter in the exploitation of information is:the ability to search for accurate information to look for in document repositories, searchcapabilities with large amounts of data quickly. If you use relational database managementsystems to search data, you will encounter limitations such as: Limited SQL language syntax,slow search speed when searching approximate (using LIKE) in the database. Whilestudying, we find that information retrieval websites, such as thuvienphapluat.vn, are thosethat can be exploited with a large amount of data and each document is usually very longand has a great linguistic overlap. These facts affect the performance of users search. Forthe above reasons, we are going to develop and improve the ability to search for informationon legal documents.Keyword: Apache Lucene, crawling data, Elasticsearch, indexing, vnTokenizer.1021 GIỚI THIỆU CHUNGTruy vấn thông tin là hoạt động thu thập các nguồn thông tin liên quan đến một thông tin cầntìm kiếm, có thể dựa trên siêu dữ liệu (metadata) và trên việc đánh chỉ mục toàn văn bản(hoặc dựa vào nội dung khác). Những hệ thống truy vấn thông tin tự động được sử dụng đểgiảm thiểu việc quá tải thông tin. Nhiều các trường đại học và thư viện công cộng sử dụnghệ thống truy hồi thông tin để cung cấp truy cập đến sách báo và các tài liệu khác. Các máytìm kiếm trên website được coi là những ứng dụng truy vấn thông tin dễ nhận thấy nhất. Cáccông cụ tìm kiếm được tích hợp vào website thì có rất nhiều, trong đó công cụ được biết đếnkhá mạnh về lĩnh vực truy vấn thông tin thì không thể nói đến Elasticsearch để giải quyếtviệc tìm kiếm bằng thời gian thực và độ chính xác các văn bản trả về có độ tương quan cao.Để giải quyết vấn đề nêu trên, chúng tôi đã đưa ra một trang website giả lập xử lý truy vấnthông tin trên trang Thư viện Pháp luật. Mục tiêu cung cấp ứng dụng là cải thiện phần tìmkiếm cho các trang website giúp người dùng có thể dễ dàng lấy đưa các văn bản trả về màmình mong muốn, đồng thời đảm bảo về mặt thời gian và ý nghĩa của việc tìm kiếm.2 TRIỂN KHAI PHẦN MỀMPhần này trình bày chi tiết môi trường đề xuất, công cụ và phương pháp thực hiện phầnnghiên cứu tích hợp Elasticsearch để truy vấn thông tin trên Thư viện Pháp luật.Trong thời đại bùng nổ thông tin, việc tìm kiếm “thông tin” trở nên rất cần thiết và yêu cầucao hơn. Ngày nay, có rất nhiều cách để tìm kiếm phổ biến được sử dụng trong trangwebsite là câu lệnh truy vấn LIKE trong cơ sở dữ liệu quan hệ SQL. Tuy nhiên, việc sử dụngcâu truy vấn như vậy gặp một số vấn đề làm sai kết quả hiển thị và thời gian truy xuất thôngtin. Ví dụ: Nếu tìm kiếm bằng truy vấn LIKE “%one%” thì kết quả sẽ chỉ cần chứa “one” là ra.Ví dụ: các từ trong tiếng Anh như “phone”, “zone”, “money”, “alone”, … nói chung sẽ là mộtdanh sách kết quả không mong muốn. Còn đối với tiếng Việt, các từ khoá có dấu là “có”, nếutruy vấn LIKE chỉ gõ “co” thì sẽ không trả về được chính xác kết quả về hiệu suất truy vấnLIKE sẽ tìm kiếm đơn thuần toàn văn bản không sử dụng index, nghĩa là tập dữ liệu cànglớn thì tìm kiếm càng lâu. ...
Tìm kiếm theo từ khóa liên quan:
Truy vấn thông tin trên văn bản pháp luật Ngôn ngữ SQL Khái niệm chỉ mục ngược Khái niệm Web crawling Phương thức hoạt động của ElasticsearchGợi ý tài liệu liên quan:
-
Giáo trình Nhập môn cơ sở dữ liệu: Phần 2 - Trần Thành Trai
145 trang 68 0 0 -
Sao lưu và phục hồi dữ liệu với Cobian Backup- P1
5 trang 45 0 0 -
Giáo trình môn học: PHP và MySQL (Ngành/nghề: Thiết kế trang web) - Trường CĐN Đà Lạt
42 trang 43 0 0 -
Bài giảng Cơ sở dữ liệu: Chương 5 - Hoàng Thị Hà
121 trang 37 0 0 -
Nghiên cứu Cơ sở dữ liệu: Phần 1
164 trang 33 0 0 -
Giáo trình môn học Cơ sở dữ liệu
98 trang 32 0 0 -
Bài giảng môn học Hệ cơ sở dữ liệu: Chương 4 - Nguyễn Như Hoa
81 trang 32 0 0 -
Đề thi kết thúc môn học học kì 2 môn Cơ sở dữ liệu năm 2020-2021 có đáp án - Trường ĐH Đồng Tháp
3 trang 32 0 0 -
Bài giảng Nhập môn cơ sở dữ liệu
188 trang 30 0 0 -
Xây dựng các ứng dụng BPM bằng FileNet, Phần 1
14 trang 30 0 0