Tìm kiếm thông tin pháp luật tiếng Việt bằng truy vấn thông tin nhị phân

Số trang: 7 Loại file: pdf Dung lượng: 490.26 KB Lượt xem: 11 Lượt tải: 0

10.10.2023

Phí lưu trữ: 4,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết trình bày việc tìm kiếm thông tin pháp luật tiếng Việt bằng truy vấn thông tin nhị phân. Để khắc phục các vấn đề trên nhóm đã áp dụng phương pháp Boolean retrieval để hỗ trợ việc tìm kiếm pháp luật một cách nhanh và chính xác hơn.
Nội dung trích xuất từ tài liệu:
Tìm kiếm thông tin pháp luật tiếng Việt bằng truy vấn thông tin nhị phân TÌM KIẾM THÔNG TIN PHÁP LUẬT TIẾNG VIỆT BẰNG TRUY VẤN THÔNG TIN NHỊ PHÂN Nguyễn Tiến Dũng, Nguyễn Hoàng Long và Trương Triệu Thiên Khoa Công nghệ Thông tin, Trường Đại học Công Nghệ TP. Hồ Chí Minh GVHD: TS. Lê Thị Ngọc ThơTÓM TẮTHiện nay, khi xã hội càng trở nên tiên tiến và con người càng dễ dàng tiếp cận với những tri thức khoa học hiệnđại thì việc tìm kiếm thông tin là một nhu cầu không thể thiếu. Pháp luật cũng chính là một trong những chủđề được rất nhiều người quan tâm. Luật pháp được vận dụng ngày càng phổ biến trong đời sống do tính quantrọng đến các vấn đề về xã hội và quyền lợi. Do đó, các thông tin về pháp luật được mọi người tìm kiếm rấtnhiều trên các trang mạng. Điều này có thể gây ra một số vấn đề như việc đưa sai thông tin pháp luật, kết quảtrả về chưa phù hợp với mong muốn của người dùng. Để khắc phục các vấn đề trên nhóm đã áp dụng phươngpháp Boolean retrieval để hỗ trợ việc tìm kiếm pháp luật một cách nhanh và chính xác hơn.Từ khóa: Boolean model, full text search, Information retrieval, retrieval models, truy hồi thông tin.1. GIỚI THIỆUHệ thống được tạo ra nhằm mục đích hỗ trợ người dùng tìm kiếm thông tin pháp luật một cách chính xác nhấtcó thể mà không cần hiểu biết nhiều về các từ khóa liên quan đến pháp luật. Khi sử dụng, người dùng chỉ cầnnhập câu truy vấn thì hệ thống sẽ trả về một danh sách kết quả được cho là phù hợp nhất với câu truy vấn (vídụ: khi tìm kiếm thông tin về “thiên tai Việt Nam” thì hệ thống sẽ trả về các thông tin pháp luật liên quan nhấtđến thiên tai như: các công văn, quyết định về phòng chống thiên tai, cảnh báo về thiên tai, quản lý rủi ro thiêntai…). Hệ thống được nhóm xây dựng dựa trên thư viện Apache Lucene và dựa trên cơ sở lý thuyết của truyvấn thông tin nhị phân. Nhóm lựa chọn thư viện Lucene vì đây là thư viện hỗ trợ rất tốt cho một hệ thống truyhồi thông tin. Ngoài ra, các văn bản pháp luật là dữ liệu nội bộ nên không thể đánh chỉ mục bằng google nênLucene là sự lựa chọn phù hợp. Tuy nhiên, Lucene được phát triển để hỗ trợ tìm kiếm thông tin bằng tiếng Anhnên nhóm thực hiện nghiên cứu việc áp dụng thư viện Lucene vào tiếng Việt.2. PHƯƠNG PHÁP THỰC HIỆNDưới đây là các bước thể hiện quy trình thực hiện khi xây dựng hệ thống: 101 Hình 1: Quy trình cơ bản của hệ thống truy hồi thông tin [1].Bước 1: Tìm kiếm, xây dựng bộ cơ sở dữ liệu về pháp luật dưới dạng json.Bước 2: Tiền xử lý dữ liệu: đây là một trong những bước quan trọng giúp văn bản gốc trở nên có cấu trúc hơntạo thuận lợi cho hệ thống xử lý. Ở nghiên cứu này, nhóm đã thực hiện một số cách tiền xử lý như: chuẩn hóatừ (biến đổi tất cả các ký tự thành dạng viết thường, xóa dấu tiếng Việt), tách từ tiếng Việt (ví dụ: “thiên tai tạiViệt Nam” sau khi tách sẽ là “thiên_tai tại Việt_Nam”), xóa hư từ (ví dụ: “thiên tai tại Việt Nam” sau khi loạibỏ hư từ sẽ là “thiên tai Việt Nam”). Trong phần này, nhóm đã sử dụng thư viện VNCoreNLP trên mã nguồnmở github [5] để hỗ trợ tách từ tiếng Việt.Bước 3: Lập chỉ mục dữ liệu: thư viện Lucene sẽ hỗ trợ phân tích các dữ liệu thành các token (token là một dãycác ký tự mang ý nghĩa cụ thể, biểu thị cho một đơn vị ngữ nghĩa trong xử lý ngôn ngữ).Bước 4: Phân tích, xử lý câu truy vấn: câu truy vấn cần được xử lý theo cùng cách thức với việc tiền xử lý dữliệu gốc ở bước 2. Bên cạnh đó, nhóm đã thực nghiệm một số phương pháp mở rộng câu truy vấn như thêm từđồng nghĩa, từ gần nghĩa vào câu truy vấn (nhóm sử dụng bộ từ đồng nghĩa vietnamese-wordnet của tác giảzeloru trên mã nguồn mở github [4]).Bước 5: Tìm kiếm: thư viện Apache Lucene sẽ tự động so khớp sự tương đồng giữa câu truy vấn đã được phântích với các từ chỉ mục của cơ sở dữ liệu để tìm ra các kết quả phù hợp nhất dựa trên số lần xuất hiện của cáctừ chỉ mục trong câu truy vấn.Bước 6: Đánh giá hệ thống: hệ thống cần phải được đánh giá để xác định độ chính xác cũng như so sánh khảnăng của các mô hình trong những trường hợp khác nhau. Có rất nhiều độ đo để đánh giá một hệ thống truyhồi thông tin. Ở đây nhóm dùng 3 bộ đo cơ bản thường được sử dụng là precision, recall, f-measure. Với côngthức là: |{relavant docs} ∩ {retrieved docs}| |{relavant docs} ∩ {retrieved docs}| precision = |{retrieved docs}| recall = |{relavant docs}| 102 precision * recall F-measure = 2* precision + recallVới relavant docs là kết quả trả về của một câu truy vấn phù hợp với mong muốn của người dùng (thường đượcdựa trên tệp dữ liệu được đánh dấu thủ công) và retrieved docs là kết quả trả về của một câu truy vấn mà hệthống truy hồi thông tin đề xuất.3. THỰC NGHIỆM:3.1 Mô tả dữ liệu thực nghiệmỞ đây, nhóm sử dụng cơ sở dữ liệu gồm 2136 văn bản pháp luật được viết theo dạng json với các nội dungchính của một văn bản pháp luật là title (tiêu đề), description (miêu tả) và paragraph (nội dung). Dưới đây làcấu trúc một văn bản của cơ sở dữ liệu: { url: https://thuvienphapluat.vn/van-ban/Lao-dong-Tien..., title: QUYẾT ĐỊNH, paragraph: [“Căn cứ Luật tổ chức Hội đồng nhân dân và…”], description: VỀ CHẾ ĐỘ PHỤ CẤP ĐỐI VỚI CÁN …, DocID: 2143 }Bên cạnh đó, nhóm còn có một bộ dữ liệu kiểm thử được làm thủ công ...