Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng
Số trang: 5
Loại file: pdf
Dung lượng: 934.80 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết "Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng" trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng.Tác giả xây dựng được 7911 cặp câu hỏi được gán nhãn. Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản.
Nội dung trích xuất từ tài liệu:
Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng TẬP DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TÌM CÂU HỎI TƯƠNG ĐỒNG Hà Thị Thanh1*, Nguyễn Thị Oanh1 1 Trường Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái Nguyên * Email: htthanh@ictu.edu.vn Ngày nhận bài: 05/8/2022 Ngày nhận bài sửa sau phản biện: 10/11/2022 Ngày chấp nhận đăng: 14/11/2022 TÓM TẮT Bài toán tìm kiếm câu hỏi tương đồng là bài toán phổ biến và quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, có rất ít nghiên cứu về bài toán này trên tập dữ liệu tiếng Việt. Nguyên nhân của hiện tượng trên là do chưa có tập dữ liệu tiếng Việt chuẩn cho bài toán tìm kiếm câu hỏi. Trong bài báo này, chúng tôi trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng. Chúng tôi xây dựng được 7911 cặp câu hỏi được gán nhãn. Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản. Từ khóa: elastic search, máy tìm kiếm, tập dữ liệu. VIETNAMESE DATASET FOR THE FINDING SIMILAR QUESTION PROBLEM ABSTRACT Finding similar questions is a common problem in natural language processing. However, little research has been conducted on the question retrieval problem for Vietnamese. The reason for this is that there is no standard Vietnamese dataset for the finding question problem. In this paper, we created a method to build a Vietnamese dataset for the problem of finding similar questions. As a result, we built 7911 pairs of labeled questions. This dataset was evaluated on some basic machine learning models. Keywords: dataset, elastic search, search engine. 1. GIỚI THIỆU (câu hỏi mới) ᵍ và các câu hỏi ᵍ1 , ᵍ2 , . . . , ᵍᵊ trong kho dữ liệu của hệ thống hỏi đáp. Đầu Bài toán tìm câu hỏi tương đồng là bài ra trả về danh sách xếp hạng các câu hỏi sao toán trung gian hỗ trợ cho các hệ thống hỏi cho những câu tương đồng nhất với câu hỏi đáp tự động tìm kiếm câu trả lời cho câu hỏi truy vấn ở trên và câu không tương đồng nhất mới. Bài toán tìm kiếm câu hỏi tương đồng ở cuối của danh sách. Bài toán tìm câu hỏi tuy không phải là lĩnh vực nghiên cứu mới tương đồng về bản chất là một bước trung nhưng nó được sử dụng nhiều trong các hệ gian trong hệ thống hỏi đáp. Trong hội nghị thống hỏi đáp. Bài toán này còn có tên gọi Semeval 2017 (Nakov và cs., 2017), để giải khác là bài toán tìm kiếm câu hỏi hay phát quyết bài toán tìm câu trả lời tốt nhất cho câu hiện câu hỏi trùng lặp. hỏi mới, đầu tiên hệ thống sẽ thực hiện tìm Bài toán tìm câu hỏi tương đồng được các câu hỏi tương đồng với câu hỏi mới, sau định nghĩa như sau: Cho một câu hỏi truy vấn đó, một câu trả lời tốt nhất được chọn trong32 Số 05 (11/2022): 32 – 36 Số đặc biệt: Chuyển đổi số phục vụ phát triển kinh tế – xã hộisố các câu trả lời của các câu hỏi tương đồng. Kết quả nghiên cứu đã đóng góp bộ dữ liệuTrong các nghiên cứu của Zhou (Chan và cs., gồm 7911 cặp câu hỏi được gán nhãn. Tiếp2012; Yin và cs., 2016) sử dụng bài toán tìm theo, chúng tôi thực hiện đánh giá một số môkiếm câu hỏi tương đồng với mục đích tìm hình học máy cơ bản trên tập dữ liệu này.câu trả lời cho câu hỏi mới từ các câu trả lời 2. MỘT SỐ TẬP DỮ LIỆU TIẾNG ANHcó trong cơ sở dữ liệu. Trong phần này chúng tôi miêu tả một vài Ví dụ về cặp câu hỏi tương đồng: tập dữ liệu tiếng Anh cho hệ thống hỏi đáp, Câu hỏi 1: Làm ơn chỉ giùm tôi cách tắt trong đó có bài toán tìm câu hỏi tương đồng:phím slide to unclock trên Samsung S9 Plus Yahoo!webscope: Dữ liệu được thu thập từ Câu hỏi 2: Cá ...
Nội dung trích xuất từ tài liệu:
Tập dữ liệu tiếng Việt cho bài toán tìm câu hỏi tương đồng TẬP DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TÌM CÂU HỎI TƯƠNG ĐỒNG Hà Thị Thanh1*, Nguyễn Thị Oanh1 1 Trường Đại học Công nghệ Thông tin và Truyền thông, Đại học Thái Nguyên * Email: htthanh@ictu.edu.vn Ngày nhận bài: 05/8/2022 Ngày nhận bài sửa sau phản biện: 10/11/2022 Ngày chấp nhận đăng: 14/11/2022 TÓM TẮT Bài toán tìm kiếm câu hỏi tương đồng là bài toán phổ biến và quan trọng trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, có rất ít nghiên cứu về bài toán này trên tập dữ liệu tiếng Việt. Nguyên nhân của hiện tượng trên là do chưa có tập dữ liệu tiếng Việt chuẩn cho bài toán tìm kiếm câu hỏi. Trong bài báo này, chúng tôi trình bày một phương pháp xây dựng tập dữ liệu tiếng Việt cho bài toán tìm kiếm câu hỏi tương đồng. Chúng tôi xây dựng được 7911 cặp câu hỏi được gán nhãn. Đồng thời, tập dữ liệu này cũng được thử nghiệm đánh giá trên một số mô hình học máy cơ bản. Từ khóa: elastic search, máy tìm kiếm, tập dữ liệu. VIETNAMESE DATASET FOR THE FINDING SIMILAR QUESTION PROBLEM ABSTRACT Finding similar questions is a common problem in natural language processing. However, little research has been conducted on the question retrieval problem for Vietnamese. The reason for this is that there is no standard Vietnamese dataset for the finding question problem. In this paper, we created a method to build a Vietnamese dataset for the problem of finding similar questions. As a result, we built 7911 pairs of labeled questions. This dataset was evaluated on some basic machine learning models. Keywords: dataset, elastic search, search engine. 1. GIỚI THIỆU (câu hỏi mới) ᵍ và các câu hỏi ᵍ1 , ᵍ2 , . . . , ᵍᵊ trong kho dữ liệu của hệ thống hỏi đáp. Đầu Bài toán tìm câu hỏi tương đồng là bài ra trả về danh sách xếp hạng các câu hỏi sao toán trung gian hỗ trợ cho các hệ thống hỏi cho những câu tương đồng nhất với câu hỏi đáp tự động tìm kiếm câu trả lời cho câu hỏi truy vấn ở trên và câu không tương đồng nhất mới. Bài toán tìm kiếm câu hỏi tương đồng ở cuối của danh sách. Bài toán tìm câu hỏi tuy không phải là lĩnh vực nghiên cứu mới tương đồng về bản chất là một bước trung nhưng nó được sử dụng nhiều trong các hệ gian trong hệ thống hỏi đáp. Trong hội nghị thống hỏi đáp. Bài toán này còn có tên gọi Semeval 2017 (Nakov và cs., 2017), để giải khác là bài toán tìm kiếm câu hỏi hay phát quyết bài toán tìm câu trả lời tốt nhất cho câu hiện câu hỏi trùng lặp. hỏi mới, đầu tiên hệ thống sẽ thực hiện tìm Bài toán tìm câu hỏi tương đồng được các câu hỏi tương đồng với câu hỏi mới, sau định nghĩa như sau: Cho một câu hỏi truy vấn đó, một câu trả lời tốt nhất được chọn trong32 Số 05 (11/2022): 32 – 36 Số đặc biệt: Chuyển đổi số phục vụ phát triển kinh tế – xã hộisố các câu trả lời của các câu hỏi tương đồng. Kết quả nghiên cứu đã đóng góp bộ dữ liệuTrong các nghiên cứu của Zhou (Chan và cs., gồm 7911 cặp câu hỏi được gán nhãn. Tiếp2012; Yin và cs., 2016) sử dụng bài toán tìm theo, chúng tôi thực hiện đánh giá một số môkiếm câu hỏi tương đồng với mục đích tìm hình học máy cơ bản trên tập dữ liệu này.câu trả lời cho câu hỏi mới từ các câu trả lời 2. MỘT SỐ TẬP DỮ LIỆU TIẾNG ANHcó trong cơ sở dữ liệu. Trong phần này chúng tôi miêu tả một vài Ví dụ về cặp câu hỏi tương đồng: tập dữ liệu tiếng Anh cho hệ thống hỏi đáp, Câu hỏi 1: Làm ơn chỉ giùm tôi cách tắt trong đó có bài toán tìm câu hỏi tương đồng:phím slide to unclock trên Samsung S9 Plus Yahoo!webscope: Dữ liệu được thu thập từ Câu hỏi 2: Cá ...
Tìm kiếm theo từ khóa liên quan:
Tập dữ liệu tiếng Việt Bài toán tìm câu hỏi tương đồng Xử lý ngôn ngữ tự nhiên Phương pháp xây dựng tập dữ liệu Chuyển đổi sốGợi ý tài liệu liên quan:
-
11 trang 438 0 0
-
Chuyển đổi số trong bối cảnh cách mạng công nghiệp 4.0 - Kỷ yếu hội thảo khoa học quốc tế: Phần 2
471 trang 415 1 0 -
Định hướng quản lý thuế trên nền tảng số
3 trang 318 0 0 -
Báo cáo kế hoạch chuyển đổi số năm 2023 và dữ liệu số quốc gia
25 trang 308 1 0 -
12 trang 291 0 0
-
6 trang 284 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 250 0 0 -
Đề xuất mô hình quản trị tuân thủ quy trình dựa trên nền tảng điện toán đám mây
8 trang 249 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 248 0 0 -
7 trang 232 0 0