Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec
Số trang: 9
Loại file: pdf
Dung lượng: 254.84 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Bài viết trình bày việc tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản.
Nội dung trích xuất từ tài liệu:
Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH WORD2VEC Ngô Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Công1, Nguyễn Mạnh Trường3 Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của phương pháp đề xuất được nâng từ 47.37% lên 79.07%. Từ khóa: Xử lý ngôn ngữ tự nghiên; Học sâu; Độ tương tự ngữ nghĩa; Mô hình vector từ. 1. ĐẶT VẤN ĐỀ Đánh giá độ tương tự ngữ nghĩa giữa các văn bản đóng vai trò quan trọng trong phát triển các ứng dụng xử lý ngôn ngữ tự nhiên như: mô hình vector trong các bài toán tìm kiếm thông tin, phân lớp văn bản, dịch máy tự động, đánh giá tính chặt chẽ của văn bản, … Trong một số trường hợp, phương pháp đánh giá độ tương tự giữa hai đoạn văn bản sử dụng việc so khớp từ đơn giản, dựa trên số đơn vị từ vựng xuất hiện ở cả hai đoạn văn bản đầu vào. Một số cải tiến với phương pháp đơn giản này đã được đề xuất để nâng cao hiệu quả đánh giá: xem xét đến gốc từ (stemming), loại bỏ các từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp tập con dài nhất, …. Tuy nhiên, sử dụng độ tương tự từ vựng không phải lúc nào cũng xác định được độ tương tự ngữ nghĩa văn bản. Trong khi đó có rất nhiều phương pháp đánh giá độ tương tự ngữ nghĩa giữa từ với từ, hoặc dựa trên cơ sở tri thức (knowledge-based), hoặc dựa trên kho ngữ liệu (corpus-based). Các độ đo này được áp dụng thành công trong một số bài toán xử lý ngôn ngữ như phát hiện từ dùng sai nghĩa, nhận dạng từ đồng nghĩa, …. Từ đó, một số nghiên cứu đưa ra các phương pháp đánh giá độ tương tự ngữ nghĩa văn bản dựa trên việc khai thác các thông tin có được từ độ tương tự ngữ nghĩa của các từ thành phần trong văn bản [6, 9, 12]. Đối với văn bản tiếng Việt, các mô hình tính độ tương tự văn bản thường dựa trên quan hệ ngữ nghĩa giữa các từ. Một số mô hình dựa trên bộ từ điển đồng nghĩa WordNet dành cho tiếng Anh [1], do WordNet cho tiếng Việt hiện vẫn đang được hoàn thiện và chưa được công bố. Do đó, các phương pháp dựa trên WordNet phụ thuộc vào việc dịch Anh – Việt. Một số phương pháp khác được đề xuất thay thế WordNet như phương pháp phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA), hay phân tích chủ đề ẩn (Latent Dirichlet Allocation – LDA), hoặc sử dụng mạng ngữ nghĩa Wikipedia [3]. Bên cạnh đó, nhóm tác giả H. N. Phát, H. H. Hạnh Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 103 Công nghệ thông tin và P. C. Vinh [2] đề xuất một phương pháp đánh giá độ tương tự giữa hai văn bản dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này không thể khẳng định được độ tương tự ngữ nghĩa của văn bản do chưa quan tâm đến hiện tượng đồng nghĩa của từ. Trong những năm gần đây, một nhóm các nhà nghiên cứu dẫn đầu bởi Tomas Mikolov tại Google đã đưa ra mô hình Word2Vec dựa trên kỹ thuật học sâu (Deep Learning) [7,8]. Mô hình Word2Vec cũng không đòi hỏi khối lượng tính toán nhiều như LDA và nó giữ được mối quan hệ tuyến tính giữa các từ với nhau so với mô hình LSA. Trong [8], Mikolov cũng chỉ ra rằng việc kết hợp mô hình Skip- Gram với giải thuật học sâu đem lại kết quả tốt hơn mô hình LSA. Mô hình Word2Vec biểu diễn các từ thông qua các vector thực, từ đó có thể tính độ tương tự giữa về mặt ngữ nghĩa giữa từ và từ (từ đồng nghĩa) thông qua độ đo Cosine giữa các vector từ tương ứng. Do vậy, trong nghiên cứu này, chúng tôi sử dụng mô hình vector từ Word2Vec, để đánh giá độ tương từ giữa từ với từ, sau đó kết hợp với độ đo được đề xuất ở [2] để đưa ra một phương pháp mới nhằm đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt. 2. PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ GIỮA 2 CÂU 2.1. Khoảng Levenshtein và ứng dụng trong bài toán so khớp Khoảng cách Levenshtein [11] thể hiện sự khác biệt giữa 2 xâu kí tự. Khoảng cách này được sử dụng trong việc tính toán sự giống và khác nhau giữa 2 xâu, như chương trình kiểm tra lỗi chính tả của Winword Spellchecker. Dựa trên khoảng cách Levenshtein, một độ đo để xác định sự tương tự về từ vựng của các câu được đề xuất như sau ...
Nội dung trích xuất từ tài liệu:
Phương pháp đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt dựa trên mô hình Word2Vec Nghiên cứu khoa học công nghệ PHƯƠNG PHÁP ĐÁNH GIÁ ĐỘ TƯƠNG TỰ NGỮ NGHĨA GIỮA CÁC VĂN BẢN TIẾNG VIỆT DỰA TRÊN MÔ HÌNH WORD2VEC Ngô Hữu Phúc1*, Phạm Văn Lai2, Vi Bảo Ngọc1, Nguyễn Chí Công1, Nguyễn Mạnh Trường3 Tóm tắt: Đánh giá độ tương tự ngữ nghĩa giữa các văn bản được sử dụng trong nhiều ứng dụng như tìm kiếm thông tin, tóm tắt văn bản,và dịch máy. Với văn bản tiếng Việt, một trong các hướng tiếp cận là dựa trên việc so khớp từ bởi vì đơn giản, và dễ cài đặt. Gần đây, một phương pháp đánh giá mới được phát triển dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này chưa quan tâm đến hiện tượng từ đồng nghĩa. Trong bài báo này, chúng tôi tích hợp mô hình Word2Vec vào phương pháp trên nhằm bổ sung việc đánh giá ngữ nghĩa của các từ trong văn bản. Kết quả thử nghiệm cho thấy độ chính xác trung bình của phương pháp đề xuất được nâng từ 47.37% lên 79.07%. Từ khóa: Xử lý ngôn ngữ tự nghiên; Học sâu; Độ tương tự ngữ nghĩa; Mô hình vector từ. 1. ĐẶT VẤN ĐỀ Đánh giá độ tương tự ngữ nghĩa giữa các văn bản đóng vai trò quan trọng trong phát triển các ứng dụng xử lý ngôn ngữ tự nhiên như: mô hình vector trong các bài toán tìm kiếm thông tin, phân lớp văn bản, dịch máy tự động, đánh giá tính chặt chẽ của văn bản, … Trong một số trường hợp, phương pháp đánh giá độ tương tự giữa hai đoạn văn bản sử dụng việc so khớp từ đơn giản, dựa trên số đơn vị từ vựng xuất hiện ở cả hai đoạn văn bản đầu vào. Một số cải tiến với phương pháp đơn giản này đã được đề xuất để nâng cao hiệu quả đánh giá: xem xét đến gốc từ (stemming), loại bỏ các từ dừng, gán nhãn từ loại (part-of-speech tagging), so khớp tập con dài nhất, …. Tuy nhiên, sử dụng độ tương tự từ vựng không phải lúc nào cũng xác định được độ tương tự ngữ nghĩa văn bản. Trong khi đó có rất nhiều phương pháp đánh giá độ tương tự ngữ nghĩa giữa từ với từ, hoặc dựa trên cơ sở tri thức (knowledge-based), hoặc dựa trên kho ngữ liệu (corpus-based). Các độ đo này được áp dụng thành công trong một số bài toán xử lý ngôn ngữ như phát hiện từ dùng sai nghĩa, nhận dạng từ đồng nghĩa, …. Từ đó, một số nghiên cứu đưa ra các phương pháp đánh giá độ tương tự ngữ nghĩa văn bản dựa trên việc khai thác các thông tin có được từ độ tương tự ngữ nghĩa của các từ thành phần trong văn bản [6, 9, 12]. Đối với văn bản tiếng Việt, các mô hình tính độ tương tự văn bản thường dựa trên quan hệ ngữ nghĩa giữa các từ. Một số mô hình dựa trên bộ từ điển đồng nghĩa WordNet dành cho tiếng Anh [1], do WordNet cho tiếng Việt hiện vẫn đang được hoàn thiện và chưa được công bố. Do đó, các phương pháp dựa trên WordNet phụ thuộc vào việc dịch Anh – Việt. Một số phương pháp khác được đề xuất thay thế WordNet như phương pháp phân tích ngữ nghĩa tiềm ẩn (Latent Semantic Analysis - LSA), hay phân tích chủ đề ẩn (Latent Dirichlet Allocation – LDA), hoặc sử dụng mạng ngữ nghĩa Wikipedia [3]. Bên cạnh đó, nhóm tác giả H. N. Phát, H. H. Hạnh Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 11 - 2018 103 Công nghệ thông tin và P. C. Vinh [2] đề xuất một phương pháp đánh giá độ tương tự giữa hai văn bản dựa trên việc so khớp từ và khoảng cách Levenshtein giữa 2 xâu. Tuy nhiên, phương pháp này không thể khẳng định được độ tương tự ngữ nghĩa của văn bản do chưa quan tâm đến hiện tượng đồng nghĩa của từ. Trong những năm gần đây, một nhóm các nhà nghiên cứu dẫn đầu bởi Tomas Mikolov tại Google đã đưa ra mô hình Word2Vec dựa trên kỹ thuật học sâu (Deep Learning) [7,8]. Mô hình Word2Vec cũng không đòi hỏi khối lượng tính toán nhiều như LDA và nó giữ được mối quan hệ tuyến tính giữa các từ với nhau so với mô hình LSA. Trong [8], Mikolov cũng chỉ ra rằng việc kết hợp mô hình Skip- Gram với giải thuật học sâu đem lại kết quả tốt hơn mô hình LSA. Mô hình Word2Vec biểu diễn các từ thông qua các vector thực, từ đó có thể tính độ tương tự giữa về mặt ngữ nghĩa giữa từ và từ (từ đồng nghĩa) thông qua độ đo Cosine giữa các vector từ tương ứng. Do vậy, trong nghiên cứu này, chúng tôi sử dụng mô hình vector từ Word2Vec, để đánh giá độ tương từ giữa từ với từ, sau đó kết hợp với độ đo được đề xuất ở [2] để đưa ra một phương pháp mới nhằm đánh giá độ tương tự ngữ nghĩa giữa các văn bản tiếng Việt. 2. PHƯƠNG PHÁP TÍNH ĐỘ TƯƠNG TỰ GIỮA 2 CÂU 2.1. Khoảng Levenshtein và ứng dụng trong bài toán so khớp Khoảng cách Levenshtein [11] thể hiện sự khác biệt giữa 2 xâu kí tự. Khoảng cách này được sử dụng trong việc tính toán sự giống và khác nhau giữa 2 xâu, như chương trình kiểm tra lỗi chính tả của Winword Spellchecker. Dựa trên khoảng cách Levenshtein, một độ đo để xác định sự tương tự về từ vựng của các câu được đề xuất như sau ...
Tìm kiếm theo từ khóa liên quan:
Xử lý ngôn ngữ tự nhiên Độ tương tự ngữ nghĩa Mô hình vector từ Tích hợp mô hình Word2Vec Đánh giá độ tương tự vănbản Tiếng Việt Văn bản tiếng ViệtTài liệu cùng danh mục:
-
3 trang 857 14 0
-
104 trang 658 9 0
-
67 trang 485 7 0
-
Giáo trình Dẫn luận ngôn ngữ: Phần 1 - Nguyễn Thiện Giáp
106 trang 475 0 0 -
Giáo trình Văn bản Hán Nôm: Phần 1 - TS. Trịnh Ngọc Ánh (Chủ biên)
96 trang 442 6 0 -
Lạ hóa một cuộc chơi - Tiểu thuyết Việt Nam đầu thế kỉ XXI: Phần 1
161 trang 424 13 0 -
Văn học Châu Mỹ tuyển chọn (Tập I): Phần 1
342 trang 384 10 0 -
So sánh từ xưng hô trong tiếng Việt và tiếng Hán
9 trang 379 3 0 -
Văn học bằng ngôn ngữ học-Thử xét văn hoá: Phần 1
366 trang 360 1 0 -
Tìm hiểu về thi pháp thơ Đường: Phần 1
233 trang 356 2 0
Tài liệu mới:
-
179 trang 0 0 0
-
9 trang 0 0 0
-
7 trang 0 0 0
-
85 trang 0 0 0
-
97 trang 0 0 0
-
Luận văn Thạc sĩ Quản lý kinh tế: Quản lý sử dụng vốn ODA của chính quyền tỉnh Lào Cai
108 trang 0 0 0 -
132 trang 0 0 0
-
Đề kiểm tra HK1 môn GDCD lớp 11 năm 2018-2019 - Sở GD&ĐT Quảng Nam - Mã đề 807
2 trang 2 0 0 -
Đề thi thử tốt nghiệp THPT năm 2021 môn GDCD có đáp án - Trường THPT Hai Bà Trưng
6 trang 0 0 0 -
Đề thi học kì 1 môn GDCD lớp 11 năm 2021-2022 có đáp án - Sở GD&ĐT Bắc Ninh
3 trang 3 0 0