Danh mục

Sử dụng BERT và meta-path để nâng cao khả năng trả lời cho hệ hỏi đáp

Số trang: 8      Loại file: pdf      Dung lượng: 484.09 KB      Lượt xem: 17      Lượt tải: 0    
tailieu_vip

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Đọc hiểu tự động có sự hỗ trợ máy tính là một lĩnh vực nghiên cứu ngày càng phát triển trong những năm gần đây và đóng một vai trò quan trọng trong hệ thống hỏi đáp bằng ngôn ngữ tự nhiên. Các tiếp cận xây dựng hệ hỏi đáp hiện nay đã mang đến những kết quả tốt như tiếp cận dựa trên phân tích ngôn ngữ, mạng LSTM và BERT.
Nội dung trích xuất từ tài liệu:
Sử dụng BERT và meta-path để nâng cao khả năng trả lời cho hệ hỏi đáp Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0096 SỬ DỤNG BERT VÀ META-PATH ĐỂ NÂNG CAO KHẢ NĂNG TRẢ LỜI CHO HỆ HỎI ĐÁP Phan Hồ Viết Trường1, 3, Phan Hồng Trung1, 2, Đỗ Phúc1 1 Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh 2 Đại học Hoa Sen, Thành phố Hồ Chí Minh 3 Đại học Văn Lang, Thành phố Hồ Chí Minh phucdo@uit.edu.vn, trungphansg@gmail.com, truong.phv@vlu.edu.vn TÓM TẮT: Đọc hiểu tự động có sự hỗ trợ máy tính là một lĩnh vực nghiên cứu ngày càng phát triển trong những năm gần đây và đóng một vai trò quan trọng trong hệ thống hỏi đáp bằng ngôn ngữ tự nhiên. Các tiếp cận xây dựng hệ hỏi đáp hiện nay đã mang đến những kết quả tốt như tiếp cận dựa trên phân tích ngôn ngữ, mạng LSTM và BERT. Tuy nhiên, các tiếp cận này chỉ mới giải quyết vấn đề tìm câu trả lời có trong văn bản cho trước mà chưa giải quyết vấn đề suy luận những câu trả lời không nằm trong văn bản. Bài báo này sử dụng mô hình ngôn ngữ huấn luyện sẵn BERT và đồ thị tri thức (KG) để giải quyết những hạn chế nêu trên nhằm cải thiện khả năng trả lời của hệ thống hỏi đáp. Cụ thể, chúng tôi tập trung nghiên cứu về meta-path của một đồ thị tri thức để rút bộ ba mối quan hệ giữa các thực thể. Giải pháp này kết hợp thông tin dựa trên nội dung và liên kết của các bộ ba trong đồ thị tri thức để giải quyết vấn đề trên. Chúng tôi đã sử dụng meta path để tạo các path instance và mô hình BERT để phân loại các bộ ba theo các mô tả các thành phần trong bộ ba. Phương pháp của chúng tôi đạt độ chính xác trung bình là 93,34 %, trong khi đó, TEKE, DistMult có độ chính xác thấp hơn 86 %, TransSparse, AATE, DisMult-HRS có độ chính xác từ 86 % đến 90 % và KG-BERT có độ chính xác là 92,23 %. Từ khóa: học sâu, đồ thị tri thức, hệ hỏi đáp, meta path, BERT. I. GIỚI THIỆU Sử dụng đồ thị tri thức (KG) để cải thiện hệ thống trả lời câu hỏi là một nghiên cứu tiềm năng trong những năm gần đây và đóng một vai trò quan trọng trong hệ thống Hỏi và Đáp bằng ngôn ngữ tự nhiên (Galkin, 2020). Hơn nữa, sự xuất hiện của mô hình ngôn ngữ huấn luyện sẵn BERT đã cải tiến đáng kể cho hệ hỏi đáp. Việc dùng đồ thị giúp việc tìm mối quan hệ giữa các thực thể trong đồ thị, trong khi việc dùng BERT giúp việc xử lý nội dung văn bản đạt độ chính xác cao. Chúng tôi kết hợp BERT và đồ thị tri thức để sử dụng những ưu điểm của các tiếp cận này cho hệ hỏi đáp. Trước nghiên cứu của chúng tôi, Liang Yao. et al. (Liang Yao, 2019) đã kết hợp đồ thị tri thức và BERT để kiểm tra tính đầy đủ của đồ thị tri thức. Nghiên cứu của họ có hai đặc điểm: Thứ nhất, họ tạo bộ ba từ các thực thể đầu và cuối theo cách thủ công, trong khi chúng chúng tôi sử dụng meta-path và path instance để tạo các bộ ba dùng GraphFrames. Thứ hai, Liang Yao đã sử dụng mô hình BERT để kiểm tra xem các bộ ba mới có hợp lệ hay không. Trong khi đó, chúng tôi đã áp dụng BERT để phân loại các bộ ba theo các văn bản mô tả chúng. Chúng tôi dùng mô hình này để xây dựng mô hình phân loại bộ ba. Mỗi bộ ba được chuyển đổi thành văn bản dựa trên các mô tả h, p, t và chúng tôi sử dụng văn bản này và nhãn lớp làm đầu vào cho mô hình phân loại bộ ba dựa trên BERT. Mô hình này tương tự như mô hình phân loại văn bản dựa trên BERT (Chi Sun, 2020). Sau khi huấn luyện mô hình phân loại bộ ba, mô hình có thể phân loại bộ ba thành một trong 3 lớp. Chúng tôi kết hợp thông tin dựa trên meta- path và dựa trên nội dung (mô tả h, p, t) làm đặc trưng cho bộ ba để xây dựng mô hình phân loại bộ ba. Mô hình BERT được sử dụng để tạo vectơ nhúng theo mô tả bộ ba được tạo từ đồ thị tri thức. Những đóng góp chính của chúng tôi được tóm tắt như sau: • Tạo bộ ba từ tất cả các meta-path của HIN bằng cách quét lược đồ mạng và sử dụng Motif Finding của GraphFrames trên HIN lớn. • Xây dựng mô hình phân loại bộ ba dựa trên BERT để phân loại bộ ba bằng cách sử dụng tất cả bộ ba được tạo ra từ tất cả các path instance của meta path. • Xây dựng mô hình phân loại văn bản dựa trên BERT cho nội dung của các bộ ba bằng cách chuyển các bộ ba đã tạo thành văn bản để phân loại văn bản bằng BERT. II. NGHIÊN CỨU LIÊN QUAN Trong đồ thị tri thức (KG), tất cả các thực thể có nhiều kiểu khác nhau được coi là một hệ thông tin không đồng nhất (HIN) (Chuan Shi, 2017) (Do, 2019). Trong HIN, một meta path là một khái niệm quan trọng để truy xuất thông tin. Meta-path là một chuỗi các thực thể và liên kết giữa các thực thể. Ví dụ, trong VNTKG, (Beauti-ful_Sight)→ [location_at]→ (Province) là meta path có độ dài 1, (Beautiful_Sight) → [location_at] → (Province) → [Is_In] → (Region) là một meta path có độ dài 2. Mỗi meta-path xác định mối quan hệ giữa các thực thể. Ví dụ về quan hệ trực tiếp là liên kết 'location_at' trong meta-path (Beautiful_Sight) → [location_at] → (Province) và quan hệ gián tiếp 'location_at_is_in' trong meta-path (Beautiful_Sight) → [location_at] → (Province) → [is_in]→ (Region). Do đó, một quan hệ trực tiếp hoặc gián tiếp sẽ được xác định bởi một meta-path, trong đó quan hệ trực tiếp có cùng tên với tên của Đỗ Phúc, Phan Hồng Trung, Phan Hồ Viết Trường 507 liên kết trong meta-path và quan hệ gián tiếp có tên được tạo bằng cách nối các liên kết trong meta-path. Mỗi meta path có một tập hợp các path instance. Một path instance là đường ...

Tài liệu được xem nhiều: