Mô hình Transformers và ứng dụng trong xử lý ngôn ngữ tự nhiên
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Mô hình Transformers và ứng dụng trong xử lý ngôn ngữ tự nhiên KHOA HỌC - CÔNG NGHỆ MÔ HÌNH TRANSFORMERS VÀ ỨNG DỤNG TRONG XỬ LÝ NGÔN NGỮ TỰ NHIÊN TRANSFORMERS MODEL AND APPLY IN NATURAL LANGUAGE PROCESSING Trần Hồng Việt, Nguyễn Thu Hiền Khoa Công nghệ thông tin, Trường Đại học Kinh tế - Kỹ thuật Công nghiệp Đến tòa soạn ngày 20/07/2020, chấp nhận đăng ngày 12/08/2020 Tóm tắt: Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu đa dạng với nhiều nhiệm vụ riêng biệt, mỗi nhiệm vụ được đánh giá bởi bộ dữ liệu đặc thù. Trong thực tế, một số bài toán có ít dữ liệu gán nhãn chất lượng cao để huấn luyện mô hình, dẫn tới hiệu năng chưa cao. Giải quyết vấn đề này, một số mô hình sử dụng cơ chế tiền xử lý dữ liệu huấn luyện bằng việc sử dụng các mô hình biểu diễn từ chung, được huấn luyện từ một lượng lớn các dữ liệu không được gán nhãn như Word2vec, Glove hay FastText. Tuy nhiên, các mô hình đó không thể hiện được sự đại diện theo ngữ cảnh cụ thể của từ. Trong dịch máy thường sử dụng kiến trúc Recurrent Neural Networks. Mô hình này khó bắt được sự phụ thuộc xa giữa các từ trong câu và tốc độ huấn luyện chậm. Transformers là một kiến trúc mạng nơron nhân tạo được đề xuất để khắc phục các nhược điểm trên. Bài báo này, chúng tôi trình bày kiến trúc Transformers, đề xuất mô hình dịch máy sử dụng kiến trúc Transformers. Kết quả thực nghiệm trên cặp ngôn ngữ Anh - Việt và Việt - Anh chứng minh rằng, mô hình do chúng tôi đề xuất đạt hiệu năng vượt trội so với các mô hình trước đó. Từ khóa: Trí tuệ nhân tạo, biến đổi, xử lý ngôn ngữ tự nhiên, nhúng từ, nhúng từ cảm ngữ cảnh, dịch máy. Abstract: Natural language processing is a diverse field of research with many separate tasks, most of which are specific to each task. In fact, the lack of high quality labeling data to train the model, has a great impact on the performance and quality of natural language processing systems. To solve this problem, many models use a training data preprocessing mechanism by converting a trained generic model from large amounts of unlabeled data. For example, some models have implemented this task such as Word2vec, Glove or FastText. However, the above models do not represent the contextual representation of the word in a particular field or context. Natural language processing tasks, especially machine translation using Recurrent Neural Networks architecture. This method is difficult to capture the long dependence between words in a sentence and the training speed is slow due to sequential input processing. Transformers was born to solve these two problems. In this paper, we focus on the Transformers model and its application in natural language processing. Keywords: Artificial intelligence, transformers, natural language processing, word embeddings, contextual word embedding, machine translation. 1. GIỚI THIỆU biệt. Trong đó, mỗi nhiệm vụ được đánh giá Xử lý ngôn ngữ tự nhiên là một lĩnh vực bởi một bộ dữ liệu đặc thù. Để thực hiện tốt nghiên cứu đa dạng với nhiều nhiệm vụ riêng những nhiệm vụ này cần bộ dữ liệu rất lớn. Tuy 32 TẠP CHÍ KHOA HỌC & CÔNG NGHỆ . SỐ 27 - 2021 KHOA HỌC - CÔNG NGHỆ nhiên, trong thực tế hầu hết các tập dữ liệu hiện được hiệu năng vượt trội so với các mô hình nay chỉ chứa số ít được gán nhãn bằng tay bởi trước đây (state-of-the-art) trên một số tác vụ con người. Trong thực tế, một số bài toán có ít xử lý ngôn ngữ tự nhiên. Đây là kiến trúc được dữ liệu gán nhãn có chất lượng cao để huấn biết đến nhiều trong deep learning, là cơ sở của luyện mô hình, dẫn tới hiệu năng của hệ thống hàng loạt các mô hình BERT khác nhau sau xử lý ngôn ngữ tự nhiên tương ứng chưa cao. này. Trong bài báo này, chúng tôi trình bày về mô hình Transformers và ứng dụng trong xử lý Giải quyết vấn đề này, nhiều mô hình xử lý ngôn ngữ tự nhiên. ngôn ngữ tự nhiên sử dụng một cơ chế tiền xử lý dữ liệu huấn luyện bằng việc chuyển đổi từ 2. KIẾN TRÚC TRANSFORMERS một mô hình chung được huấn luyện từ một Kiến trúc Transformers cũng sử dụng hai lượng lớn các dữ liệu không được gán nhãn. Ví phần Encoder và Decoder khá giống RNNs. dụ một số mô hình đã thực hiện nhiệm vụ này Điểm khác biệt là input được đẩy vào cùng như Word2vec, Glove hay FastText. một lúc, không còn khái niệm time-step trong Việc nghiên cứu các mô hình này sẽ giúp thu Transformers nữa. Cơ chế Self-Attention thay hẹp khoảng cách giữa các tập dữ liệu chuyên thế cho 'recurrent' của RNNs. biệt cho huấn luyện bằng việc xây dựng mô hình tìm ra đại diện chung của ngôn ngữ sử dụng một số lượng lớn các văn bản chưa được gán nhãn lấy từ các trang web. Các pre-train model khi được tinh chỉnh lại trên các nhiệm vụ khác nhau với các bộ dữ liệu nhỏ như Question Answering, Sentiment Analysis,... cải thiện đáng kể về độ chính xác cho so với các mô hình được huấn luyện trước với các bộ dữ liệu này. Tuy nhiên, các mô hình Word2vec, Glove hay FastText có những yếu điểm riêng của nó, đặc biệt là không thể hiện được sự đại diện theo ngữ cảnh cụ thể của từ trong từng lĩnh vực hay văn cảnh cụ thể. Đối với các tác vụ xử lý ngôn ng ...
Tìm kiếm theo từ khóa liên quan:
Trí tuệ nhân tạo Xử lý ngôn ngữ tự nhiên Nhúng từ cảm ngữ cảnh Kiến trúc Transformers Bài toán dịch máyTài liệu cùng danh mục:
-
62 trang 388 3 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 369 6 0 -
Bài giảng Phân tích thiết kế hệ thống thông tin: Chương 3 - Hệ điều hành Windowns XP
39 trang 318 0 0 -
Phương pháp truyền dữ liệu giữa hai điện thoại thông minh qua môi trường ánh sáng nhìn thấy
6 trang 307 0 0 -
Đề cương chi tiết học phần Cấu trúc dữ liệu và giải thuật (Data structures and algorithms)
10 trang 299 0 0 -
Đáp án đề thi học kỳ 2 môn cơ sở dữ liệu
3 trang 288 1 0 -
Giáo trình Cơ sở dữ liệu: Phần 2 - TS. Nguyễn Hoàng Sơn
158 trang 279 0 0 -
PHÂN TÍCH THIẾT KẾ HỆ THỐNG XÂY DỰNG HỆ THỐNG ĐẶT VÉ TÀU ONLINE
43 trang 276 2 0 -
Phân tích thiết kế hệ thống - Biểu đồ trạng thái
20 trang 265 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 247 0 0
Tài liệu mới:
-
Khảo sát tình trạng dinh dưỡng trước mổ ở người bệnh ung thư đại trực tràng
9 trang 20 0 0 -
94 trang 18 0 0
-
Tham vấn Thanh thiếu niên - ĐH Mở Bán công TP Hồ Chí Minh
276 trang 19 0 0 -
Kết hợp luân phiên sóng T và biến thiên nhịp tim trong tiên lượng bệnh nhân suy tim
10 trang 18 0 0 -
Đề thi giữa học kì 1 môn Ngữ văn lớp 9 năm 2024-2025 có đáp án - Trường THCS Nguyễn Trãi, Thanh Khê
14 trang 20 0 0 -
Đánh giá hiệu quả giải pháp phát triển thể chất cho sinh viên Trường Đại học Kiến trúc Hà Nội
8 trang 18 0 0 -
Tỉ lệ và các yếu tố liên quan đoạn chi dưới ở bệnh nhân đái tháo đường có loét chân
11 trang 19 0 0 -
39 trang 18 0 0
-
Đề thi học kì 1 môn Tiếng Anh lớp 6 năm 2024-2025 có đáp án - Trường TH&THCS Quang Trung, Hội An
6 trang 18 1 0 -
Tôm ram lá chanh vừa nhanh vừa dễRất dễ làm, nhanh gọn mà lại ngon. Nhà mình
7 trang 18 0 0