Nhận diện các thực thể lồng nhau trong hệ thống Chatbot đặt hàng
Số trang: 5
Loại file: pdf
Dung lượng: 938.25 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Nghiên cứu này đề xuất xây dựng một mô hình nhận diện thực thể lồng nhau trong hệ thống chatbot đặt hàng để trang bị cho bots khả năng hiểu và trích xuất nội dung câu đặt hàng của khách một cách tự động: Đó là khi người dùng nhập nội dung cần đặt hàng dưới dạng ngôn ngữ tự nhiên thì hệ thống sẽ tự động trích xuất ra thông tin đơn hàng một cách chính xác nhất có thể.
Nội dung trích xuất từ tài liệu:
Nhận diện các thực thể lồng nhau trong hệ thống Chatbot đặt hàng Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học NHẬN DIỆN CÁC THỰC THỂ LỒNG NHAU TRONG HỆ THỐNG CHATBOT ĐẶT HÀNG Đỗ Thị Hương*, Nguyễn Thị Huyền, Nguyễn Ngọc Khánh Huyền Khoa Quốc tế – Đại học Quốc gia Hà Nội *Tác giả liên lạc: dohuong64197@gmail.com TÓM TẮT Nghiên cứu này đề xuất xây dựng một mô hình nhận diện thực thể lồng nhau trong hệ thống chatbot đặt hàng để trang bị cho bots khả năng hiểu và trích xuất nội dung câu đặt hàng của khách một cách tự động: Đó là khi người dùng nhập nội dung cần đặt hàng dưới dạng ngôn ngữ tự nhiên thì hệ thống sẽ tự động trích xuất ra thông tin đơn hàng một cách chính xác nhất có thể. Để làm được việc đó, chúng ta cần sự hỗ trợ từ các kĩ thuật học máy, trí tuệ nhân tạo. Trong số đó, nổi bật nhất là các kĩ thuật nhận diện thực thể. Do vậy, nghiên cứu này đề xuất sử dụng mô hình gán nhãn chuỗi CRFs kết hợp sử dụng các tập đặc trưng khác nhau để bắt các thực thể lồng nhau trong lĩnh vực đặt hàng trực tuyến. Ngoài ra, để kiểm tra tính hiệu quả của mô hình đề xuất, chúng tôi cũng tiến hành xây dựng một bộ dữ liệu liên quan nhằm huấn luyện máy tính khả năng tự động bắt các thực thể một cách chính xác nhất. Các thiết lập thực nghiệm khác nhau được thực hiện và so sánh, đánh giá trên các độ đo phổ biến để đánh giá hiệu quả của hệ thống. Kết quả thực nghiệm cho thấy mô hình đề xuất khá khả quan – có khả năng bắt chính xác các thực thể lên tới 88.8% đối với độ đo F1 khi sử dụng phương pháp kiểm thử chéo 5 lần. Từ khóa: Chatbot, nhận diện thực thể lồng nhau, CRFs. RECOGNIZING COMPOSITE ENTITIES IN ORDERING CHATBOTS Do Thi Huong*, Nguyen Thi Huyen, Nguyen Ngoc Khanh Huyen International School – VNU Ha Noi *Corresponding Author: dohuong64197@gmail.com ABSTRACT This research aims at building a module to automatically recognize composite entities in ordering chatbots – this helps bots understand and automatically extract ordering information. To do that, it is necessary to use advanced techniques of machine learning as well as artificial intelligence. In this research, we formulate the task as a sequence labelling problem and apply sequence labelling methods to solve the task. Among these advanced techniques, CRFs are considered as a common and effective method to capture information of sequence labelling problems. Hence, we proposed using this technique with different rich feature sets to recognize composite NERs in ordering chatbots. In addition, to verify the effectiveness of the proposed method, we also manually built a corpus in the ordering domain to conduct different experiments. The experimental results showed that the proposed method is quite promising with the ability of detecting composite NEs up to 88.8% in the F1 score when testing on the 5-fold cross validation method. Keywords: Chatbot ordering, composite entity recognition, CRFs. 190 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học TỔNG QUAN thiệu các công cụ trợ lý ảo cho người Đã có rất nhiều nghiên cứu thành công Việt thông qua việc tích hợp mô hình với bài tóa n nhận diện thực thể truyền này vào điện thoại di động của họ. Bài thống. Tuy nhiên, khi đối mặt với tập báo này trình bày một mô hình học dữ liệu có đặc điểm lồng nhau, cho tới máy nhẹ và phương pháp kết hợp hiện tại vẫn còn khá ít các nghiên cứu nhanh kết hợp với vấn đề xác định ý liên quan đặc biệt là cho Tiếng Việt. định của người dùng đằng sau các lệnh Những phương pháp được đề xuất ban văn bản đã nói của họ. Mặc dù vậy, đầu hầu như đều hướng tới chỉ tập hiện tại không có nghiên cứu nào về trung xây dựng mô hình NER trên một việc hệ thống chatbot đặt hàng tại Việt tầng thực thể sau đó tiếp tục sử dụng Nam. các luật để ánh xạ vào tầng thực thể còn Chính vì vậy mục tiêu cốt lõi của lại. Xuất hiện sớm nhất, xử lý trên bộ nghiên cứu này là để điều tra và đề xuất dữ liệu tin sinh học (GENIA) là các một phương pháp hiệu quả dựa trên các nghiên cứu của Kazama (năm 2002), phương pháp học máy, có thể tự động Tsuruoka và Tsujii (năm 2003), tuy phát hiện được các loại thực thể để xây nhiên các nghiên cứu này chỉ làm việc dựng một chatbot đặt hàng thông minh. trên tầng thực thể trong cùng. Tiếp đó, Guodong Zhou và Jie Zhang (năm DỮ LIỆU VÀ PHƯƠNG PHÁP 2004) xây dựng một mô hình Markov NGHIÊN CỨU ẩn để xử lý tầng thực thể trong cùng và Dữ liệu sử dụng 4 bộ luật như một bước hậu xử Dữ liệu được thu thập từ việc đặt đồ lý để xác định thực thể mà chứa các uống và đề cập đến các menu từ trang thực thể trong cùng này. Các nghiên web thương mại điện tử. Bộ dữ liệu cứu của Zhou sau đó (năm 2006) vẫn được lấy ra từ các cuộc hội thoại trao dùng bộ luật và chỉ tiến tới sử dụng đổi trực tiếp ở trang facebook trao đổi phương pháp NER hiệu quả hơn cho đặt hàng từ Coffee house. Dữ liệu tầng thực thể trong cùng nêu trên nhờ phong phú, đa dạng và tự nhiên với các mô hình mutual information hình thức văn bản khác nhau trong một independence model (MIIM) kết hợp câu như dữ liệu văn bản chính quy, văn với “support vector machine” (SVM). bản không chính quy, chứa lỗi chính tả, Trong hệ thống chatbot đặt hàng, bài teencode, viết tắt, viết hoa, viết báo của Zhao Yan et al. (2017) trình thường, v.v. Ngoài ra, để cho bộ dữ bày một giải pháp chung để xây dựng liệu thêm phong phú hơn, chúng tôi hệ thống đối thoại hư ...
Nội dung trích xuất từ tài liệu:
Nhận diện các thực thể lồng nhau trong hệ thống Chatbot đặt hàng Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học NHẬN DIỆN CÁC THỰC THỂ LỒNG NHAU TRONG HỆ THỐNG CHATBOT ĐẶT HÀNG Đỗ Thị Hương*, Nguyễn Thị Huyền, Nguyễn Ngọc Khánh Huyền Khoa Quốc tế – Đại học Quốc gia Hà Nội *Tác giả liên lạc: dohuong64197@gmail.com TÓM TẮT Nghiên cứu này đề xuất xây dựng một mô hình nhận diện thực thể lồng nhau trong hệ thống chatbot đặt hàng để trang bị cho bots khả năng hiểu và trích xuất nội dung câu đặt hàng của khách một cách tự động: Đó là khi người dùng nhập nội dung cần đặt hàng dưới dạng ngôn ngữ tự nhiên thì hệ thống sẽ tự động trích xuất ra thông tin đơn hàng một cách chính xác nhất có thể. Để làm được việc đó, chúng ta cần sự hỗ trợ từ các kĩ thuật học máy, trí tuệ nhân tạo. Trong số đó, nổi bật nhất là các kĩ thuật nhận diện thực thể. Do vậy, nghiên cứu này đề xuất sử dụng mô hình gán nhãn chuỗi CRFs kết hợp sử dụng các tập đặc trưng khác nhau để bắt các thực thể lồng nhau trong lĩnh vực đặt hàng trực tuyến. Ngoài ra, để kiểm tra tính hiệu quả của mô hình đề xuất, chúng tôi cũng tiến hành xây dựng một bộ dữ liệu liên quan nhằm huấn luyện máy tính khả năng tự động bắt các thực thể một cách chính xác nhất. Các thiết lập thực nghiệm khác nhau được thực hiện và so sánh, đánh giá trên các độ đo phổ biến để đánh giá hiệu quả của hệ thống. Kết quả thực nghiệm cho thấy mô hình đề xuất khá khả quan – có khả năng bắt chính xác các thực thể lên tới 88.8% đối với độ đo F1 khi sử dụng phương pháp kiểm thử chéo 5 lần. Từ khóa: Chatbot, nhận diện thực thể lồng nhau, CRFs. RECOGNIZING COMPOSITE ENTITIES IN ORDERING CHATBOTS Do Thi Huong*, Nguyen Thi Huyen, Nguyen Ngoc Khanh Huyen International School – VNU Ha Noi *Corresponding Author: dohuong64197@gmail.com ABSTRACT This research aims at building a module to automatically recognize composite entities in ordering chatbots – this helps bots understand and automatically extract ordering information. To do that, it is necessary to use advanced techniques of machine learning as well as artificial intelligence. In this research, we formulate the task as a sequence labelling problem and apply sequence labelling methods to solve the task. Among these advanced techniques, CRFs are considered as a common and effective method to capture information of sequence labelling problems. Hence, we proposed using this technique with different rich feature sets to recognize composite NERs in ordering chatbots. In addition, to verify the effectiveness of the proposed method, we also manually built a corpus in the ordering domain to conduct different experiments. The experimental results showed that the proposed method is quite promising with the ability of detecting composite NEs up to 88.8% in the F1 score when testing on the 5-fold cross validation method. Keywords: Chatbot ordering, composite entity recognition, CRFs. 190 Giải thưởng Sinh viên nghiên cứu khoa học Euréka lần 20 năm 2018 Kỷ yếu khoa học TỔNG QUAN thiệu các công cụ trợ lý ảo cho người Đã có rất nhiều nghiên cứu thành công Việt thông qua việc tích hợp mô hình với bài tóa n nhận diện thực thể truyền này vào điện thoại di động của họ. Bài thống. Tuy nhiên, khi đối mặt với tập báo này trình bày một mô hình học dữ liệu có đặc điểm lồng nhau, cho tới máy nhẹ và phương pháp kết hợp hiện tại vẫn còn khá ít các nghiên cứu nhanh kết hợp với vấn đề xác định ý liên quan đặc biệt là cho Tiếng Việt. định của người dùng đằng sau các lệnh Những phương pháp được đề xuất ban văn bản đã nói của họ. Mặc dù vậy, đầu hầu như đều hướng tới chỉ tập hiện tại không có nghiên cứu nào về trung xây dựng mô hình NER trên một việc hệ thống chatbot đặt hàng tại Việt tầng thực thể sau đó tiếp tục sử dụng Nam. các luật để ánh xạ vào tầng thực thể còn Chính vì vậy mục tiêu cốt lõi của lại. Xuất hiện sớm nhất, xử lý trên bộ nghiên cứu này là để điều tra và đề xuất dữ liệu tin sinh học (GENIA) là các một phương pháp hiệu quả dựa trên các nghiên cứu của Kazama (năm 2002), phương pháp học máy, có thể tự động Tsuruoka và Tsujii (năm 2003), tuy phát hiện được các loại thực thể để xây nhiên các nghiên cứu này chỉ làm việc dựng một chatbot đặt hàng thông minh. trên tầng thực thể trong cùng. Tiếp đó, Guodong Zhou và Jie Zhang (năm DỮ LIỆU VÀ PHƯƠNG PHÁP 2004) xây dựng một mô hình Markov NGHIÊN CỨU ẩn để xử lý tầng thực thể trong cùng và Dữ liệu sử dụng 4 bộ luật như một bước hậu xử Dữ liệu được thu thập từ việc đặt đồ lý để xác định thực thể mà chứa các uống và đề cập đến các menu từ trang thực thể trong cùng này. Các nghiên web thương mại điện tử. Bộ dữ liệu cứu của Zhou sau đó (năm 2006) vẫn được lấy ra từ các cuộc hội thoại trao dùng bộ luật và chỉ tiến tới sử dụng đổi trực tiếp ở trang facebook trao đổi phương pháp NER hiệu quả hơn cho đặt hàng từ Coffee house. Dữ liệu tầng thực thể trong cùng nêu trên nhờ phong phú, đa dạng và tự nhiên với các mô hình mutual information hình thức văn bản khác nhau trong một independence model (MIIM) kết hợp câu như dữ liệu văn bản chính quy, văn với “support vector machine” (SVM). bản không chính quy, chứa lỗi chính tả, Trong hệ thống chatbot đặt hàng, bài teencode, viết tắt, viết hoa, viết báo của Zhao Yan et al. (2017) trình thường, v.v. Ngoài ra, để cho bộ dữ bày một giải pháp chung để xây dựng liệu thêm phong phú hơn, chúng tôi hệ thống đối thoại hư ...
Tìm kiếm theo từ khóa liên quan:
Nhận diện thực thể lồng nhau Hệ thống Chatbot đặt hàng Kĩ thuật học máy Trí tuệ nhân tạo Mô hình gán nhãn chuỗi CRFsTài liệu liên quan:
-
Đề cương chi tiết học phần Trí tuệ nhân tạo
12 trang 441 0 0 -
7 trang 230 0 0
-
Kết quả bước đầu của ứng dụng trí tuệ nhân tạo trong phát hiện polyp đại tràng tại Việt Nam
10 trang 188 0 0 -
6 trang 175 0 0
-
Xu hướng và tác động của cách mạng công nghiệp lần thứ tư đến môi trường thông tin số
9 trang 165 0 0 -
9 trang 157 0 0
-
Tìm hiểu về Luật An ninh mạng (hiện hành): Phần 1
93 trang 151 0 0 -
Luận văn tốt nghiệp: Ứng dụng trí tuệ nhân tạo trong xây dựng GAME
0 trang 131 0 0 -
Xác lập tư cách pháp lý cho trí tuệ nhân tạo
6 trang 129 1 0 -
Chuyển đổi số: cơ sở và ứng dụng
18 trang 123 0 0