Phân loại câu hỏi kiểu what sử dụng nhiều loại đặc trưng
Số trang: 9
Loại file: pdf
Dung lượng: 330.60 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất việc trích rút các đặc trưng phù hợp nhằm phân loại câu hỏi What đạt độ chính xác cao. Chúng tôi cũng đề xuất sử dụng mẫu câu hỏi như là một đặc trưng mới để kết hợp với các đặc trưng khác trong phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất của mình bằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC và đã đạt được độ chính xác phân loại câu hỏi What cao hơn so với những nghiên cứu trước đó trên cùng nguyên tắc phân loại và tập dữ liệu.
Nội dung trích xuất từ tài liệu:
Phân loại câu hỏi kiểu what sử dụng nhiều loại đặc trưngTẠP CHÍ KHOA HỌCKhoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 81 - 89 PHÂN LOẠI CÂU HỎI KIỂU “WHAT” SỬ DỤNG NHIỀU LOẠI ĐẶC TRƯNG Nguyễn Văn Tú Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc Tóm tắt: Phân loại câu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp tự động.Nhiệm vụ chính của phân loại câu hỏi là dự báo kiểu thực thể của câu trả lời của các câu hỏi viết bằngngôn ngữ tự nhiên. Trong các hệ thống hỏi đáp tự động, các câu hỏi với từ để hỏi What chiếm phầnlớn, nhưng việc phân loại các câu hỏi này lại có nhiều khó khăn hơn so với việc phân loại các câu hỏikhác. Trong bài báo này chúng tôi đề xuất việc trích rút các đặc trưng phù hợp nhằm phân loại câu hỏiWhat đạt độ chính xác cao. Chúng tôi cũng đề xuất sử dụng mẫu câu hỏi như là một đặc trưng mới đểkết hợp với các đặc trưng khác trong phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất của mìnhbằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC và đã đạt được độchính xác phân loại câu hỏi What cao hơn so với những nghiên cứu trước đó trên cùng nguyên tắcphân loại và tập dữ liệu. Từ khóa: Phân loại câu hỏi, hệ thống hỏi đáp, mẫu câu hỏi, máy hỗ trợ vectơ.1. Tổng quan Hệ thống hỏi đáp tự động đã trở thành hướng nghiên cứu quan trọng trong xử lýngôn ngữ tự nhiên [4,9]. Mục đích của các hệ thống hỏi đáp tự động là tìm kiếm câu trảlời chính xác và ngắn gọn cho những câu hỏi viết bằng ngôn ngữ tự nhiên thay vì trả vềmột danh sách các tài liệu liên quan đến câu hỏi như trong các máy tìm kiếm. Phân loạicâu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp tự động. Nhiệm vụchính của phân loại câu hỏi là dự báo kiểu thực thể của câu trả lời của các câu hỏi viếtbằng ngôn ngữ tự nhiên. Có nhiều cách tiếp cận khác nhau để phân loại câu hỏi như:tiếp cận dựa trên luật [2,3], tiếp cận dựa trên học máy [1,7,10]. Trong nghiên cứu củamình, chúng tôi sử dụng tiếp cận dựa trên học máy với việc sử dụng nhiều đặc trưng vàsử dụng mẫu câu hỏi (Question pattern) như là một đặc trưng mới để kết hợp với cácđặc trưng đã có. Chúng tôi nhận thấy rằng khi sử dụng mẫu câu hỏi như là một đặctrưng và kết hợp với các đặc trưng từ vựng, cú pháp, ngữ nghĩa khác có thể cải thiệnđáng kể độ chính xác của phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất củamình bằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC vàđã đạt được độ chính xác phân loại câu hỏi What cao hơn so với những nghiên cứutrước đó trên cùng nguyên tắc phân loại và tập dữ liệu.2. Một số vấn đề cơ bản về phân loại câu hỏi 2.1. Nguyên tắc phân loại câu hỏiNgày nhận bài: 22/3/2016. Ngày nhận đăng: 25/9/2016Liên lạc: Nguyễn Văn Tú, e - mail thuandhtb@gmail.com 81 Một tập các loại câu hỏi (các lớp) thường được đại diện như là nguyên tắc phânloại câu hỏi. Các nguyên tắc phân loại câu hỏi khác nhau được đề xuất trong các côngtrình nghiên cứu khác nhau, nhưng hầu hết trong các nghiên cứu gần đây đều dựa trênnguyên tắc phân loại hai lớp được đề xuất bởi Li và Roth (2002)1 [6]. Nguyên tắc phânloại này bao gồm 6 lớp thô và 50 lớp mịn. Bảng 1 là danh sách các lớp theo nguyên tắcphân loại này. Bảng 1. Các lớp câu hỏi thô và mịn Lớp câu hỏi thô Lớp câu hỏi mịn ABBREVIATION Abbreviation, expression ENTITY Animal, body, color, creative, currency, dis.med, event, food, instrument, lang, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word DESCRIPTION Definition, description, manner, reason HUMAN Group, individual, title, description LOCATION City, country, mountain, other, state NUMERIC Code, count, date, distance, money, order, other, period, percent, speed, temperature, size, weight 2.2. Thuật toán phân loại câu hỏi Có nhiều bộ phân loại khác nhau đã được sử dụng trong phân loại câu hỏi như:Support Vector Machine, Naive Bayesian, Maximum Entropy Models, Sparse Networkof Winnows, … Tuy nhiên trong các bộ phân loại đó thì Support Vector Machine vớihàm nhân tuyến tính được xem là hiệu quả hơn cả [1,3,8] vì trong vấn đề phân loại câuhỏi các câu hỏi được biểu diễn trong không gian có số chiều rất lớn, điều này có thểđược phân loại tốt bởi Support Vector Machine. Chính vì vậy trong nghiên cứu củamình, chúng tôi sử dụng bộ phân loại Support Vector Machine với hàm nhân tuyến tính. 2.3. Hiệu suất trong ph ...
Nội dung trích xuất từ tài liệu:
Phân loại câu hỏi kiểu what sử dụng nhiều loại đặc trưngTẠP CHÍ KHOA HỌCKhoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 81 - 89 PHÂN LOẠI CÂU HỎI KIỂU “WHAT” SỬ DỤNG NHIỀU LOẠI ĐẶC TRƯNG Nguyễn Văn Tú Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc Tóm tắt: Phân loại câu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp tự động.Nhiệm vụ chính của phân loại câu hỏi là dự báo kiểu thực thể của câu trả lời của các câu hỏi viết bằngngôn ngữ tự nhiên. Trong các hệ thống hỏi đáp tự động, các câu hỏi với từ để hỏi What chiếm phầnlớn, nhưng việc phân loại các câu hỏi này lại có nhiều khó khăn hơn so với việc phân loại các câu hỏikhác. Trong bài báo này chúng tôi đề xuất việc trích rút các đặc trưng phù hợp nhằm phân loại câu hỏiWhat đạt độ chính xác cao. Chúng tôi cũng đề xuất sử dụng mẫu câu hỏi như là một đặc trưng mới đểkết hợp với các đặc trưng khác trong phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất của mìnhbằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC và đã đạt được độchính xác phân loại câu hỏi What cao hơn so với những nghiên cứu trước đó trên cùng nguyên tắcphân loại và tập dữ liệu. Từ khóa: Phân loại câu hỏi, hệ thống hỏi đáp, mẫu câu hỏi, máy hỗ trợ vectơ.1. Tổng quan Hệ thống hỏi đáp tự động đã trở thành hướng nghiên cứu quan trọng trong xử lýngôn ngữ tự nhiên [4,9]. Mục đích của các hệ thống hỏi đáp tự động là tìm kiếm câu trảlời chính xác và ngắn gọn cho những câu hỏi viết bằng ngôn ngữ tự nhiên thay vì trả vềmột danh sách các tài liệu liên quan đến câu hỏi như trong các máy tìm kiếm. Phân loạicâu hỏi là một thành phần quan trọng trong các hệ thống hỏi đáp tự động. Nhiệm vụchính của phân loại câu hỏi là dự báo kiểu thực thể của câu trả lời của các câu hỏi viếtbằng ngôn ngữ tự nhiên. Có nhiều cách tiếp cận khác nhau để phân loại câu hỏi như:tiếp cận dựa trên luật [2,3], tiếp cận dựa trên học máy [1,7,10]. Trong nghiên cứu củamình, chúng tôi sử dụng tiếp cận dựa trên học máy với việc sử dụng nhiều đặc trưng vàsử dụng mẫu câu hỏi (Question pattern) như là một đặc trưng mới để kết hợp với cácđặc trưng đã có. Chúng tôi nhận thấy rằng khi sử dụng mẫu câu hỏi như là một đặctrưng và kết hợp với các đặc trưng từ vựng, cú pháp, ngữ nghĩa khác có thể cải thiệnđáng kể độ chính xác của phân loại câu hỏi. Chúng tôi đã kiểm tra những đề xuất củamình bằng cách sử dụng bộ phân loại Support Vector Machine trên bộ dữ liệu TREC vàđã đạt được độ chính xác phân loại câu hỏi What cao hơn so với những nghiên cứutrước đó trên cùng nguyên tắc phân loại và tập dữ liệu.2. Một số vấn đề cơ bản về phân loại câu hỏi 2.1. Nguyên tắc phân loại câu hỏiNgày nhận bài: 22/3/2016. Ngày nhận đăng: 25/9/2016Liên lạc: Nguyễn Văn Tú, e - mail thuandhtb@gmail.com 81 Một tập các loại câu hỏi (các lớp) thường được đại diện như là nguyên tắc phânloại câu hỏi. Các nguyên tắc phân loại câu hỏi khác nhau được đề xuất trong các côngtrình nghiên cứu khác nhau, nhưng hầu hết trong các nghiên cứu gần đây đều dựa trênnguyên tắc phân loại hai lớp được đề xuất bởi Li và Roth (2002)1 [6]. Nguyên tắc phânloại này bao gồm 6 lớp thô và 50 lớp mịn. Bảng 1 là danh sách các lớp theo nguyên tắcphân loại này. Bảng 1. Các lớp câu hỏi thô và mịn Lớp câu hỏi thô Lớp câu hỏi mịn ABBREVIATION Abbreviation, expression ENTITY Animal, body, color, creative, currency, dis.med, event, food, instrument, lang, letter, other, plant, product, religion, sport, substance, symbol, technique, term, vehicle, word DESCRIPTION Definition, description, manner, reason HUMAN Group, individual, title, description LOCATION City, country, mountain, other, state NUMERIC Code, count, date, distance, money, order, other, period, percent, speed, temperature, size, weight 2.2. Thuật toán phân loại câu hỏi Có nhiều bộ phân loại khác nhau đã được sử dụng trong phân loại câu hỏi như:Support Vector Machine, Naive Bayesian, Maximum Entropy Models, Sparse Networkof Winnows, … Tuy nhiên trong các bộ phân loại đó thì Support Vector Machine vớihàm nhân tuyến tính được xem là hiệu quả hơn cả [1,3,8] vì trong vấn đề phân loại câuhỏi các câu hỏi được biểu diễn trong không gian có số chiều rất lớn, điều này có thểđược phân loại tốt bởi Support Vector Machine. Chính vì vậy trong nghiên cứu củamình, chúng tôi sử dụng bộ phân loại Support Vector Machine với hàm nhân tuyến tính. 2.3. Hiệu suất trong ph ...
Tìm kiếm theo từ khóa liên quan:
Phân loại câu hỏi kiểu what Phân loại câu hỏi Hệ thống hỏi đáp Mẫu câu hỏi Máy hỗ trợ vectơ Nguyên tắc phân loại câu hỏiTài liệu liên quan:
-
Luận văn Thạc sĩ Kỹ thuật: Phát hiện ý định người dùng trong hệ thống hỏi đáp sử dụng mạng nơron
64 trang 24 0 0 -
LUẬN VĂN: PHƯƠNG PHÁP XÂY DỰNG HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT DỰA TRÊN ONTOLOGY
83 trang 24 0 0 -
24 trang 20 0 0
-
Bài giảng Kỹ năng đặt câu hỏi (Tâm Việt)
87 trang 18 0 0 -
Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu một số bài toán trong hỏi đáp cộng đồng
128 trang 14 0 0 -
Tiểu luận: Ứng dụng nguyên tắc sáng tạo trong sự phát triển hệ thống hỏi - đáp
26 trang 14 0 0 -
Tóm tắt Luận văn Thạc sĩ: Phát hiện ý định người dùng trong hệ thống hỏi đáp sử dụng mạng nơron
22 trang 14 0 0 -
Luận văn Thạc sĩ Công nghệ thông tin: Một số mô hình học máy trong phân loại câu hỏi
59 trang 13 0 0 -
LUẬN VĂN: PHƯƠNG PHÁP PHÂN TÍCH CÂU HỎI CHO HỆ THỐNG HỎI ĐÁP TIẾNG VIỆT
104 trang 11 0 0 -
Tinh chỉnh đặc trưng từ trong gom nhóm tập câu hỏi tiếng Việt
10 trang 8 0 0