Danh mục

Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu một số bài toán trong hỏi đáp cộng đồng

Số trang: 27      Loại file: pdf      Dung lượng: 1.94 MB      Lượt xem: 9      Lượt tải: 0    
Jamona

Hỗ trợ phí lưu trữ khi tải xuống: 5,000 VND Tải xuống file đầy đủ (27 trang) 0
Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục đích nghiên cứu của luận án "Nghiên cứu một số bài toán trong hỏi đáp cộng đồng" là đi giải quyết các thách thức trên qua việc đề xuất các mô hình học sâu kết hợp với cơ chế chú ý được đề xuất cho một số bài toán CQA giúp nâng cao hiệu quả các mô hình dự toán.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Nghiên cứu một số bài toán trong hỏi đáp cộng đồng BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI HÀ THỊ THANH NGHIÊN CỨU MỘT SỐ BÀI TOÁN TRONG HỎI ĐÁP CỘNG ĐỒNG Ngành: Hệ thống thông tin Mã số: 9480104TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2021 Công trình được hoàn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: HD1: PGS.TS. Nguyễn Thị Kim Anh HD2: TS. Nguyễn Kiêm Hiếu Phản biện 1: Phản biện 2: Phản biện 3:Luận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tạiTrường Đại học Bách khoa Hà Nội.Vào hồi .. giờ .., ngày ... tháng ... năm ...Có thể tìm hiểu luận án tại:1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội2. Thư viện Quốc gia Việt Nam. MỞ ĐẦU1. Bối cảnh nghiên cứu Nhu cầu đặt câu hỏi và tìm kiếm câu trả lời của người dùng hàng ngày là rất lớn. Nguồn thông tinlớn nhất hiện nay là thông tin tìm kiếm trên mạng thông qua các trang web. Trong đó hệ thống hỏiđáp cộng đồng (Community Question Answering - CQA) là một trong những hệ thống hiệu quả và phổbiến trong việc tìm kiếm thống tin trên web. Một người dùng muốn có câu trả lời họ phải đăng câu hỏilên hệ thống và chờ các thành viên khác tham gia trả lời. Qua thời gian, hệ thống hỏi đáp cộng đồngchứa lượng thông tin rất lớn và hữu ích. Từ đó hệ thống phát sinh các bài toán cần giải quyết giúp chongười dùng truy cập thông tin một cách thuận tiện hơn, rút ngắn thời gian truy cập và tìm kiếm thôngtin. Thứ nhất, trong hệ thống hỏi đáp cộng đồng, khi một câu hỏi được đưa lên hệ thống, nếu câu hỏithú vị và được nhiều người quan tâm thì câu hỏi đó sẽ nhận được rất nhiều câu trả lời. Thậm chí cónhững câu hỏi có đến hàng trăm câu trả lời. Bên cạnh thuận lợi là người hỏi sẽ nhận được nhiều phảnhồi về câu hỏi của mình thì điều này cũng có bất lợi đó là người hỏi cũng như những người dùng khácquan tâm tới câu hỏi phải mất khá nhiều thời gian để đọc qua tất cả các câu trả lời và chọn cho mìnhcâu trả lời tốt nhất. Do đó hệ thống CQA cũng cần có công cụ hỗ trợ người dùng giúp người dùng cóthể lựa chọn ra các câu trả lời đúng nhất với thời gian nhanh nhất. Do đó bài toán lựa chọn câu trả lờiđược đặt ra để giải quyết vấn đề này. Thứ hai, theo thống kê thì có ít nhất 78% câu trả lời tốt nhất của câu hỏi được sử dụng lại khi câuhỏi tương tự được hỏi lại. Trong số đó chỉ có 48% câu hỏi là có duy nhất một câu trả lời tốt nhất, cònlại trong số đó có chứa nhiều câu trả lời liên quan hoặc những câu trả lời không đầy đủ. Nguyên nhâncủa việc câu trả lời không đầy đủ có thể do câu hỏi chứa nhiều ý hỏi. Hơn nữa mỗi người dùng có trithức về từng lĩnh vực khác nhau, cách tiếp cận và quan điểm khác nhau dẫn tới câu trả lời khác nhau.Người hỏi phải mất thời gian đọc và tổng hợp các ý kiến để thu được câu trả lời chứa đầy đủ chứa cácthông tin mình cần. Do đó, một cách tiếp cận hiệu quả đó là kết hợp nhiều câu trả lời để sinh ra mộtđoạn tóm tắt giúp tạo ra câu trả lời hoàn chỉnh. Thứ ba, khi một câu hỏi được đăng lên hệ thống hỏi đáp cộng đồng thì không phải câu hỏi nào cũngnhận ngay được câu trả lời từ cộng đồng. Có câu hỏi khi đăng lên hệ thống sau vài giờ có thể nhậnđược câu trả lời nhưng có những câu hỏi phải mất vài ngày. Để khắc phục tình trạng chậm trễ này, bàitoán tìm câu hỏi tương đồng trong kho dữ liệu được đặt ra có thể giải quyết vấn đề này. Người dùnghi vọng rằng những câu trả lời của các câu hỏi tương đồng có thể là câu trả lời của câu hỏi mới. Hơnnữa, hệ thống mà dữ liệu được tích lũy qua nhiều năm trở lên rất lớn thì khả năng người dùng hỏi lạinhững câu hỏi trước đó là rất cao. Do đó bài toán tìm câu hỏi tương đồng càng trở lên có ý nghĩa. Để giải quyết các vấn đề trên, rất nhiều nghiên cứu đã được đề xuất. Khi giải quyết những bài toánnày, các nhà nghiên cứu phần lớn giải quyết thách thức lớn nhất đó là khoảng cách từ vựng (lexicalgap) giữa câu hỏi với câu hỏi, giữa câu hỏi với câu trả lời. Các nghiên cứu tập trung vào hướng: khaithác đặc trưng từ vựng, đặc trưng kĩ thuật về cú pháp và ngữ nghĩa của câu. Thời gian gần đây cácnghiên cứu tập trung vào đề xuất mô hình mạng nơ ron học sâu với kiến trúc Siamese, mô hình dựatrên so sánh tổng hợp (compare-aggregate) đến các mô hình dựa trên cơ chế chú ý (attention). Bêncạnh đó các mô hình dựa vào các mô hình ngôn ngữ và các mô hình riêng biệt cho hệ thống hỏi đápcũng được đề xuất. Tất cả các nghiên cứu này đều với mục đích học ra được ngữ nghĩa và mối quan hệgiữa câu hỏi với câu hỏi và câu hỏi với câu trả lời để đưa ra dự đoán tốt nhất.2. Động lực thúc đẩy Từ bối cảnh trên, vai trò của ba bài toán: Bài toán tìm câu trả lời tốt nhất, bài toán tóm ...

Tài liệu được xem nhiều: