Tóm tắt luận án Tiến sĩ Toán học: Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnh
Số trang: 27
Loại file: pdf
Dung lượng: 1.56 MB
Lượt xem: 12
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục tiêu tổng quát của luận án là tập trung nghiên cứu, xác định và thực nghiệm các phương pháp, các nguyên lý nhằm giải quyết 2 bài toán nêu trên. Cài đặt thực nghiệm các phương pháp và áp dụng các đề xuất cải thiện kỹ thuật. Phân tích, đánh giá kết quả sau thực nghiệm và so sánh với các kỹ thuật khác.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Toán học: Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnhBỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- Trần Lâm QuânMỘT SỐ KỸ THUẬT TÌM KIẾM THỰC THỂ DỰA TRÊN QUAN HỆ NGỮ NGHĨA ẨN VÀ GỢI Ý TRUY VẤN HƯỚNG NGỮ CẢNH Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9.46.01.10 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ ViệtNam.Người hướng dẫn khoa học: TS. Vũ Tất ThắngPhản biện 1: …Phản biện 2: …Phản biện 3: ….Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Học viện, họp tại Học viện Khoa học vàCông nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi … giờ ..’, ngày … tháng … năm 202….Có thể tìm hiểu luận án tại:- Thư viện Học viện Khoa học và Công nghệ- Thư viện Quốc gia Việt Nam 1 MỞ ĐẦU1. Tính cấp thiết của luận án Trong kỷ nguyên big-data, trên không gian Internet, lượng dữ liệu mới sinh ra không ngừng, Search Enginelà cốt lõi để đáp ứng nhu cầu tìm kiếm thông tin của người sử dụng. Theo thống kê, xấp xỉ 71% câu tìm kiếm trênweb có chứa tên thực thể [7], [8]. Khi xét truy vấn chỉ gồm tên thực thể: “Việt Nam”, “Hà Nội”, “Pháp”, về trựcquan, ta thấy ngữ nghĩa tiềm ẩn sau truy vấn này. Nói cách khác, tiềm ẩn một quan hệ tương tự giữa cặp tên thựcthể “Việt Nam”:“Hà Nội” và cặp tên thực thể “Pháp”:“?”. Nếu chỉ xét trực quan, đây là một trong những khả năng“tự nhiên” của con người - khả năng suy ra thông tin/tri thức chưa biết bằng suy diễn tương tự. Với truy vấn trên, con người có khả năngđưa ra đáp án tức thời, nhưng máy tìm kiếm SearchEngine (SE) chỉ tìm được những tài liệu chứa các từkhóa nói trên, SE không đưa ngay ra được câu trảlời “Paris”. Cũng như vậy, thế giới thực tồn tạinhững câu hỏi dạng: “nếu Fansipan cao nhất ViệtNam, thì đâu là đỉnh của Tây Tạng?”, “biếtElizabeth là nữ hoàng Anh thì quốc vương Nhật Bảnlà ai?”, .v.v. Đối với những truy vấn tồn tại quan hệtương đồng như trên, cơ chế tìm kiếm theo từ khóakhó khăn trong việc đưa ra đáp án, trong khi conngười có thể dễ dàng suy luận tương tự. Hình 1.1: Danh sách trả về từ Keyword-SE ứng với query=”Việt Nam”, “Hà Nội”, “Pháp”. Nghiên cứu, mô phỏng khả năng tự nhiên của con người khi suy diễn từ một miền ngữ nghĩa quen thuộc(“Việt Nam”, “Hà Nội”) sang một miền ngữ nghĩa không quen thuộc (“Pháp”, “?”) - là mục đích của bài toán thứnhất. Bài toán thứ 2 về gợi ý truy vấn. Cũng theo thống kê, các câu truy vấn người dùng đưa vào thường ngắn,mơ hồ, đa nghĩa [1-6]. Trong các phiên tìm kiếm, lượng kết quả trả về nhiều nhưng phần lớn không thích hợp vớiý định tìm kiếm của người sử dụng1. Từ đó, có rất nhiều hướng nghiên cứu đặt ra nhằm cải thiện kết quả, hỗ trợngười tìm kiếm. Các hướng nghiên cứu này bao gồm: gợi ý truy vấn (query suggestion), viết lại truy vấn (rewritingquery), mở rộng truy vấn (query expansion), đề xuất cá nhân hóa (personalized recommendations), phân hạng kếtquả (ranking/re-ranking search results), .v.v. Hướng nghiên cứu gợi ý truy vấn thường áp dụng các kỹ thuật truyền thống như gom cụm, đo độ tươngđồng, .v.v. của các truy vấn [9], [10]. Tuy nhiên, các kỹ thuật truyền thống có ba nhược điểm: Thứ nhất, chỉ đưara được các gợi ý tương tự hoặc có liên quan với truy vấn vừa nhập - mà chất lượng chưa chắc đã tốt hơn truy vấnvừa nhập. Thứ hai, không đưa ra được xu hướng mà tri thức số đông thường hỏi sau truy vấn hiện hành. Thứ ba,những cách tiếp cận này không xét chuỗi truy vấn một cách liền mạch từ người sử dụng để nắm bắt ý định tìmkiếm của người dùng. Chẳng hạn, trên các Search Engine (SE) thông dụng, gõ 2 truy vấn liên tiếp q1: “Joe Biden1 https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf 2là ai”, q2: “Ông ấy bao nhiêu tuổi”, q1, q2 có liên quan ngữ nghĩa. Tuy nhiên kết quả trả về cho q1, q2 là 2 tập kếtquả rất khác nhau. Điều này cho thấy nhược điểm của cơ chế tìm kiếm theo từ khóa. Hình 1.2: Danh sách trả về từ SE ứng với q1, q2. Nắm bắt chuỗi truy vấn liền mạch, nói cách khác, nắm bắt được ngữ cảnh tìm kiếm, SE sẽ “hiểu” được ýđịnh tìm kiếm của người sử dụng. Hơn nữa, nắm bắt chuỗi truy vấn, SE có thể gợi ý truy vấn theo chuỗi, chuỗi ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Toán học: Một số kỹ thuật tìm kiếm thực thể dựa trên quan hệ ngữ nghĩa ẩn và gợi ý truy vấn hướng ngữ cảnhBỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ ----------------------------- Trần Lâm QuânMỘT SỐ KỸ THUẬT TÌM KIẾM THỰC THỂ DỰA TRÊN QUAN HỆ NGỮ NGHĨA ẨN VÀ GỢI Ý TRUY VẤN HƯỚNG NGỮ CẢNH Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9.46.01.10 TÓM TẮT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2020Công trình được hoàn thành tại: Học viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ ViệtNam.Người hướng dẫn khoa học: TS. Vũ Tất ThắngPhản biện 1: …Phản biện 2: …Phản biện 3: ….Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Học viện, họp tại Học viện Khoa học vàCông nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam vào hồi … giờ ..’, ngày … tháng … năm 202….Có thể tìm hiểu luận án tại:- Thư viện Học viện Khoa học và Công nghệ- Thư viện Quốc gia Việt Nam 1 MỞ ĐẦU1. Tính cấp thiết của luận án Trong kỷ nguyên big-data, trên không gian Internet, lượng dữ liệu mới sinh ra không ngừng, Search Enginelà cốt lõi để đáp ứng nhu cầu tìm kiếm thông tin của người sử dụng. Theo thống kê, xấp xỉ 71% câu tìm kiếm trênweb có chứa tên thực thể [7], [8]. Khi xét truy vấn chỉ gồm tên thực thể: “Việt Nam”, “Hà Nội”, “Pháp”, về trựcquan, ta thấy ngữ nghĩa tiềm ẩn sau truy vấn này. Nói cách khác, tiềm ẩn một quan hệ tương tự giữa cặp tên thựcthể “Việt Nam”:“Hà Nội” và cặp tên thực thể “Pháp”:“?”. Nếu chỉ xét trực quan, đây là một trong những khả năng“tự nhiên” của con người - khả năng suy ra thông tin/tri thức chưa biết bằng suy diễn tương tự. Với truy vấn trên, con người có khả năngđưa ra đáp án tức thời, nhưng máy tìm kiếm SearchEngine (SE) chỉ tìm được những tài liệu chứa các từkhóa nói trên, SE không đưa ngay ra được câu trảlời “Paris”. Cũng như vậy, thế giới thực tồn tạinhững câu hỏi dạng: “nếu Fansipan cao nhất ViệtNam, thì đâu là đỉnh của Tây Tạng?”, “biếtElizabeth là nữ hoàng Anh thì quốc vương Nhật Bảnlà ai?”, .v.v. Đối với những truy vấn tồn tại quan hệtương đồng như trên, cơ chế tìm kiếm theo từ khóakhó khăn trong việc đưa ra đáp án, trong khi conngười có thể dễ dàng suy luận tương tự. Hình 1.1: Danh sách trả về từ Keyword-SE ứng với query=”Việt Nam”, “Hà Nội”, “Pháp”. Nghiên cứu, mô phỏng khả năng tự nhiên của con người khi suy diễn từ một miền ngữ nghĩa quen thuộc(“Việt Nam”, “Hà Nội”) sang một miền ngữ nghĩa không quen thuộc (“Pháp”, “?”) - là mục đích của bài toán thứnhất. Bài toán thứ 2 về gợi ý truy vấn. Cũng theo thống kê, các câu truy vấn người dùng đưa vào thường ngắn,mơ hồ, đa nghĩa [1-6]. Trong các phiên tìm kiếm, lượng kết quả trả về nhiều nhưng phần lớn không thích hợp vớiý định tìm kiếm của người sử dụng1. Từ đó, có rất nhiều hướng nghiên cứu đặt ra nhằm cải thiện kết quả, hỗ trợngười tìm kiếm. Các hướng nghiên cứu này bao gồm: gợi ý truy vấn (query suggestion), viết lại truy vấn (rewritingquery), mở rộng truy vấn (query expansion), đề xuất cá nhân hóa (personalized recommendations), phân hạng kếtquả (ranking/re-ranking search results), .v.v. Hướng nghiên cứu gợi ý truy vấn thường áp dụng các kỹ thuật truyền thống như gom cụm, đo độ tươngđồng, .v.v. của các truy vấn [9], [10]. Tuy nhiên, các kỹ thuật truyền thống có ba nhược điểm: Thứ nhất, chỉ đưara được các gợi ý tương tự hoặc có liên quan với truy vấn vừa nhập - mà chất lượng chưa chắc đã tốt hơn truy vấnvừa nhập. Thứ hai, không đưa ra được xu hướng mà tri thức số đông thường hỏi sau truy vấn hiện hành. Thứ ba,những cách tiếp cận này không xét chuỗi truy vấn một cách liền mạch từ người sử dụng để nắm bắt ý định tìmkiếm của người dùng. Chẳng hạn, trên các Search Engine (SE) thông dụng, gõ 2 truy vấn liên tiếp q1: “Joe Biden1 https://static.googleusercontent.com/media/guidelines.raterhub.com/en//searchqualityevaluatorguidelines.pdf 2là ai”, q2: “Ông ấy bao nhiêu tuổi”, q1, q2 có liên quan ngữ nghĩa. Tuy nhiên kết quả trả về cho q1, q2 là 2 tập kếtquả rất khác nhau. Điều này cho thấy nhược điểm của cơ chế tìm kiếm theo từ khóa. Hình 1.2: Danh sách trả về từ SE ứng với q1, q2. Nắm bắt chuỗi truy vấn liền mạch, nói cách khác, nắm bắt được ngữ cảnh tìm kiếm, SE sẽ “hiểu” được ýđịnh tìm kiếm của người sử dụng. Hơn nữa, nắm bắt chuỗi truy vấn, SE có thể gợi ý truy vấn theo chuỗi, chuỗi ...
Tìm kiếm theo từ khóa liên quan:
Luận án Tiến sĩ Luận án Tiến sĩ Toán học Kỹ thuật tìm kiếm thực thể Truy vấn hướng ngữ cảnh Quan hệ ngữ nghĩa ẩn Cơ sở toán học cho tin họcTài liệu liên quan:
-
205 trang 436 0 0
-
Luận án Tiến sĩ Tài chính - Ngân hàng: Phát triển tín dụng xanh tại ngân hàng thương mại Việt Nam
267 trang 390 1 0 -
174 trang 347 0 0
-
206 trang 309 2 0
-
228 trang 274 0 0
-
32 trang 239 0 0
-
Luận án tiến sĩ Ngữ văn: Dấu ấn tư duy đồng dao trong thơ thiếu nhi Việt Nam từ 1945 đến nay
193 trang 236 0 0 -
208 trang 223 0 0
-
27 trang 204 0 0
-
27 trang 194 0 0