![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Tóm tắt luận văn Thạc sĩ: Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng
Số trang: 22
Loại file: pdf
Dung lượng: 545.38 KB
Lượt xem: 8
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài luận văn thạc sĩ nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng, bài toán trích rút thông tin, phát biểu bài toán trích rút thông tin, trích rút thông tin là một lĩnh vực của khai phá dữ liệu có nhiệm vụ lấy ra các mẫu thông tin có ích đối với người dùng.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ: Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụngHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- Trương Tài Ba NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG HỎI ĐÁP HƯỚNG MIỀN ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNGNgười hướng dẫn khoa học: PGS.TS. Lê Thanh Hương. Viện công nghệ thông tin và truyền thông -Trường Đại học Bách Khoa Hà Nội.Phản biện 1: ……………………………………………………………………………………………Phản biện 2: ……………………………………………………………………………………………Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chínhViễn thôngVào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 PHẦN I. MỞ ĐẦU Tìm kiếm luôn là một trong những bài toán quan trọng trong việc lưu trữ và tổ chứcdữ liệu. Các máy tìm kiếm như Google, Bing…ra đời đã tạo nên cuộc cách mạng lớn trongviệc tìm kiếm thông tin trên Internet. Tuy nhiên, những máy tìm kiếm này trong một sốtrường hợp không phù hợp với yêu cầu thực tế do kết quả trả về cho người dùng quá lớn(thường lên đến hàng triệu bản ghi). Do đó, người dùng sẽ rất khó tìm kiếm được thông tinhữu ích trong lượng thông tin đồ sộ như vậy. Thu thập, xử lý và khai thác thông tin theo một miền ứng dụng cụ thể sao cho hiệuquả đang là một vấn đề mới mẻ và thú vị trong lĩnh vực khai phá dữ liệu. Bài toán có ýnghĩa lớn đối với nhu cầu tiếp cận thông tin của con người. Trong luận văn này sẽ đề cậpđến việc sử dụng các kỹ thuật trích rút thông tin (Information Extraction - IE) kết hợp vớixử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) để thu thập, xử lý, trích rútcác thông tin từ các trang web đặt món ăn trực tuyến, từ đó xây dựng cơ sở dữ liệu lưu trữcác thông tin của nhà hàng và món ăn, cuối cùng xây dựng một hệ thống hỏi đáp tự độngdựa trên cơ sở dữ liệu này.Mô hình bài toán như sau: Hình 1.1: Mô hình bài toán Trong phạm vi luận văn này, tác giả sẽ trình bày cơ bản về trích rút thông tin từ cáctrang web đặt món trực tuyến theo một mẫu cho trước, sau đó sẽ lưu thông tin vào cơ sở dữliệu phục vụ cho quá trình xây dựng hệ thống hỏi đáp tự động. Thông tin được trích rút theocác nội dung sau: 2 - Tên nhà hàng - Mô tả về nhà hàng - Số điện thoại - Địa chỉ nhà hàng - Danh sách các món ăn - Danh sách giá tương ứng với các món ăn Bên cạnh đó, trong luận văn này sẽ trình bày cơ bản về hệ thống hỏi đáp tự động, cácbài toán cũng như kỹ thuật trong việc xây dựng một hệ thống hỏi đáp tự động miền ứngdụng nhà hàng – món ăn. 3 PHẦN II. NỘI DUNG2.1. Bài toán trích rút thông tin2.1.1. Phát biểu bài toán trích rút thông tin Trích rút thông tin (Information Extraction – IE) là một lĩnh vực của khai phá dữ liệu(Data Mining) có nhiệm vụ lấy ra các mẫu thông tin “có ích” đối với người dùng. Theo Jaeyoung Yang và cộng sự, trích rút/trích xuất thông tin (IE) là bài toán nhậndạng những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạtnhân tạo nên nội dung ngữ nghĩa của văn bản đó [12]. Nói một cách đơn giản, trích rút/trích xuất thông tin là quá trình xử lý thông tin, đầuvào là một văn bản và đầu ra là các thông tin “có giá trị” với người dùng. Thông tin “có giátrị” ở đây có thể hiểu là các thực thể, các thuộc tính mô tả thực thể và mối quan hệ giữa cácthực thể. Dữ liệu được trích rút ra có nội dung và cấu trúc thỏa mãn yêu cầu người dùng. Có thể phát biểu bài toán trích rút thông tin như sau: Đầu vào: Văn bản có cấu trúc bất kỳ. Đầu ra: Thông tin “có ích” được tổ chức dưới dạng cấu trúc. Ví dụ sau đây sẽ minh họa quá trình trích rút thông tin từ văn bản và tổ chức lại thànhdữ liệu có cấu trúc Hình 2.1: Minh họa bài toán trích rút thông tin 4 Ở đây bài toán nhận đầu vào là một văn bản không có cấu trúc, nhiệm vụ của tríchrút thông tin là trích ra các dữ liệu liên quan tới Bill Gate gồm: chức vụ (CEO), công ty làmviệc (Microsoft Corporation, Microsoft), người thành lập (founder) và tên quỹ (FreeSoftware Foundation)… Sau đó dữ liệu sẽ được tổ chức lại có cấu trúc và lưu vào trong cơsở dữ liệu. Đây là một nhiệm vụ trong hội nghị KDD1 2003, ở đó những người ( ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ: Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụngHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- Trương Tài Ba NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG HỎI ĐÁP HƯỚNG MIỀN ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNGNgười hướng dẫn khoa học: PGS.TS. Lê Thanh Hương. Viện công nghệ thông tin và truyền thông -Trường Đại học Bách Khoa Hà Nội.Phản biện 1: ……………………………………………………………………………………………Phản biện 2: ……………………………………………………………………………………………Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chínhViễn thôngVào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 PHẦN I. MỞ ĐẦU Tìm kiếm luôn là một trong những bài toán quan trọng trong việc lưu trữ và tổ chứcdữ liệu. Các máy tìm kiếm như Google, Bing…ra đời đã tạo nên cuộc cách mạng lớn trongviệc tìm kiếm thông tin trên Internet. Tuy nhiên, những máy tìm kiếm này trong một sốtrường hợp không phù hợp với yêu cầu thực tế do kết quả trả về cho người dùng quá lớn(thường lên đến hàng triệu bản ghi). Do đó, người dùng sẽ rất khó tìm kiếm được thông tinhữu ích trong lượng thông tin đồ sộ như vậy. Thu thập, xử lý và khai thác thông tin theo một miền ứng dụng cụ thể sao cho hiệuquả đang là một vấn đề mới mẻ và thú vị trong lĩnh vực khai phá dữ liệu. Bài toán có ýnghĩa lớn đối với nhu cầu tiếp cận thông tin của con người. Trong luận văn này sẽ đề cậpđến việc sử dụng các kỹ thuật trích rút thông tin (Information Extraction - IE) kết hợp vớixử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) để thu thập, xử lý, trích rútcác thông tin từ các trang web đặt món ăn trực tuyến, từ đó xây dựng cơ sở dữ liệu lưu trữcác thông tin của nhà hàng và món ăn, cuối cùng xây dựng một hệ thống hỏi đáp tự độngdựa trên cơ sở dữ liệu này.Mô hình bài toán như sau: Hình 1.1: Mô hình bài toán Trong phạm vi luận văn này, tác giả sẽ trình bày cơ bản về trích rút thông tin từ cáctrang web đặt món trực tuyến theo một mẫu cho trước, sau đó sẽ lưu thông tin vào cơ sở dữliệu phục vụ cho quá trình xây dựng hệ thống hỏi đáp tự động. Thông tin được trích rút theocác nội dung sau: 2 - Tên nhà hàng - Mô tả về nhà hàng - Số điện thoại - Địa chỉ nhà hàng - Danh sách các món ăn - Danh sách giá tương ứng với các món ăn Bên cạnh đó, trong luận văn này sẽ trình bày cơ bản về hệ thống hỏi đáp tự động, cácbài toán cũng như kỹ thuật trong việc xây dựng một hệ thống hỏi đáp tự động miền ứngdụng nhà hàng – món ăn. 3 PHẦN II. NỘI DUNG2.1. Bài toán trích rút thông tin2.1.1. Phát biểu bài toán trích rút thông tin Trích rút thông tin (Information Extraction – IE) là một lĩnh vực của khai phá dữ liệu(Data Mining) có nhiệm vụ lấy ra các mẫu thông tin “có ích” đối với người dùng. Theo Jaeyoung Yang và cộng sự, trích rút/trích xuất thông tin (IE) là bài toán nhậndạng những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạtnhân tạo nên nội dung ngữ nghĩa của văn bản đó [12]. Nói một cách đơn giản, trích rút/trích xuất thông tin là quá trình xử lý thông tin, đầuvào là một văn bản và đầu ra là các thông tin “có giá trị” với người dùng. Thông tin “có giátrị” ở đây có thể hiểu là các thực thể, các thuộc tính mô tả thực thể và mối quan hệ giữa cácthực thể. Dữ liệu được trích rút ra có nội dung và cấu trúc thỏa mãn yêu cầu người dùng. Có thể phát biểu bài toán trích rút thông tin như sau: Đầu vào: Văn bản có cấu trúc bất kỳ. Đầu ra: Thông tin “có ích” được tổ chức dưới dạng cấu trúc. Ví dụ sau đây sẽ minh họa quá trình trích rút thông tin từ văn bản và tổ chức lại thànhdữ liệu có cấu trúc Hình 2.1: Minh họa bài toán trích rút thông tin 4 Ở đây bài toán nhận đầu vào là một văn bản không có cấu trúc, nhiệm vụ của tríchrút thông tin là trích ra các dữ liệu liên quan tới Bill Gate gồm: chức vụ (CEO), công ty làmviệc (Microsoft Corporation, Microsoft), người thành lập (founder) và tên quỹ (FreeSoftware Foundation)… Sau đó dữ liệu sẽ được tổ chức lại có cấu trúc và lưu vào trong cơsở dữ liệu. Đây là một nhiệm vụ trong hội nghị KDD1 2003, ở đó những người ( ...
Tìm kiếm theo từ khóa liên quan:
Luận văn thạc sĩ Tóm tắt luận văn thạc sĩ Khoa học máy tính Luận văn thạc sĩ khoa học máy tính Nghiên cứu hệ thống hỏi đáp hướng miền Xây dựng hệ thống hỏi đáp hướng miềnTài liệu liên quan:
-
30 trang 567 0 0
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 489 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 383 6 0 -
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 369 5 0 -
97 trang 337 0 0
-
97 trang 323 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 305 0 0 -
155 trang 299 0 0
-
26 trang 294 0 0
-
26 trang 278 0 0