Danh mục

Tóm tắt luận văn Thạc sĩ: Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng

Số trang: 22      Loại file: pdf      Dung lượng: 545.38 KB      Lượt xem: 8      Lượt tải: 0    
Hoai.2512

Hỗ trợ phí lưu trữ khi tải xuống: 1,000 VND Tải xuống file đầy đủ (22 trang) 0

Báo xấu

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài luận văn thạc sĩ nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụng, bài toán trích rút thông tin, phát biểu bài toán trích rút thông tin, trích rút thông tin là một lĩnh vực của khai phá dữ liệu có nhiệm vụ lấy ra các mẫu thông tin có ích đối với người dùng.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận văn Thạc sĩ: Nghiên cứu và xây dựng hệ thống hỏi đáp hướng miền ứng dụngHỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG --------------------------------------- Trương Tài Ba NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG HỎI ĐÁP HƯỚNG MIỀN ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn được hoàn thành tại: HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNGNgười hướng dẫn khoa học: PGS.TS. Lê Thanh Hương. Viện công nghệ thông tin và truyền thông -Trường Đại học Bách Khoa Hà Nội.Phản biện 1: ……………………………………………………………………………………………Phản biện 2: ……………………………………………………………………………………………Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chínhViễn thôngVào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............Có thể tìm hiểu luận văn tại: - Thư viện của Học viện Công nghệ Bưu chính Viễn thông 1 PHẦN I. MỞ ĐẦU Tìm kiếm luôn là một trong những bài toán quan trọng trong việc lưu trữ và tổ chứcdữ liệu. Các máy tìm kiếm như Google, Bing…ra đời đã tạo nên cuộc cách mạng lớn trongviệc tìm kiếm thông tin trên Internet. Tuy nhiên, những máy tìm kiếm này trong một sốtrường hợp không phù hợp với yêu cầu thực tế do kết quả trả về cho người dùng quá lớn(thường lên đến hàng triệu bản ghi). Do đó, người dùng sẽ rất khó tìm kiếm được thông tinhữu ích trong lượng thông tin đồ sộ như vậy. Thu thập, xử lý và khai thác thông tin theo một miền ứng dụng cụ thể sao cho hiệuquả đang là một vấn đề mới mẻ và thú vị trong lĩnh vực khai phá dữ liệu. Bài toán có ýnghĩa lớn đối với nhu cầu tiếp cận thông tin của con người. Trong luận văn này sẽ đề cậpđến việc sử dụng các kỹ thuật trích rút thông tin (Information Extraction - IE) kết hợp vớixử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) để thu thập, xử lý, trích rútcác thông tin từ các trang web đặt món ăn trực tuyến, từ đó xây dựng cơ sở dữ liệu lưu trữcác thông tin của nhà hàng và món ăn, cuối cùng xây dựng một hệ thống hỏi đáp tự độngdựa trên cơ sở dữ liệu này.Mô hình bài toán như sau: Hình 1.1: Mô hình bài toán Trong phạm vi luận văn này, tác giả sẽ trình bày cơ bản về trích rút thông tin từ cáctrang web đặt món trực tuyến theo một mẫu cho trước, sau đó sẽ lưu thông tin vào cơ sở dữliệu phục vụ cho quá trình xây dựng hệ thống hỏi đáp tự động. Thông tin được trích rút theocác nội dung sau: 2 - Tên nhà hàng - Mô tả về nhà hàng - Số điện thoại - Địa chỉ nhà hàng - Danh sách các món ăn - Danh sách giá tương ứng với các món ăn Bên cạnh đó, trong luận văn này sẽ trình bày cơ bản về hệ thống hỏi đáp tự động, cácbài toán cũng như kỹ thuật trong việc xây dựng một hệ thống hỏi đáp tự động miền ứngdụng nhà hàng – món ăn. 3 PHẦN II. NỘI DUNG2.1. Bài toán trích rút thông tin2.1.1. Phát biểu bài toán trích rút thông tin Trích rút thông tin (Information Extraction – IE) là một lĩnh vực của khai phá dữ liệu(Data Mining) có nhiệm vụ lấy ra các mẫu thông tin “có ích” đối với người dùng. Theo Jaeyoung Yang và cộng sự, trích rút/trích xuất thông tin (IE) là bài toán nhậndạng những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạtnhân tạo nên nội dung ngữ nghĩa của văn bản đó [12]. Nói một cách đơn giản, trích rút/trích xuất thông tin là quá trình xử lý thông tin, đầuvào là một văn bản và đầu ra là các thông tin “có giá trị” với người dùng. Thông tin “có giátrị” ở đây có thể hiểu là các thực thể, các thuộc tính mô tả thực thể và mối quan hệ giữa cácthực thể. Dữ liệu được trích rút ra có nội dung và cấu trúc thỏa mãn yêu cầu người dùng. Có thể phát biểu bài toán trích rút thông tin như sau: Đầu vào: Văn bản có cấu trúc bất kỳ. Đầu ra: Thông tin “có ích” được tổ chức dưới dạng cấu trúc. Ví dụ sau đây sẽ minh họa quá trình trích rút thông tin từ văn bản và tổ chức lại thànhdữ liệu có cấu trúc Hình 2.1: Minh họa bài toán trích rút thông tin 4 Ở đây bài toán nhận đầu vào là một văn bản không có cấu trúc, nhiệm vụ của tríchrút thông tin là trích ra các dữ liệu liên quan tới Bill Gate gồm: chức vụ (CEO), công ty làmviệc (Microsoft Corporation, Microsoft), người thành lập (founder) và tên quỹ (FreeSoftware Foundation)… Sau đó dữ liệu sẽ được tổ chức lại có cấu trúc và lưu vào trong cơsở dữ liệu. Đây là một nhiệm vụ trong hội nghị KDD1 2003, ở đó những người ( ...

Tài liệu được xem nhiều:

Tài liệu liên quan: