Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữ

Số trang: 9 Loại file: pdf Dung lượng: 1.40 MB Lượt xem: 16 Lượt tải: 0

Jamona

Hỗ trợ phí lưu trữ khi tải xuống: 4,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết trình bày một phương pháp mới để sinh ra các tóm tắt bằng ngôn ngữ mà ngữ nghĩa dựa trên cấu trúc Đại số gia tử. So với cách tiếp cận dựa trên lí thuyết mờ, cách tiếp cận dựa trên Đại số gia tử hạn chế được sự mất thông tin và làm giảm độ sai lệch trong tóm tắt dữ liệu.
Nội dung trích xuất từ tài liệu:
Ứng dụng đại số gia tử trong tóm tắt dữ liệu bằng ngôn ngữJOURNAL OF SCIENCE OF HNUE DOI: 10.18173/2354-1059.2015-00010Natural Sci. 2015, Vol. 60, No. 4, pp. 71-79This paper is available online at http://stdb.hnue.edu.vn ỨNG DỤNG ĐẠI SỐ GIA TỬ TRONG TÓM TẮT DỮ LIỆU BẰNG NGÔN NGỮ Phạm Thị Lan và Hồ Cẩm Hà Khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội Tóm tắt. Tóm tắt dữ liệu bằng ngôn ngữ (linguistic database summarization) là một trong những khả năng mà các hệ thống thông tin hướng đến. Kacprzyk và các cộng sự đã đạt được nhiều kết quả khi nghiên cứu bài toán tóm tắt dữ liệu do Yager đề ra (1982) dựa trên lí thuyết mờ của Zadeh. Trong bài báo này, chúng tôi trình bày một phương pháp mới để sinh ra các tóm tắt bằng ngôn ngữ mà ngữ nghĩa dựa trên cấu trúc Đại số gia tử. So với cách tiếp cận dựa trên lí thuyết mờ, cách tiếp cận dựa trên Đại số gia tử của chúng tôi hạn chế được sự mất thông tin và làm giảm độ sai lệch trong tóm tắt dữ liệu. Từ khóa: Tóm tắt dữ liệu, đại số gia tử, định lượng ngôn ngữ.1. Mở đầu Dữ liệu con người thu thập được ở nhiều dạng: dạng số, dạng phi số (từ ngữ, hình ảnh, âmthanh...). Tuy nhiên, trong hầu hết các tình huống, chúng ta đưa ra quyết định dựa trên các thông tindiễn đạt bằng ngôn ngữ. Các câu tóm tắt dữ liệu bằng ngôn ngữ được rút ra từ những cơ sở dữ liệu làmột dạng của tri thức. Do đó, tóm tắt dữ liệu bằng ngôn ngữ là cơ sở quan trọng trong các hệ thống hỗtrợ ra quyết định, điều khiển tự động. Một tóm tắt dữ liệu theo Yager (1982) định nghĩa trong [1] gồm có 3 thành phần: tóm tắt S, địnhlượng thỏa đáng Q, độ tin cậy T. Dựa trên khái niệm protoform của Zadeh, các tác giả Kacprzyk,Zadrozny [2] đã đưa ra hai dạng tổng quát cho một tóm tắt như sau: Dạng 1: Q y are S. Ví dụ: Hầu hết (Q) công nhân (y) lương cao (S). Dạng 2: Q B y are S. Ví dụ: Hầu hết (Q) công nhân (y) trẻ (B) lương cao (S). Với y có nghĩa là bản ghi, B là điều kiện lọc. Các nghiên cứu về tóm tắt dữ liệu [1-4] đều dựa trên lí thuyết tập mờ. Khi đó, ngữ nghĩa của cáchạng từ trong S, B, Q được diễn đạt bằng các tập mờ, độ tin cậy T được tính toán dựa trên giá trị củacác hàm thuộc như công thức (1) và (2) [5]. Công thức (3) tính độ thỏa mãn (matching degree) của bảnghi R trên điều kiện AT = F V (AT là một thuộc tính, FV là hạng từ, ví dụ Tuổi = trẻ ). Công thức (4)tính độ phù hợp (matching degree) của bản ghi R với truy vấn “Q trong số N điều kiện thỏa mãn” [3]. 1 n  (1) truth(Q y are S )  Q   S  yi  n  i 1   n      B  yi   S  yi    (2) i 1 truth (Q B y are S )  Q  n    B  yi    i 1   md  AT  FV , R    FV   R  AT    (3)  1 N  (4)   md Q Cli 1,..., N  , R  Q     md  Cli , R      n i 1 Ngày nhận bài: 13/4/2015. Ngày nhận đăng: 22/5/2015.Tác giả liên lạc: Phạm Thị Lan, địa chỉ e-mail: ptlan@hnue.edu.vn 71 Phạm Thị Lan và Hồ Cẩm Hà Trước hết, hạng từ được xác định theo công thức (1) và (2) (hạng từ có độ tin cậy cao nhất sẽđược chọn đưa vào câu tóm tắt) chưa chắc đã diễn đạt đúng ngữ nghĩa tóm tắt dữ liệu so với thực tế.Xét ví dụ sau đây. Ví dụ 1.1. Cơ sở dữ liệu gồm có 20 bản ghi, số người và độ ...