Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nhận dạng thực thể định danh từ văn bản ngắn Tiếng Việt và đánh giá thực nghiệm
Số trang: 16
Loại file: pdf
Dung lượng: 555.33 KB
Lượt xem: 2
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục tiêu chính của luận văn là xây dựng mô hình nhận dạng thực thể định danh cho văn bản ngắn Tiếng Việt. Kết hợp với việc áp dụng học suốt đời nhằm khắc phục những khó khăn gặp phải do đặc điểm của văn bản Tiếng Việt nói chung và văn bản ngắn nói riêng. Sau đó tiến hành thực nghiệm nhằm đánh giá hiệu quả của phương pháp áp dụng mới
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nhận dạng thực thể định danh từ văn bản ngắn Tiếng Việt và đánh giá thực nghiệmĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆPHẠM THỊ THU TRANGNHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢNNGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆMNgành: Công nghệ thông tinChuyên ngành: Hệ thống thông tinMã số: 60480104TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TINHà Nội – 2018PHẦN MỞ ĐẦU1. Tính cấp thiết của luận vănNhận dạng thực thể định danh là một cầu nối quan trọng trong việc kết nối dữ liệucó cấu trúc và dữ liệu phi cấu trúc. Nó cũng có rất nhiều ứng dụng như: xây dựng máytìm kiếm thực thể, tóm tắt văn bản, tự động đánh chỉ số cho các sách, bước tiền xử lí làmđơn giản hóa các bài toán dịch máy,… Bên cạnh đó, việc bùng nổ của các mạng xã hộinhư Facebook, Twitter,.. và các hệ thống hỏi đáp đã mang lại một lượng thông tin khổnglồ. Đặc điểm của các dữ liệu đó thường là các văn bản ngắn, từ ngữ được sử dụng thườnglà văn nói và liên quan đến nhiều miền dữ liệu khác nhau. Chính đặc điểm này đã manglại nhiều khó khăn khi áp dụng bài toán nhận dạng thực thể định danh.Khi gặp phải một vấn đề mới, chúng ta thường giải quyết nó dựa vào những trithức, kinh nghiệm có trước. Ví dụ như: khi giải một bài toán ta thường liên hệ để đưachúng về các dạng bài trước đây đã làm hoặc tìm sự tương đồng giữa chúng. Việc ápdụng những tri thức này thường làm tăng tốc độ cũng như chất lượng của việc học. Nhậnxét này không chỉ liên quan đến việc học của con người mà còn liên quan đến học máy.Việc học trong một nhiệm vụ mới được cải thiện bằng việc sử tri thức đã được lưu lại từnhững nhiệm vụ học trước đó. Nói cách khác là ta sử dụng những tri thức đã có nhằmnâng cao hiệu quả của việc học cho nhiệm vụ mới.Ý thức được tầm quan trọng của bài toán nhận dạng thực thể cũng như ý nghĩa củahọc suốt đời, em đã chọn đề tài nhận dạng thực thể định danh từ văn bản ngắn tiếng Việtvà đánh giá thực nghiệm. Đối với luận văn này, em sẽ tìm hiểu áp dụng thực nghiệmnhận dạng thực thể trong văn bản ngắn Tiếng Việt với mô hình CRFs áp dụng học suốtđời.2. Mục tiêu của luận vănMục tiêu chính của luận văn là xây dựng mô hình nhận dạng thực thể định danhcho văn bản ngắn Tiếng Việt. Kết hợp với việc áp dụng học suốt đời nhằm khắc phụcnhững khó khăn găp phải do đặc điểm của văn bản Tiếng Việt nói chung và văn bản ngắnnói riêng. Sau đó tiến hành thực nghiệm nhằm đánh giá hiệu quả của phương pháp ápdụng mới.1Phạm vi nghiên cứu của đề tài tập trung vào các vấn đề sau: Nhận dạng thực thểđịnh danh trong văn bản ngắn Tiếng Việt, cụ thể là ba loại thực thể: tên người, tên địadanh và tên tổ chức. Lưu lại những thực thể đã học được trong những miền trước để sửdụng cho việc cải thiện hiệu suất việc nhận dạng thực thể khi áp dụng cho một miền mới.3. Những đóng góp chính của luận văn Xây dựng mô hình CRFs để nhận dạng thực thể trong văn bản Tiếng Việt áp dụnghọc chuyển đổi. Tiến hành đánh giá thực nghiệm để so sánh giữa nhiều trường hợp, từ đó chứngminh được áp dụng học suốt đời có thể làm tăng hiệu suất của việc học cũng nhưchỉ ra vai trò quan trọng cảu dữ liệu có được thông qua các nhiệm vụ học trongquá khứ cho việc nhận dạng thực thể định danh ở nhiệm vụ học hiện tại.4. Bố cục của luận vănLuận văn được tổ chức thành 4 chương như sau: Chương 1 giới thiệu tổng quan về bài toán nhận dạng thực thể trong văn bản TiếngViệt, những khó khăn gặp phải khi thực hiện bài toán này cho văn bản ngắn TiếngViệt và những nghiên cứu có liên quan áp dụng cho Tiếng Anh, Tiếng Việt. Chương 2 trình bày định nghĩa học suốt đời và những nhận xét nhằm sáng tỏ địnhnghĩa. Mô tả kiến trúc hệ thống học suốt đời và giải thích chi tiết các thành phầnchính trong kiến trúc. Chương này cũng trình bày về phương pháp đánh giá mộtthực nghiệm áp dụng học suốt đời. Chương 3 trình bày phương pháp nhận dạng thực thể trong văn bản ngắn TiếngViệt sử dụng mô hình CRFs và phương pháp ước lượng tham số cho mô hình.Giới thiệu thuật toán L-CRFs áp dụng học suốt đời cho mô hình CRFs nhằm sửdụng các kiến thức đã học được trong quá khứ nhằm tăng hiệu quả của mô hìnhkhi thực hiện một nhiệm vụ học mới Chương 4 trình bày đánh giá thực nghiệm trong hai trường hợp: trong cùng mộtmiền dữ liệu, đánh giá chéo miền không áp dụng học suốt đời và áp dụng học suốtđời.2Chương 1. Bài toán nhận dạng thực thể cho văn bản ngắn TiếngViệt1.1 Bài toánKhác với việc đọc toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ nhận biếtcác thông tin đáng quan tâm. Có nhiều mức độ trích chọn thông tin từ văn bản: trích chọncác thực thể, trích chọn mối quan hệ giữa các thực thể, xác định đồng tham chiếu… Vậyđể trích chọn các thực thể hay mối quan hệ giữa chúng, ta phải nhận dạng được các thựcthể. Nói cách khác, bài toán nhận dạng thực thể là bài toán đơn giản nhất trong các bàitoán trích chọn thông tin, tuy vậy nó lại là bước cơ bản nhất để giải quyết các bài toánphức tạp hơn trong lĩnh vực này. Bài toán nhận dạng thực thể thường được chia thành haiquy trình liên tiếp: Nhận dạng đối tượng và phân loại thực thể[1]. “Nhận dạng đối tượng”là quá trình tìm kiếm các đối tượng được đề cập tới trong văn bản trong khi “Phân loạithực thể là việc gán nhãn cho các đối tượng đó. Một kiến trúc tiêu biểu mô tả cho quytrình nhận dạng thực thể được trình bày trong Hình 1.1:Hình 1.1 Quy trình nhận dạng thực thể định danh[21]:Với mục tiêu của bài toán nhận diện thực thể là trích chọn ra những thực thể trongcác văn bản, ta có thể xem xét bài toán nhận dạng thực thể như là một trường hợp cụ thểcủa bài toán gán nhãn cho dữ liệu dạng chuỗi. Ta có thể trình bày bài toán như sau[2]:Đầu vào: O( ,,…,) : chuỗi dữ liệu quan sát, với3là các từ S ( , ,…,cho dữ liệu.) : chuỗi các trạng thái tương đương với chuỗi các nhãn cần gánĐầu ra: Các câu đã được gán nhãn (chuỗi các nhãncho từng câu)Trong phạm vi tìm hiểu của luận văn, em thực hiện nhận dạng 3 loại thực thể: tênn ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận văn Thạc sĩ Hệ thống thông tin: Nhận dạng thực thể định danh từ văn bản ngắn Tiếng Việt và đánh giá thực nghiệmĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆPHẠM THỊ THU TRANGNHẬN DẠNG THỰC THỂ ĐỊNH DANH TỪ VĂN BẢNNGẮN TIẾNG VIỆT VÀ ĐÁNH GIÁ THỰC NGHIỆMNgành: Công nghệ thông tinChuyên ngành: Hệ thống thông tinMã số: 60480104TÓM TẮT LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TINHà Nội – 2018PHẦN MỞ ĐẦU1. Tính cấp thiết của luận vănNhận dạng thực thể định danh là một cầu nối quan trọng trong việc kết nối dữ liệucó cấu trúc và dữ liệu phi cấu trúc. Nó cũng có rất nhiều ứng dụng như: xây dựng máytìm kiếm thực thể, tóm tắt văn bản, tự động đánh chỉ số cho các sách, bước tiền xử lí làmđơn giản hóa các bài toán dịch máy,… Bên cạnh đó, việc bùng nổ của các mạng xã hộinhư Facebook, Twitter,.. và các hệ thống hỏi đáp đã mang lại một lượng thông tin khổnglồ. Đặc điểm của các dữ liệu đó thường là các văn bản ngắn, từ ngữ được sử dụng thườnglà văn nói và liên quan đến nhiều miền dữ liệu khác nhau. Chính đặc điểm này đã manglại nhiều khó khăn khi áp dụng bài toán nhận dạng thực thể định danh.Khi gặp phải một vấn đề mới, chúng ta thường giải quyết nó dựa vào những trithức, kinh nghiệm có trước. Ví dụ như: khi giải một bài toán ta thường liên hệ để đưachúng về các dạng bài trước đây đã làm hoặc tìm sự tương đồng giữa chúng. Việc ápdụng những tri thức này thường làm tăng tốc độ cũng như chất lượng của việc học. Nhậnxét này không chỉ liên quan đến việc học của con người mà còn liên quan đến học máy.Việc học trong một nhiệm vụ mới được cải thiện bằng việc sử tri thức đã được lưu lại từnhững nhiệm vụ học trước đó. Nói cách khác là ta sử dụng những tri thức đã có nhằmnâng cao hiệu quả của việc học cho nhiệm vụ mới.Ý thức được tầm quan trọng của bài toán nhận dạng thực thể cũng như ý nghĩa củahọc suốt đời, em đã chọn đề tài nhận dạng thực thể định danh từ văn bản ngắn tiếng Việtvà đánh giá thực nghiệm. Đối với luận văn này, em sẽ tìm hiểu áp dụng thực nghiệmnhận dạng thực thể trong văn bản ngắn Tiếng Việt với mô hình CRFs áp dụng học suốtđời.2. Mục tiêu của luận vănMục tiêu chính của luận văn là xây dựng mô hình nhận dạng thực thể định danhcho văn bản ngắn Tiếng Việt. Kết hợp với việc áp dụng học suốt đời nhằm khắc phụcnhững khó khăn găp phải do đặc điểm của văn bản Tiếng Việt nói chung và văn bản ngắnnói riêng. Sau đó tiến hành thực nghiệm nhằm đánh giá hiệu quả của phương pháp ápdụng mới.1Phạm vi nghiên cứu của đề tài tập trung vào các vấn đề sau: Nhận dạng thực thểđịnh danh trong văn bản ngắn Tiếng Việt, cụ thể là ba loại thực thể: tên người, tên địadanh và tên tổ chức. Lưu lại những thực thể đã học được trong những miền trước để sửdụng cho việc cải thiện hiệu suất việc nhận dạng thực thể khi áp dụng cho một miền mới.3. Những đóng góp chính của luận văn Xây dựng mô hình CRFs để nhận dạng thực thể trong văn bản Tiếng Việt áp dụnghọc chuyển đổi. Tiến hành đánh giá thực nghiệm để so sánh giữa nhiều trường hợp, từ đó chứngminh được áp dụng học suốt đời có thể làm tăng hiệu suất của việc học cũng nhưchỉ ra vai trò quan trọng cảu dữ liệu có được thông qua các nhiệm vụ học trongquá khứ cho việc nhận dạng thực thể định danh ở nhiệm vụ học hiện tại.4. Bố cục của luận vănLuận văn được tổ chức thành 4 chương như sau: Chương 1 giới thiệu tổng quan về bài toán nhận dạng thực thể trong văn bản TiếngViệt, những khó khăn gặp phải khi thực hiện bài toán này cho văn bản ngắn TiếngViệt và những nghiên cứu có liên quan áp dụng cho Tiếng Anh, Tiếng Việt. Chương 2 trình bày định nghĩa học suốt đời và những nhận xét nhằm sáng tỏ địnhnghĩa. Mô tả kiến trúc hệ thống học suốt đời và giải thích chi tiết các thành phầnchính trong kiến trúc. Chương này cũng trình bày về phương pháp đánh giá mộtthực nghiệm áp dụng học suốt đời. Chương 3 trình bày phương pháp nhận dạng thực thể trong văn bản ngắn TiếngViệt sử dụng mô hình CRFs và phương pháp ước lượng tham số cho mô hình.Giới thiệu thuật toán L-CRFs áp dụng học suốt đời cho mô hình CRFs nhằm sửdụng các kiến thức đã học được trong quá khứ nhằm tăng hiệu quả của mô hìnhkhi thực hiện một nhiệm vụ học mới Chương 4 trình bày đánh giá thực nghiệm trong hai trường hợp: trong cùng mộtmiền dữ liệu, đánh giá chéo miền không áp dụng học suốt đời và áp dụng học suốtđời.2Chương 1. Bài toán nhận dạng thực thể cho văn bản ngắn TiếngViệt1.1 Bài toánKhác với việc đọc toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ nhận biếtcác thông tin đáng quan tâm. Có nhiều mức độ trích chọn thông tin từ văn bản: trích chọncác thực thể, trích chọn mối quan hệ giữa các thực thể, xác định đồng tham chiếu… Vậyđể trích chọn các thực thể hay mối quan hệ giữa chúng, ta phải nhận dạng được các thựcthể. Nói cách khác, bài toán nhận dạng thực thể là bài toán đơn giản nhất trong các bàitoán trích chọn thông tin, tuy vậy nó lại là bước cơ bản nhất để giải quyết các bài toánphức tạp hơn trong lĩnh vực này. Bài toán nhận dạng thực thể thường được chia thành haiquy trình liên tiếp: Nhận dạng đối tượng và phân loại thực thể[1]. “Nhận dạng đối tượng”là quá trình tìm kiếm các đối tượng được đề cập tới trong văn bản trong khi “Phân loạithực thể là việc gán nhãn cho các đối tượng đó. Một kiến trúc tiêu biểu mô tả cho quytrình nhận dạng thực thể được trình bày trong Hình 1.1:Hình 1.1 Quy trình nhận dạng thực thể định danh[21]:Với mục tiêu của bài toán nhận diện thực thể là trích chọn ra những thực thể trongcác văn bản, ta có thể xem xét bài toán nhận dạng thực thể như là một trường hợp cụ thểcủa bài toán gán nhãn cho dữ liệu dạng chuỗi. Ta có thể trình bày bài toán như sau[2]:Đầu vào: O( ,,…,) : chuỗi dữ liệu quan sát, với3là các từ S ( , ,…,cho dữ liệu.) : chuỗi các trạng thái tương đương với chuỗi các nhãn cần gánĐầu ra: Các câu đã được gán nhãn (chuỗi các nhãncho từng câu)Trong phạm vi tìm hiểu của luận văn, em thực hiện nhận dạng 3 loại thực thể: tênn ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Công nghệ thông tin Mô hình nhận dạng thực thể Nhận dạng thực thể định danh Văn bản Tiếng ViệtGợi ý tài liệu liên quan:
-
52 trang 410 1 0
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 358 5 0 -
97 trang 309 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 296 0 0 -
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 291 0 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 286 0 0 -
74 trang 275 0 0
-
96 trang 275 0 0
-
97 trang 270 0 0
-
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 265 1 0