LUẬN VĂN: NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ
Số trang: 58
Loại file: pdf
Dung lượng: 647.53 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Nhận biết các loại thực thể là một bước cơ bản trong trích chọn thông tin từvăn bản và xử lý ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tómtắt văn bản, hiểu ngôn ngữ tự nhiên , nhận biết tên thực thể trong sinh/y học và đặcbiệt ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường Webvào các ontology ngữ nghĩa và các cơ sở tri thức....
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Cẩm Tú NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂNBẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin HÀ NỘI - 2005 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Cẩm Tú NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂNBẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Phan Xuân Hiếu HÀ NỘI - 2005 Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Hà QuangThụy và ThS. Phan Xuân Hiếu, những người đã tận tình hướng dẫn em trong suốt quátrình nghiên cứu Khoa học và làm khóa luận tốt nghiệp. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy emtrong bốn năm qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ làhành trang giúp em vững bước trong tương lai. Em cũng muốn gửi lời cảm ơn đến các anh chị và các thầy cô trong nhómseminar về “Khai phá dữ liệu” như ThS.Nguyễn Trí Thành, ThS. Tào Thị ThuPhượng, CN. Vũ Bội Hằng, CN. Nguyễn Thị Hương Giang ... đã cho em những lờikhuyên bổ ích về chuyên môn trong quá trình nghiên cứu. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt làcha mẹ và em trai, những người luôn kịp thời động viên và giúp đỡ em vượt quanhững khó khăn trong cuộc sống. Sinh Viên Nguyễn Cẩm Tú i Tóm tắt Nhận biết các loại thực thể là một bước cơ bản trong trích chọn thông tin từvăn bản và xử lý ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tómtắt văn bản, hiểu ngôn ngữ tự nhiên , nhận biết tên thực thể trong sinh/y học và đặcbiệt ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường Webvào các ontology ngữ nghĩa và các cơ sở tri thức. Trong khóa luận này, em trình bày một giải pháp nhận biết loại thực thể chocác văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận khácnhau, em chọn phương pháp tiếp cận học máy bằng cách xây dựng một hệ thống nhậnbiết loại thực thể dựa trên mô hình Conditional Random Fields (CRF- Laferty, 2001) .Điểm mạnh của CRF là nó có khả năng xử lý dữ liệu có tính chất chuỗi, có thể tíchhợp hàng trăm nghìn thậm chí hàng triệu đặc điểm từ dữ liệu hết sức đa dạng nhằm hỗtrợ cho quá trình phân lớp. Thực nghiệm trên các văn bản tiếng Việt cho thấy qui trìnhphân lớp đạt được kết quả rất khả quan. ii Mục lụcLời cảm ơn ........................................................................................................................iTóm tắt ............................................................................................................................ iiMục lục .......................................................................................................................... iiiBảng từ viết tắt ................................................................................................................vMở đầu .............................................................................................................................1Chương 1. Bài toán nhận diện loại thực thể ................................................................3 1.1. Trích chọn thông tin..........................................................................................3 1.2. Bài toán nhận biết các loại thực thể ..................................................................4 1.3. Mô hình hóa bài toán nhận biết các loại thực thể .............................................5 1.4. Ý nghĩa của bài toán nhận biết các loại thực thể ..............................................6Chương 2. Các hướng tiếp cận giải quyết bài toán nhận biết các loại thực thể ..........8 2.1. Hướng tiếp cận thủ công ...................................................................................8 2.2. Các mô hình Markov ẩn (HMM) ......................................................................9 2.2.1. Tổng quan về các mô hình HMM .............................................................9 ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN:NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Cẩm Tú NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂNBẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin HÀ NỘI - 2005 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Cẩm Tú NHẬN BIẾT CÁC LOẠI THỰC THỂ TRONG VĂNBẢN TIẾNG VIỆT NHẰM HỖ TRỢ WEB NGỮ NGHĨA VÀ TÌM KIẾM HƯỚNG THỰC THỂ KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Phan Xuân Hiếu HÀ NỘI - 2005 Lời cảm ơn Trước tiên, em muốn gửi lời cảm ơn sâu sắc nhất đến thầy giáo, TS. Hà QuangThụy và ThS. Phan Xuân Hiếu, những người đã tận tình hướng dẫn em trong suốt quátrình nghiên cứu Khoa học và làm khóa luận tốt nghiệp. Em xin bày tỏ lời cảm ơn sâu sắc đến những thầy cô giáo đã giảng dạy emtrong bốn năm qua, những kiến thức mà em nhận được trên giảng đường đại học sẽ làhành trang giúp em vững bước trong tương lai. Em cũng muốn gửi lời cảm ơn đến các anh chị và các thầy cô trong nhómseminar về “Khai phá dữ liệu” như ThS.Nguyễn Trí Thành, ThS. Tào Thị ThuPhượng, CN. Vũ Bội Hằng, CN. Nguyễn Thị Hương Giang ... đã cho em những lờikhuyên bổ ích về chuyên môn trong quá trình nghiên cứu. Cuối cùng, em muốn gửi lời cảm ơn sâu sắc đến tất cả bạn bè, và đặc biệt làcha mẹ và em trai, những người luôn kịp thời động viên và giúp đỡ em vượt quanhững khó khăn trong cuộc sống. Sinh Viên Nguyễn Cẩm Tú i Tóm tắt Nhận biết các loại thực thể là một bước cơ bản trong trích chọn thông tin từvăn bản và xử lý ngôn ngữ tự nhiên. Nó được ứng dụng nhiều trong dịch tự động, tómtắt văn bản, hiểu ngôn ngữ tự nhiên , nhận biết tên thực thể trong sinh/y học và đặcbiệt ứng dụng trong việc tích hợp tự động các đối tượng, thực thể từ môi trường Webvào các ontology ngữ nghĩa và các cơ sở tri thức. Trong khóa luận này, em trình bày một giải pháp nhận biết loại thực thể chocác văn bản tiếng Việt trên môi trường Web. Sau khi xem xét các hướng tiếp cận khácnhau, em chọn phương pháp tiếp cận học máy bằng cách xây dựng một hệ thống nhậnbiết loại thực thể dựa trên mô hình Conditional Random Fields (CRF- Laferty, 2001) .Điểm mạnh của CRF là nó có khả năng xử lý dữ liệu có tính chất chuỗi, có thể tíchhợp hàng trăm nghìn thậm chí hàng triệu đặc điểm từ dữ liệu hết sức đa dạng nhằm hỗtrợ cho quá trình phân lớp. Thực nghiệm trên các văn bản tiếng Việt cho thấy qui trìnhphân lớp đạt được kết quả rất khả quan. ii Mục lụcLời cảm ơn ........................................................................................................................iTóm tắt ............................................................................................................................ iiMục lục .......................................................................................................................... iiiBảng từ viết tắt ................................................................................................................vMở đầu .............................................................................................................................1Chương 1. Bài toán nhận diện loại thực thể ................................................................3 1.1. Trích chọn thông tin..........................................................................................3 1.2. Bài toán nhận biết các loại thực thể ..................................................................4 1.3. Mô hình hóa bài toán nhận biết các loại thực thể .............................................5 1.4. Ý nghĩa của bài toán nhận biết các loại thực thể ..............................................6Chương 2. Các hướng tiếp cận giải quyết bài toán nhận biết các loại thực thể ..........8 2.1. Hướng tiếp cận thủ công ...................................................................................8 2.2. Các mô hình Markov ẩn (HMM) ......................................................................9 2.2.1. Tổng quan về các mô hình HMM .............................................................9 ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin tìm kiếm hướng thực thể web ngữ nghĩa trích chọn thông tin xử lý ngôn ngữ tự nhiên thực thể tiếng ViệtGợi ý tài liệu liên quan:
-
52 trang 430 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 314 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 308 0 0 -
12 trang 306 0 0
-
74 trang 300 0 0
-
96 trang 293 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 289 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 281 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 275 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 273 0 0