Danh mục

LUẬN VĂN: ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN

Số trang: 53      Loại file: pdf      Dung lượng: 657.47 KB      Lượt xem: 8      Lượt tải: 0    
Thư viện của tui

Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Sự phát triển nhanh chóng của mạng Internet cùng với những bước tiến mạnh mẽcủa công nghệ lưu trữ, lượng thông tin lưu trữ hiện nay đang trở nên vô cùng lớn.Thông tin được sinh ra liên tục mỗi ngày trên mạng Internet, lượng thông tin văn bảnkhổng lồ trong đó đó đã và đang mang lại lợi ích không nhỏ cho con người, tuy nhiên,nó cũng khiến chúng ta khó khăn trong việc tìm kiếm và tổng hợp thông tin. Giải phápcho vấn đề này là tóm tắt văn bản tự động. Tóm tắt văn bản tự động được...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: ĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh HiềnĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2008 1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Hoàng Minh HiềnĐỘ TƯƠNG ĐỒNG NGỮ NGHĨA GIỮA HAI CÂU VÀ ỨNG DỤNG TRONG TÓM TẮT VĂN BẢN KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS TS Hà Quang Thụy Cán bộ đồng hướng dẫn: Thạc Sỹ Đặng Thanh Hải HÀ NỘI - 2008 2Lời cảm ơn Tôi xin gửi lời cảm ơn và biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ HàQuang Thụy và Thạc sỹ Đặng Thanh Hải đã chỉ bảo và hướng dẫn tận tình cho tôi trongsuốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này. Tôi chân thành cảm ơn các thầy, cô đã tạo cho tôi những điều kiện thuận lợi để họctập và nghiên cứu tại trường Đại học Công Nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên trong nhóm nghiêncứu “Khai phá dữ liệu và khám phá tri thức” đã giúp đỡ, ủng hộ và động viên tôi trongquá trình nghiên cứu và làm khoá luận. Đặc biệt, tôi xin cảm ơn Cử nhân Trần Mai Vũ,Nghiên cứu sinh Nguyễn Cẩm Tú và Sinh viên Lê Diệu Thu, những người đã hỗ trợ tôirất nhiều về kiến thức chuyên môn, giúp tôi có thể hoàn thành khóa luận. Cuối cùng, tôi muốn gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, anh trai, tất cả bạnbè và những người thân yêu của tôi. Xin chân thành cảm ơn! Sinh viên Hoàng Minh Hiền 3Tóm tắt nội dung Hiện nay, tóm tắt văn bản là một bài toán có tính ứng dụng thực tiễn cao. Tóm tắtvăn bản nhận được sự nhiều sự quan tâm nghiên cứu của nhiều nhà khoa học, của các hộinghị quốc tế như hội nghị DUC (Document Understanding Conference), hội nghịColing/ACL (Computational Linguistics/Association for Computational Linguistics), củacác trung tâm nghiên cứu như IBM, Microsoft… Khóa luận với đề tài “Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong bàitoán tóm tắt văn bản” tập trung nghiên cứu vào các phương pháp tóm tắt văn bản; độtương đồng câu và các phương pháp để tính toán độ tương đồng câu. Từ đó, trên cơ sở vềmột số kết quả nghiên cứu đã có về độ đo tương đồng câu và về Hidden Topic, khóa luậnđề xuất một mô hình tóm tắt văn bản đơn có sử dụng Hidden Topic để tính toán độ tươngđồng ngữ nghĩa giữa hai câu. 4Mục lụcTóm tắt nội dung ............................................................................................................... 4Mục lục ............................................................................................................................... 5Danh sách bảng.................................................................................................................. 7Danh sách hình vẽ .............................................................................................................. 8Bảng ký hiệu và từ viết tắt ................................................................................................ 9Mở đầu.............................................................................................................................. 10Chương 1. Tổng quan về tóm tắt văn bản và độ tương đồng câu............................... 12 1.1. Đặt vấn đề......................................................................................................12 1.2. Nền tảng kiến thức ........................................................................................13 1.2.1. Data Mining .......................................................................................13 1.2.2. Text Mining .......................................................................................13 1.2.3. Web Mining .......................................................................................14 1.3. Tóm tắt văn bản.............................................................................................15 1.4. Độ tương đồng giữa hai câu ..........................................................................16Chương 2. Bài toán tóm tắt văn bản và một số phương pháp tóm tắt văn bản ........ 18 2.1. Bài toán tóm tắt văn bản................................................................................18 2.1.1. Định nghĩa tóm tắt ............ ...

Tài liệu được xem nhiều: