Luận văn : Biểu diễn văn bản trên lý thuyết tập mờ . Áp dụng trong bài toán phân lớp văn bản
Số trang: 61
Loại file: pdf
Dung lượng: 762.43 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 7 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quantâm đầu tiên trong các vấn đề xử lý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìmkiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản… Khóa luận này trình bày vànghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và ápdụng vào bài toán phân lớp văn bản. Nội dung của khóa luận tập trung vào các vấn đềsau:...
Nội dung trích xuất từ tài liệu:
Luận văn : Biểu diễn văn bản trên lý thuyết tập mờ . Áp dụng trong bài toán phân lớp văn bản Luận văn tốt nghiệpBiểu diễn văn bản trên lý thuyếttập mờ . Áp dụng trong bài toán phân lớp văn bảnKhóa luận tốt nghiệp Nguyễn Việt Cường LỜI CẢM ƠN Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy giáo, tiến sĩ HÀ QUANG THỤY, Trường Đại học Công nghệ, ĐHQG Hà Nội và tiến sĩ ĐOÀN SƠN, Đại học Tohoku, Nhật Bản đã hướng dẫn và động viên em rất nhiều trong quá trình làm luận văn. Em xin được gửi lời cảm ơn tới các Thầy, Cô trong Trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội và nhóm Xeminar thuộc bộ môn Các Hệ thống Thông tin, những người đã dạy dỗ, giúp đỡ và chỉ bảo cho em trong suốt quá trình học tập. Cuối cùng, con xin gửi lời biết ơn tới gia đình, nơi đã sinh thành, nuôi dưỡng và động viên con rất nhiều trong thời gian qua. Hà Nội ngày 20/05/2006 Sinh viên Nguyễn Việt Cường iKhóa luận tốt nghiệp Nguyễn Việt Cường TÓM TẮT Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quantâm đầu tiên trong các vấn đề xử lý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìmkiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản… Khóa luận này trình bày vànghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và ápdụng vào bài toán phân lớp văn bản. Nội dung của khóa luận tập trung vào các vấn đềsau: 1. Trình bày một số phương pháp biểu diễn văn bản thông thường, trong đó, khóaluận đi sâu vào cách biểu diễn theo mô hình vector, tức mỗi văn bản sẽ được biểu diễnnhư một vector có các thành phần là các từ khóa có mặt hoặc không có mặt trong văn bản.Sau đó, khóa luận tìm hiểu phương pháp biểu diễn văn bản trong máy tìm kiếm. 2. Trình bày về lý thuyết tập mờ, và đề cập một cách biểu diễn văn bản mới dựatrên các khái niệm mờ. Từ đó đề xuất hướng giải quyết khi xuất hiện các từ đồng nghĩatrong văn bản. 3. Tiến hành thử nghiệm cách biểu diễn mới này vào bài toán phân lớp văn bản.Chỉ ra một số kết quả phân lớp và so sánh với phương pháp biểu diễn theo mô hình vectorthông thường. Từ đó rút ra một số kết luận và hướng phát triển tiếp theo. iiKhóa luận tốt nghiệp Nguyễn Việt Cường MỤC LỤC LỜI CẢM ƠN ..........................................................................................................i TÓM TẮT ...............................................................................................................ii MỤC LỤC ............................................................................................................. iii MỞ ĐẦU .................................................................................................................1 Chương 1. KHAI PHÁ DỮ LIỆU VĂN BẢN........................................................3 1.1. Tổng quan về khai phá dữ liệu................................................................3 1.1.1. Khái niệm............................................................................................3 1.1.2. Các bước của quá trình khai phá dữ liệu ............................................3 1.1.3. Ứng dụng của khai phá dữ liệu...........................................................5 1.2. Một số bài toán trong khai phá dữ liệu văn bản......................................6 1.2.1. Tìm kiếm văn bản ...............................................................................6 1.2.2. Phân lớp văn bản.................................................................................7 Chương 2. CÁC PHƯƠNG PHÁP CƠ BẢN BIỂU DIỄN VĂN BẢN ...............10 2.1. Tiền xử lý văn bản ................................................................................10 2.2. Mô hình Logic.......................................................................................12 2.3. Mô hình phân tích cú pháp ...................................................................14 2.4. Mô hình không gian vector ...................................................................15 2.4.1. Mô hình Boolean ..............................................................................17 2.4.2. Mô hình tần suất ...............................................................................17 2.5. Biểu diễn văn bản trong máy tìm kiếm................ ...
Nội dung trích xuất từ tài liệu:
Luận văn : Biểu diễn văn bản trên lý thuyết tập mờ . Áp dụng trong bài toán phân lớp văn bản Luận văn tốt nghiệpBiểu diễn văn bản trên lý thuyếttập mờ . Áp dụng trong bài toán phân lớp văn bảnKhóa luận tốt nghiệp Nguyễn Việt Cường LỜI CẢM ƠN Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thầy giáo, tiến sĩ HÀ QUANG THỤY, Trường Đại học Công nghệ, ĐHQG Hà Nội và tiến sĩ ĐOÀN SƠN, Đại học Tohoku, Nhật Bản đã hướng dẫn và động viên em rất nhiều trong quá trình làm luận văn. Em xin được gửi lời cảm ơn tới các Thầy, Cô trong Trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội và nhóm Xeminar thuộc bộ môn Các Hệ thống Thông tin, những người đã dạy dỗ, giúp đỡ và chỉ bảo cho em trong suốt quá trình học tập. Cuối cùng, con xin gửi lời biết ơn tới gia đình, nơi đã sinh thành, nuôi dưỡng và động viên con rất nhiều trong thời gian qua. Hà Nội ngày 20/05/2006 Sinh viên Nguyễn Việt Cường iKhóa luận tốt nghiệp Nguyễn Việt Cường TÓM TẮT Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quantâm đầu tiên trong các vấn đề xử lý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìmkiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản… Khóa luận này trình bày vànghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và ápdụng vào bài toán phân lớp văn bản. Nội dung của khóa luận tập trung vào các vấn đềsau: 1. Trình bày một số phương pháp biểu diễn văn bản thông thường, trong đó, khóaluận đi sâu vào cách biểu diễn theo mô hình vector, tức mỗi văn bản sẽ được biểu diễnnhư một vector có các thành phần là các từ khóa có mặt hoặc không có mặt trong văn bản.Sau đó, khóa luận tìm hiểu phương pháp biểu diễn văn bản trong máy tìm kiếm. 2. Trình bày về lý thuyết tập mờ, và đề cập một cách biểu diễn văn bản mới dựatrên các khái niệm mờ. Từ đó đề xuất hướng giải quyết khi xuất hiện các từ đồng nghĩatrong văn bản. 3. Tiến hành thử nghiệm cách biểu diễn mới này vào bài toán phân lớp văn bản.Chỉ ra một số kết quả phân lớp và so sánh với phương pháp biểu diễn theo mô hình vectorthông thường. Từ đó rút ra một số kết luận và hướng phát triển tiếp theo. iiKhóa luận tốt nghiệp Nguyễn Việt Cường MỤC LỤC LỜI CẢM ƠN ..........................................................................................................i TÓM TẮT ...............................................................................................................ii MỤC LỤC ............................................................................................................. iii MỞ ĐẦU .................................................................................................................1 Chương 1. KHAI PHÁ DỮ LIỆU VĂN BẢN........................................................3 1.1. Tổng quan về khai phá dữ liệu................................................................3 1.1.1. Khái niệm............................................................................................3 1.1.2. Các bước của quá trình khai phá dữ liệu ............................................3 1.1.3. Ứng dụng của khai phá dữ liệu...........................................................5 1.2. Một số bài toán trong khai phá dữ liệu văn bản......................................6 1.2.1. Tìm kiếm văn bản ...............................................................................6 1.2.2. Phân lớp văn bản.................................................................................7 Chương 2. CÁC PHƯƠNG PHÁP CƠ BẢN BIỂU DIỄN VĂN BẢN ...............10 2.1. Tiền xử lý văn bản ................................................................................10 2.2. Mô hình Logic.......................................................................................12 2.3. Mô hình phân tích cú pháp ...................................................................14 2.4. Mô hình không gian vector ...................................................................15 2.4.1. Mô hình Boolean ..............................................................................17 2.4.2. Mô hình tần suất ...............................................................................17 2.5. Biểu diễn văn bản trong máy tìm kiếm................ ...
Tìm kiếm theo từ khóa liên quan:
luận văn tập mờ lý thuyết tập mờ phân lớp văn bản biểu diễn văn bản tóm tắt văn bản tìm kiếm văn bảnGợi ý tài liệu liên quan:
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 308 0 0 -
Luận văn: Thiết kế xây dựng bộ đếm xung, ứng dụng đo tốc độ động cơ trong hệ thống truyền động điện
63 trang 237 0 0 -
79 trang 230 0 0
-
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 219 0 0 -
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 218 0 0 -
LUẬN VĂN: TÌM HIỂU PHƯƠNG PHÁP HỌC TÍCH CỰC VÀ ỨNG DỤNG CHO BÀI TOÁN LỌC THƯ RÁC
65 trang 214 0 0 -
Báo cáo thực tập nhà máy đường Bến Tre
68 trang 213 0 0 -
BÀI THUYẾT TRÌNH CÔNG TY CỔ PHẦN
11 trang 205 0 0 -
Báo cáo bài tập môn học : phân tích thiết kế hệ thống
27 trang 205 0 0 -
Luận văn: Nghiên cứu văn hóa Ấn Độ
74 trang 199 0 0