LUẬN VĂN: PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ
Số trang: 50
Loại file: pdf
Dung lượng: 819.75 KB
Lượt xem: 12
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Hà Quang Thuỵ (Trường Đại học Công Nghệ) và Nghiên cứu sinh Phan Xuân Hiếu (Japan Advanced Institute of Science and Technology) đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này. Em xin gửi lời cảm ơn và biết ơn sâu sắc tới các thày, cô đã dạy dỗ em trong suốt quá trình học tập tại trường Đại học Công Nghệ. Những kiến thức các thày,...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thuỳ Linh PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tinCán bộ hướng dẫn: NCS. Phan Xuân HiếuCán bộ đồng hướng dẫn: TS. Hà Quang Thuỵ HÀ NỘI – 2006 LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Hà QuangThuỵ (Trường Đại học Công Nghệ) và Nghiên cứu sinh Phan Xuân Hiếu (JapanAdvanced Institute of Science and Technology) đã chỉ bảo và hướng dẫn tận tình chotôi trong suốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này. Em xin gửi lời cảm ơn và biết ơn sâu sắc tới các thày, cô đã dạy dỗ em trongsuốt quá trình học tập tại trường Đại học Công Nghệ. Những kiến thức các thày, côdạy tôi là hành trang để tôi vững bước vào đời. Em cũng xin chân thành cảm ơn các thày, cô, anh, chị trong Bộ môn Các hệthống thông tin đã tạo điều kiện, giúp đỡ và động viên tinh thần cho em trong quá trìnhlàm khoá luận. Tôi xin gửi lời cảm ơn tới các bạn sinh viên trong nhóm seminar “Khai phá dữliệu và khám phá tri thức” đã ủng hộ và khuyến khích tôi trong quá trình nghiên cứuvà làm khoá luận này. Và cuối cùng, con xin gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, cảm ơn emtrai tôi, những người thân yêu của tôi, đã nuôi nấng, dạy dỗ và luôn động viên, làm chỗdựa tinh thần cho tôi trong cuộc sống cũng như trong học tập và làm việc. Xin chân thành cảm ơn! Hà Nội, ngày 25 tháng 05 năm 2006 Sinh viên Nguyễn Thị Thuỳ Linh TÓM TẮT NỘI DUNG Phân lớp văn bản là một trong những bài toán cơ bản và quan trọng nhất củalĩnh vực xử lý ngôn ngữ tự nhiên. Nó có ứng dụng rất nhiều trong các bài toán thực tếví dụ như: ứng dụng lọc nội dung văn bản (lọc thư rác, lọc trang web có nội dung phảnđộng, trang web có nội dung không lành mạnh,…), bài toán phân lớp văn bản sau tìmkiếm,… Hiện nay có rất nhiều bộ phân lớp đạt được độ chính xác cao (đều xấp xỉ90%), tuy nhiên các bộ phân lớp này hầu hết chỉ áp dụng cho một ngôn ngữ cụ thể.Thực tế cho thấy, đối với bài toán lọc nội dung trang Web thì một vấn đề đặt ra là phảixử lý trên nhiều ngôn ngữ khác nhau. Một trong hướng nghiên cứu phân lớp văn bảnđược quan tâm gần đây là phân lớp đa ngôn ngữ [7]. Khoá luận này nghiên cứu và đềxuất một phương pháp phân lớp nội dung Web độc lập ngôn ngữ. Phương pháp nàycho phép tích hợp thêm các ngôn ngữ mới vào bộ phân lớp và giải quyết vấn đề bùngnổ đặc trưng thông qua hướng tiếp cận entropy cực đại và sử dụng chiến lược tối ưuhoá hàm nhiều biến rất hiệu quả. Các kết quả thực nghiệm cho thấy hướng tiếp cận củakhoá luận rất khả quan, cụ thể, khi huấn luyện riêng biệt trên từng ngôn ngữ đều nhậnđược kết quả rất cao (Anh trên 98%, Việt trên 91%), còn khi có sự kết hợp của haingôn ngữ kết quả đạt được cũng rất khả quan (Anh-Việt xấp xỉ 95%). Đặc biệt khi chomô hình kiểm tra trên một tập dữ liệu hoàn toàn mới kết quả cũng rất khả quan (độchính xác Anh-Việt xấp xỉ 84%). Bên cạnh đó, khoá luận cũng đã phân tích các vấn đềcơ bản của bài toán phân lớp văn bản độc lập ngôn ngữ đó là sự nhập nhằng ngôn ngữvà sự bùng nổ đặc trưng, sau đó đã đưa ra các phương pháp khắc phục khá hiệu quả.Một đề xuất mới mà khoá luận đưa ra là mô hình dựa trên cây phân lớp thông minh.Đề xuất này có nhiều triển vọng cho các ứng dụng nhỏ cần phân loại văn bản và nhậndiện được ngôn ngữ. i MỤC LỤCLỜI CẢM ƠN.................................................................................................................. iTÓM TẮT NỘI DUNG................................................................................................... iMỤC LỤC ...................................................................................................................... iiBẢNG KÍ HIỆU VIẾT TẮT ......................................................................................... ivDANH MỤC BẢNG SỐ LIỆU.......................................................................................vDANH MỤC HÌNH ẢNH............................................................................................. viMỞ ĐẦU .........................................................................................................................1CHƯƠNG 1. KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN ĐỘC LẬP NGÔN NGỮ ......3 1.1. Bài toán phân lớp văn bản ...................................................................................3 1.1.1. Tổng quan......................................................................................................3 1.2. Phân lớp văn bản độc lập ngôn ngữ .....................................................................4 1.2.1. Đặt vấn đề ......................................................................................................4 1.2.2. Phân lớp văn bản độc lập ngôn ngữ ..............................................................5 1.2.3. Ý nghĩa và ứng dụng .....................................................................................5CHƯƠNG 2. CÁC MÔ HÌNH VÀ THUẬT TOÁN PHÂN LỚP VĂN BẢN...............7 2.1. Giới thiệu.............................................................................................................7 2.2. Mô hình Maximum Entropy................................................................................7 2.2.1. Giới thiệu.......................................................................................................7 2.2.2. Xây ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮ ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thị Thuỳ Linh PHÂN LỚP TÀI LIỆU WEB ĐỘC LẬP NGÔN NGỮKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tinCán bộ hướng dẫn: NCS. Phan Xuân HiếuCán bộ đồng hướng dẫn: TS. Hà Quang Thuỵ HÀ NỘI – 2006 LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ Hà QuangThuỵ (Trường Đại học Công Nghệ) và Nghiên cứu sinh Phan Xuân Hiếu (JapanAdvanced Institute of Science and Technology) đã chỉ bảo và hướng dẫn tận tình chotôi trong suốt quá trình nghiên cứu Khoa học và quá trình thực hiện khoá luận này. Em xin gửi lời cảm ơn và biết ơn sâu sắc tới các thày, cô đã dạy dỗ em trongsuốt quá trình học tập tại trường Đại học Công Nghệ. Những kiến thức các thày, côdạy tôi là hành trang để tôi vững bước vào đời. Em cũng xin chân thành cảm ơn các thày, cô, anh, chị trong Bộ môn Các hệthống thông tin đã tạo điều kiện, giúp đỡ và động viên tinh thần cho em trong quá trìnhlàm khoá luận. Tôi xin gửi lời cảm ơn tới các bạn sinh viên trong nhóm seminar “Khai phá dữliệu và khám phá tri thức” đã ủng hộ và khuyến khích tôi trong quá trình nghiên cứuvà làm khoá luận này. Và cuối cùng, con xin gửi lời cảm ơn và biết ơn vô hạn tới bố, mẹ, cảm ơn emtrai tôi, những người thân yêu của tôi, đã nuôi nấng, dạy dỗ và luôn động viên, làm chỗdựa tinh thần cho tôi trong cuộc sống cũng như trong học tập và làm việc. Xin chân thành cảm ơn! Hà Nội, ngày 25 tháng 05 năm 2006 Sinh viên Nguyễn Thị Thuỳ Linh TÓM TẮT NỘI DUNG Phân lớp văn bản là một trong những bài toán cơ bản và quan trọng nhất củalĩnh vực xử lý ngôn ngữ tự nhiên. Nó có ứng dụng rất nhiều trong các bài toán thực tếví dụ như: ứng dụng lọc nội dung văn bản (lọc thư rác, lọc trang web có nội dung phảnđộng, trang web có nội dung không lành mạnh,…), bài toán phân lớp văn bản sau tìmkiếm,… Hiện nay có rất nhiều bộ phân lớp đạt được độ chính xác cao (đều xấp xỉ90%), tuy nhiên các bộ phân lớp này hầu hết chỉ áp dụng cho một ngôn ngữ cụ thể.Thực tế cho thấy, đối với bài toán lọc nội dung trang Web thì một vấn đề đặt ra là phảixử lý trên nhiều ngôn ngữ khác nhau. Một trong hướng nghiên cứu phân lớp văn bảnđược quan tâm gần đây là phân lớp đa ngôn ngữ [7]. Khoá luận này nghiên cứu và đềxuất một phương pháp phân lớp nội dung Web độc lập ngôn ngữ. Phương pháp nàycho phép tích hợp thêm các ngôn ngữ mới vào bộ phân lớp và giải quyết vấn đề bùngnổ đặc trưng thông qua hướng tiếp cận entropy cực đại và sử dụng chiến lược tối ưuhoá hàm nhiều biến rất hiệu quả. Các kết quả thực nghiệm cho thấy hướng tiếp cận củakhoá luận rất khả quan, cụ thể, khi huấn luyện riêng biệt trên từng ngôn ngữ đều nhậnđược kết quả rất cao (Anh trên 98%, Việt trên 91%), còn khi có sự kết hợp của haingôn ngữ kết quả đạt được cũng rất khả quan (Anh-Việt xấp xỉ 95%). Đặc biệt khi chomô hình kiểm tra trên một tập dữ liệu hoàn toàn mới kết quả cũng rất khả quan (độchính xác Anh-Việt xấp xỉ 84%). Bên cạnh đó, khoá luận cũng đã phân tích các vấn đềcơ bản của bài toán phân lớp văn bản độc lập ngôn ngữ đó là sự nhập nhằng ngôn ngữvà sự bùng nổ đặc trưng, sau đó đã đưa ra các phương pháp khắc phục khá hiệu quả.Một đề xuất mới mà khoá luận đưa ra là mô hình dựa trên cây phân lớp thông minh.Đề xuất này có nhiều triển vọng cho các ứng dụng nhỏ cần phân loại văn bản và nhậndiện được ngôn ngữ. i MỤC LỤCLỜI CẢM ƠN.................................................................................................................. iTÓM TẮT NỘI DUNG................................................................................................... iMỤC LỤC ...................................................................................................................... iiBẢNG KÍ HIỆU VIẾT TẮT ......................................................................................... ivDANH MỤC BẢNG SỐ LIỆU.......................................................................................vDANH MỤC HÌNH ẢNH............................................................................................. viMỞ ĐẦU .........................................................................................................................1CHƯƠNG 1. KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN ĐỘC LẬP NGÔN NGỮ ......3 1.1. Bài toán phân lớp văn bản ...................................................................................3 1.1.1. Tổng quan......................................................................................................3 1.2. Phân lớp văn bản độc lập ngôn ngữ .....................................................................4 1.2.1. Đặt vấn đề ......................................................................................................4 1.2.2. Phân lớp văn bản độc lập ngôn ngữ ..............................................................5 1.2.3. Ý nghĩa và ứng dụng .....................................................................................5CHƯƠNG 2. CÁC MÔ HÌNH VÀ THUẬT TOÁN PHÂN LỚP VĂN BẢN...............7 2.1. Giới thiệu.............................................................................................................7 2.2. Mô hình Maximum Entropy................................................................................7 2.2.1. Giới thiệu.......................................................................................................7 2.2.2. Xây ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin phân lớp web độc lập ngôn ngữ phân lớp văn bản nhận diện ngôn ngữGợi ý tài liệu liên quan:
-
52 trang 413 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 293 0 0 -
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 288 0 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 287 0 0 -
74 trang 277 0 0
-
96 trang 277 0 0
-
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 265 1 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 262 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 253 0 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 246 0 0