Danh mục

LUẬN VĂN: MÔ HÌNH MAXIMUM ENTROPY

Số trang: 60      Loại file: pdf      Dung lượng: 1.73 MB      Lượt xem: 10      Lượt tải: 0    
10.10.2023

Xem trước 6 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ thông tin và nhu cầu sử dụng Internet của tất cả mọi người trên thế giới đã làm tăng vọt lượng thông tin giao dịch trên Internet. Vì vậy mà số lượng văn bản xuất hiện trên Internet tăng nhanh chóng mặt cả về số lượng và chủ đề. Với khối lượng thông tin đồ sộ như vậy,
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: MÔ HÌNH MAXIMUM ENTROPY ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNGKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công Nghệ Thông Tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Trần Quang Dũng MÔ HÌNH MAXIMUM ENTROPY VÀ ỨNG DỤNGKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công Nghệ Thông TinCán bộ hướng dẫn: Lê Anh Cường HÀ NỘI - 2010 TÓM TẮT NỘI DUNG Trong những năm gần đây, với sự phát triển mạnh mẽ của công nghệ thông tin vànhu cầu sử dụng Internet của tất cả mọi người trên thế giới đã làm tăng vọt lượng thôngtin giao dịch trên Internet. Vì vậy mà số lượng văn bản xuất hiện trên Internet tăngnhanh chóng mặt cả về số lượng và chủ đề. Với khối lượng thông tin đồ sộ như vậy, đểtìm được những thông tin cần thiết cho mục đích của chúng ta sẽ mất rất nhiều thời gianvà công sức. Một câu hỏi được đặt ra, làm thế nào có thể tổ chức và tìm kiếm thông tinmột cách nhanh chóng và hiệu quả nhất? Và câu trả lời hợp lý cho câu hỏi trên là phânloại thông tin tự động bằng máy tính. Trong luận văn này, em tập trung tìm hiểu về mô hình cực đại entropy và áp dụngmô hình để xây dựng chương trình phân loại văn bản Tiếng Việt tự động dựa trên tập dữliệu huấn luyện. Từ đó hướng tới việc xây dựng chương trình chặn nội dung web bằngviệc phân tích nội dung web. Hiện nay, việc kiểm soát truy cập Internet vẫn chưa đạt được hiệu quả tốt. Nhữngtrang web với nội dung xấu vẫn được truy cập rất dễ dàng mà không có bất kỳ sự kiểmsoát nào. Với chương trình chặn nội dung web, em hy vọng có thể giúp ngăn chặn đượcnhững trang web có nội dung xấu. Bên cạnh đó, cũng giúp mọi người có thể lọc ra đượcnhững trang web có nội dung phù hợp với nhu cầu của từng người trong những lĩnh vựcriêng biệt. i LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới Thầy LÊ ANH CƯỜNG đãtận tụy hướng dẫn, động viên, giúp đỡ em trong suốt thời gian thực hiện đề tài. Em xin chân thành cảm ơn quý Thầy Cô trong khoa Công Nghệ Thông Tin đãtruyền đạt những kiến thức quý báu cho chúng em trong những năm học vừa qua. Chúng con xin nói lên lòng biết ơn đối với Ông Bà, Cha Mẹ luôn là nguồn độngviên, chăm sóc trên bước đường học vấn của chúng con. Xin chân thành cảm ơn các anh chị và bạn bè đã ủng hộ, giúp đỡ và động viênchúng em trong thời gian học tập và nghiên cứu. Mặc dù em đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phépnhưng chắc chắn sẽ không tránh khỏi những thiếu sót. Em kính mong nhận được sự cảmthông và tận tình chỉ bảo của quý Thầy Cô và các bạn. Hà nội, 06/2010 Sinh viên thực hiện, Trần Quang Dũng ii Mục lục Chương 1: Tổng quát ..................................................................................................... 11.1 Đặt vấn đề .......................................................................................................................11.2 Giới thiệu mô hình cực đại entropy .................................................................................21.3 Mục tiêu của luận văn .....................................................................................................3 Chương 2: Các phương pháp phân loại văn bản ........................................................ 52.1 Cái nhìn tổng quát về các phương pháp phân loại văn bản ...............................................52.2 Mô tả bài toán phân loại văn bản ........................................................................................52.3 Biểu diễn văn bản ...............................................................................................................62.4 Các phương pháp phân loại văn bản...................................................................................7 2.4.1 Naïve Bayes (NB).........................................................................................................7 2.4.2 k-Nearest Neighbor (kNN) ............................................................................................8 2.4.3 Linear Least Square Fit (LLSF) ....................................................................................9 2.4.4 Support Vector Machine (SVM)..................................................................................10 Chương 3: Mô hình cực đại entropy .......................................................................... 123.1 Tổng quát mô hình cực đại entropy ...................................................................................123.2 Mô hình cực đại entropy ....................................................................................................15 3.2.1 Dữ liệu huấn luyện ......................................................................................................15 3.2.2 Thống kê, đặc trưng và ràng buộc ..............................................................................16 3.2.3 Nguyên lý cực đại entropy...........................................................................................17 3.2.4 Tham số hình thức ......................................................................................................18 3.2.5 Mối quan hệ với cực đại Likelihood.............................................................................20 3.2.6 Tính các tham số .................. ...

Tài liệu được xem nhiều: