Danh mục

Đề tài: Text Categorization Phân Loại Văn Bản (Chương 16)

Số trang: 38      Loại file: pdf      Dung lượng: 1.07 MB      Lượt xem: 13      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 19,000 VND Tải xuống file đầy đủ (38 trang) 0

Báo xấu

Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước.
Nội dung trích xuất từ tài liệu:
Đề tài: Text Categorization Phân Loại Văn Bản (Chương 16) ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN MINH THÀNH – 10 12 042 ĐỒ ÁN MÔN HỌC XỬ LÝ NGÔN NGỮ TỰ NHIÊNĐề tài: Text Categorization Phân Loại Văn Bản (Chương 16)Dựa trên tài liệu: Foundations Of Statistical Natural Language Processing Christopher D.Manning, Hinrich Schutze TP.HCM – 01/2011MỤC LỤC Tóm tắt đồ án ................................................................................................... 11. Bài toán phân loại văn bản............................................................................... 22. Giới thiệu ................................................................................................... 2 2.1 Phát biểu bài toán ...................................................................................... 2 2.2 Mô hình tổng quát ...................................................................................... 3 2.3 Giai đoạn huấn luyện........................................................................... 4 2.3.1 Giai đoạn phân lớp .............................................................................. 5 2.3.2 Tiền xử lý văn bản ..................................................................................... 6 2.4 Phương pháp biểu diễn văn bản ................................................................ 7 2.5 2.5.1 Mô hình không gian vector .................................................................. 7 Khái niệm trọng số............................................................................... 7 2.5.2 Đánh giá bộ phân lớp................................................................................. 9 2.6 2.6.1 Macro-Averaging ............................................................................... 11 2.6.2 Micro-Averaging ................................................................................ 11 Các phương pháp phân loại văn bản ............................................................. 123. Thuật toán Naïve Bayes........................................................................... 12 3.1 Định lý ............................................................................................... 12 3.1.1 Thuật toán ......................................................................................... 13 3.1.2 Áp dụng trong phân loại văn bản ....................................................... 15 3.1.3 Cây quyết định (Decision Tree)................................................................ 18 3.2 Khái niệm .......................................................................................... 18 3.2.1 Thuật toán xây dựng cây ................................................................... 19 3.2.2 Thuật toán ID3 ............................................................................ 19 3.2.2.1 Các độ đo trong thuật toán :........................................................ 20 3.2.2.2 Ví dụ ........................................................................................... 20 3.2.2.3 Áp dụng vào phân loại văn bản ......................................................... 23 3.2.3 Biểu diễn văn bản ....................................................................... 23 3.2.3.1 Giai đoạn huấn luyện .................................................................. 24 3.2.3.2 3.2.3.3 Cross-validation .......................................................................... 28 Giai đoạn phân lớp ..................................................................... 29 3.2.3.4 Mô hình xác xuất Entropy tối đại (Maximum Entropy Modeling) .............. 29 3 .3 3.3.1 Entropy .............................................................................................. 29 Khái niệm .................................................................................... 29 3.3.1.1 Entropy của biến ngẫu nhiên ...................................................... 30 3.3.1.2 Áp dụng vào p ...

Tài liệu được xem nhiều:

Tài liệu liên quan: