![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Đề tài: Text Categorization Phân Loại Văn Bản (Chương 16)
Số trang: 38
Loại file: pdf
Dung lượng: 1.07 MB
Lượt xem: 13
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Phân loại văn bản là một vấn đề quan trọng trong lĩnh vực xử lý ngôn ngữ. Nhiệm vụ của bài toán này là gán các tài liệu văn bản vào nhóm các chủ đề cho trước.
Nội dung trích xuất từ tài liệu:
Đề tài: Text Categorization Phân Loại Văn Bản (Chương 16) ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN MINH THÀNH – 10 12 042 ĐỒ ÁN MÔN HỌC XỬ LÝ NGÔN NGỮ TỰ NHIÊNĐề tài: Text Categorization Phân Loại Văn Bản (Chương 16)Dựa trên tài liệu: Foundations Of Statistical Natural Language Processing Christopher D.Manning, Hinrich Schutze TP.HCM – 01/2011MỤC LỤC Tóm tắt đồ án ................................................................................................... 11. Bài toán phân loại văn bản............................................................................... 22. Giới thiệu ................................................................................................... 2 2.1 Phát biểu bài toán ...................................................................................... 2 2.2 Mô hình tổng quát ...................................................................................... 3 2.3 Giai đoạn huấn luyện........................................................................... 4 2.3.1 Giai đoạn phân lớp .............................................................................. 5 2.3.2 Tiền xử lý văn bản ..................................................................................... 6 2.4 Phương pháp biểu diễn văn bản ................................................................ 7 2.5 2.5.1 Mô hình không gian vector .................................................................. 7 Khái niệm trọng số............................................................................... 7 2.5.2 Đánh giá bộ phân lớp................................................................................. 9 2.6 2.6.1 Macro-Averaging ............................................................................... 11 2.6.2 Micro-Averaging ................................................................................ 11 Các phương pháp phân loại văn bản ............................................................. 123. Thuật toán Naïve Bayes........................................................................... 12 3.1 Định lý ............................................................................................... 12 3.1.1 Thuật toán ......................................................................................... 13 3.1.2 Áp dụng trong phân loại văn bản ....................................................... 15 3.1.3 Cây quyết định (Decision Tree)................................................................ 18 3.2 Khái niệm .......................................................................................... 18 3.2.1 Thuật toán xây dựng cây ................................................................... 19 3.2.2 Thuật toán ID3 ............................................................................ 19 3.2.2.1 Các độ đo trong thuật toán :........................................................ 20 3.2.2.2 Ví dụ ........................................................................................... 20 3.2.2.3 Áp dụng vào phân loại văn bản ......................................................... 23 3.2.3 Biểu diễn văn bản ....................................................................... 23 3.2.3.1 Giai đoạn huấn luyện .................................................................. 24 3.2.3.2 3.2.3.3 Cross-validation .......................................................................... 28 Giai đoạn phân lớp ..................................................................... 29 3.2.3.4 Mô hình xác xuất Entropy tối đại (Maximum Entropy Modeling) .............. 29 3 .3 3.3.1 Entropy .............................................................................................. 29 Khái niệm .................................................................................... 29 3.3.1.1 Entropy của biến ngẫu nhiên ...................................................... 30 3.3.1.2 Áp dụng vào p ...
Nội dung trích xuất từ tài liệu:
Đề tài: Text Categorization Phân Loại Văn Bản (Chương 16) ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN NGUYỄN MINH THÀNH – 10 12 042 ĐỒ ÁN MÔN HỌC XỬ LÝ NGÔN NGỮ TỰ NHIÊNĐề tài: Text Categorization Phân Loại Văn Bản (Chương 16)Dựa trên tài liệu: Foundations Of Statistical Natural Language Processing Christopher D.Manning, Hinrich Schutze TP.HCM – 01/2011MỤC LỤC Tóm tắt đồ án ................................................................................................... 11. Bài toán phân loại văn bản............................................................................... 22. Giới thiệu ................................................................................................... 2 2.1 Phát biểu bài toán ...................................................................................... 2 2.2 Mô hình tổng quát ...................................................................................... 3 2.3 Giai đoạn huấn luyện........................................................................... 4 2.3.1 Giai đoạn phân lớp .............................................................................. 5 2.3.2 Tiền xử lý văn bản ..................................................................................... 6 2.4 Phương pháp biểu diễn văn bản ................................................................ 7 2.5 2.5.1 Mô hình không gian vector .................................................................. 7 Khái niệm trọng số............................................................................... 7 2.5.2 Đánh giá bộ phân lớp................................................................................. 9 2.6 2.6.1 Macro-Averaging ............................................................................... 11 2.6.2 Micro-Averaging ................................................................................ 11 Các phương pháp phân loại văn bản ............................................................. 123. Thuật toán Naïve Bayes........................................................................... 12 3.1 Định lý ............................................................................................... 12 3.1.1 Thuật toán ......................................................................................... 13 3.1.2 Áp dụng trong phân loại văn bản ....................................................... 15 3.1.3 Cây quyết định (Decision Tree)................................................................ 18 3.2 Khái niệm .......................................................................................... 18 3.2.1 Thuật toán xây dựng cây ................................................................... 19 3.2.2 Thuật toán ID3 ............................................................................ 19 3.2.2.1 Các độ đo trong thuật toán :........................................................ 20 3.2.2.2 Ví dụ ........................................................................................... 20 3.2.2.3 Áp dụng vào phân loại văn bản ......................................................... 23 3.2.3 Biểu diễn văn bản ....................................................................... 23 3.2.3.1 Giai đoạn huấn luyện .................................................................. 24 3.2.3.2 3.2.3.3 Cross-validation .......................................................................... 28 Giai đoạn phân lớp ..................................................................... 29 3.2.3.4 Mô hình xác xuất Entropy tối đại (Maximum Entropy Modeling) .............. 29 3 .3 3.3.1 Entropy .............................................................................................. 29 Khái niệm .................................................................................... 29 3.3.1.1 Entropy của biến ngẫu nhiên ...................................................... 30 3.3.1.2 Áp dụng vào p ...
Tìm kiếm theo từ khóa liên quan:
tiểu luận nghiên cứu đề tài trình bày luận văn bài báo cáo thực tập phân loại văn bản Text CategorizationTài liệu liên quan:
-
HƯỚNG DẪN THỰC TẬP VÀ VIẾT BÁO CÁO THỰC TẬP TỐT NGHIỆP
18 trang 359 0 0 -
Tiểu luận triết học - Ý thức và vai trò của ý thức trong đời sống xã hội
13 trang 297 0 0 -
14 trang 287 0 0
-
Tiểu luận triết học - Vận dụng quan điểm cơ sở lý luận về chuyển đổi nền kinh tế thị trường
17 trang 263 0 0 -
93 trang 247 0 0
-
BÁO CÁO THÍ NGHIỆM THỰC HÀNH GIÁM ĐỊNH VI SINH VẬT
15 trang 238 0 0 -
Tiểu luận: Phân tích chiến lược của Công ty Sữa Vinamilk
25 trang 223 0 0 -
Đề tài: Thực trạng ứng dụng hệ thống CRM trong doanh nghiệp Việt Nam hiện nay và giải pháp
78 trang 220 0 0 -
Tiểu luận: Thực trạng và giải pháp marketing địa phương thu hút lượng khách vào Côn đảo
25 trang 218 0 0 -
29 trang 209 0 0