Bài giảng Tìm kiếm và trình diễn thông tin - Bài 11: Phân lớp văn bản
Số trang: 31
Loại file: pdf
Dung lượng: 1.11 MB
Lượt xem: 11
Lượt tải: 0
Xem trước 4 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 11: Phân lớp văn bản. Bài này cung cấp cho sinh viên những nội dung gồm: ứng dụng phân lớp trong tìm kiếm; phương pháp Naïve Bayes; đánh giá phương pháp phân lớp;... Mời các bạn cùng tham khảo chi tiết nội dung bài giảng!
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 11: Phân lớp văn bản IT4853 Tìm kiếm và trình diễn thông tinBài 11. Phân lớp văn bảnIIR.C13. Text classification and Naive Bayes Bộ môn Hệ thống thông tin Viện CNTT & TT Nội dung chính Ứng dụng phân lớp trong tìm kiếm Phương pháp Naïve Bayes Đánh giá phương pháp phân lớp 2 Ứng dụng trong công cụ tìm kiếm Xác định ngôn ngữ Các lớp: Tiếng Anh, tiếng Việt, v.v. Xác định spam Tìm kiếm theo chủ đề Truy vấn cố định (standing queries), v.d., Google Alerts Phân lớp bình luận: vd., bình luận về phim mang tính khen ngợi hay phê bình, v.v. 3 Các phương pháp phân lớp Theo mức độ tham gia của con người Phân lớp thủ công Người phân lớp, máy hỗ trợ Phân lớp dựa trên luật (bán tự động) Người cung cấp luật, máy phân lớp Xác suất/thống kê (tự động) Người huấn luyện, máy phân lớp 4 Phương pháp phân lớp thủ công Sử dụng ở: Yahoo, ODP, Pubmed; Rất chính xác! Đơn giản với dữ liệu nhỏ; Phức tạp & chi phí cao trên quy mô lớn.Phân lớp tự động? 5 Phương pháp phân lớp dựa trên luật Ví dụ, Google Alerts; Sử dụng môi trường tích hợp hỗ trợ viết luật phân lớp; Thường sử dụng Logic Boolean. Có thể đạt độ chính xác rất cao; Cần chi phí lớn và khó quản lý. 6Ví dụ luật phân lớp 7 Phương pháp phân lớp dựa trên xác suất/thống kê Bài toán phân lớp văn bản: Huấn luyện: Học có giám sát, nhằm xác định ϒ; Phân lớp: Sử dụng ϒ để phân lớp văn bản. Tiêu biểu: Naïve Bayes, Rocchio, kNN, SVMs Cần thiết lập bộ dữ liệu huấn luyện; Tuy nhiên không yêu cầu chuyên gia. 8 Bài toán phân lớp văn bản 9Bài toán phân lớp văn bản (2) 10 Nội dung chính Ứng dụng phân lớp trong tìm kiếm Phương pháp Naïve Bayes Đánh giá phương pháp phân lớp 11 Phân lớp Naïve Bayes 12 Tiêu trí xác suất cực đại 13 Lấy log 14 Ước lượng tham số 15 Giá trị 0 Nếu có một từ t thuộc d nhưng không xuất hiện trong bất kỳ văn bản nào của lớp c thì: p(t|c) = 0 Kéo theo p(c|d)=0.Giải pháp? 16 Làm mịn 17Giải thuật Naïve Bayes: Huấn luyện 18Giải thuật Naïve Bayes: Phân lớp 19 Độ phức tạp của Naive Bayes Lave: Độ dài trung bình của văn bản luyện, La: Độ dài văn bản phân lớp; Ma: Số lượng từ duy nhất trong văn bản phân lớp; D là bộ dữ liệu luyện, V là bộ từ vựng; C là tập lớp. Naive Bayes có độ phức tạp tuyến tính so với kích thước dữ liệu luyện và dữ liệu phân lớp. Đây là độ phức tạp tối ưu. 20
Nội dung trích xuất từ tài liệu:
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 11: Phân lớp văn bản IT4853 Tìm kiếm và trình diễn thông tinBài 11. Phân lớp văn bảnIIR.C13. Text classification and Naive Bayes Bộ môn Hệ thống thông tin Viện CNTT & TT Nội dung chính Ứng dụng phân lớp trong tìm kiếm Phương pháp Naïve Bayes Đánh giá phương pháp phân lớp 2 Ứng dụng trong công cụ tìm kiếm Xác định ngôn ngữ Các lớp: Tiếng Anh, tiếng Việt, v.v. Xác định spam Tìm kiếm theo chủ đề Truy vấn cố định (standing queries), v.d., Google Alerts Phân lớp bình luận: vd., bình luận về phim mang tính khen ngợi hay phê bình, v.v. 3 Các phương pháp phân lớp Theo mức độ tham gia của con người Phân lớp thủ công Người phân lớp, máy hỗ trợ Phân lớp dựa trên luật (bán tự động) Người cung cấp luật, máy phân lớp Xác suất/thống kê (tự động) Người huấn luyện, máy phân lớp 4 Phương pháp phân lớp thủ công Sử dụng ở: Yahoo, ODP, Pubmed; Rất chính xác! Đơn giản với dữ liệu nhỏ; Phức tạp & chi phí cao trên quy mô lớn.Phân lớp tự động? 5 Phương pháp phân lớp dựa trên luật Ví dụ, Google Alerts; Sử dụng môi trường tích hợp hỗ trợ viết luật phân lớp; Thường sử dụng Logic Boolean. Có thể đạt độ chính xác rất cao; Cần chi phí lớn và khó quản lý. 6Ví dụ luật phân lớp 7 Phương pháp phân lớp dựa trên xác suất/thống kê Bài toán phân lớp văn bản: Huấn luyện: Học có giám sát, nhằm xác định ϒ; Phân lớp: Sử dụng ϒ để phân lớp văn bản. Tiêu biểu: Naïve Bayes, Rocchio, kNN, SVMs Cần thiết lập bộ dữ liệu huấn luyện; Tuy nhiên không yêu cầu chuyên gia. 8 Bài toán phân lớp văn bản 9Bài toán phân lớp văn bản (2) 10 Nội dung chính Ứng dụng phân lớp trong tìm kiếm Phương pháp Naïve Bayes Đánh giá phương pháp phân lớp 11 Phân lớp Naïve Bayes 12 Tiêu trí xác suất cực đại 13 Lấy log 14 Ước lượng tham số 15 Giá trị 0 Nếu có một từ t thuộc d nhưng không xuất hiện trong bất kỳ văn bản nào của lớp c thì: p(t|c) = 0 Kéo theo p(c|d)=0.Giải pháp? 16 Làm mịn 17Giải thuật Naïve Bayes: Huấn luyện 18Giải thuật Naïve Bayes: Phân lớp 19 Độ phức tạp của Naive Bayes Lave: Độ dài trung bình của văn bản luyện, La: Độ dài văn bản phân lớp; Ma: Số lượng từ duy nhất trong văn bản phân lớp; D là bộ dữ liệu luyện, V là bộ từ vựng; C là tập lớp. Naive Bayes có độ phức tạp tuyến tính so với kích thước dữ liệu luyện và dữ liệu phân lớp. Đây là độ phức tạp tối ưu. 20
Tìm kiếm theo từ khóa liên quan:
Bài giảng Tìm kiếm và trình diễn thông tin Tìm kiếm và trình diễn thông tin Trình diễn thông tin Phân lớp văn bản Phương pháp Naïve Bayes Đánh giá phương pháp phân lớp Bài toán phân lớp văn bảnGợi ý tài liệu liên quan:
-
Phân loại web đồi trụy dựa vào văn bản và hình ảnh
9 trang 29 0 0 -
Xây dựng mô hình phân tán cho phân lớp khối lượng lớn văn bản theo chủ đề
7 trang 18 0 0 -
Phân tích ý kiến phản hồi của người học dựa trên phương pháp phân loại cảm xúc
7 trang 18 0 0 -
Hệ thống hỗ trợ hỏi đáp thủ tục hành chính
7 trang 16 0 0 -
Bài giảng Tìm kiếm và trình diễn thông tin - Bài 2: Thực hiện truy vấn trên chỉ mục ngược
26 trang 16 0 0 -
Đề tài 'Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng'
55 trang 15 0 0 -
Bài giảng Học sâu và ứng dụng: Bài 9 - ĐH Bách khoa Hà Nội
58 trang 14 0 0 -
LUẬN VĂN: TỰ ĐỘNG TỔNG HỢP VÀ PHÂN LOẠI TIN TRONG HỆ THỐNG TRANG TIN ĐIỆN TỬ
59 trang 13 0 0 -
Sự ảnh hưởng của phương pháp tách từ trong bài toán phân lớp văn bản tiếng Việt
10 trang 13 0 0 -
LUẬN VĂN: PHÂN LỚP PHÂN CẤP TAXONOMY VĂN BẢN WEB VÀ ỨNG DỤNG
61 trang 12 0 0