Danh mục

Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai

Số trang: 5      Loại file: pdf      Dung lượng: 138.06 KB      Lượt xem: 10      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong báo cáo này, chúng tôi đề xuất một phương pháp phân loại văn bản một cách tự động hoạt động tốt trên các văn bản tiếng Việt có thể áp dụng vào xây dựng các hệ thống tồng hợp tin tức tiếng Việt. Phương pháp của chúng tôi sử dụng các thuật toán tách từ tiếng Việt để biểu diễn văn bản và áp dụng mô hình tập thô dung sai vào thuật toán phân loại văn bản Centroid – based để nâng cao chất lượng phân loại.
Nội dung trích xuất từ tài liệu:
Phân loại tin tức Tiếng Việt dựa trên mô hình tập thô dung sai PHÂN LOẠI TIN TỨC TIẾNG VIỆT DỰA TRÊN MÔ HÌNH TẬP THÔ DUNG SAI Trần Ngọc Hà Trường ðại học Sư phạm – ðH Thái Nguyên TÓM TẮT Những năm gần ñây chúng ta ñã thấy một sự gia tăng nhanh chóng của số lượng văn bản trên Internet. Phân loại văn bản tự ñộng là nhiệm vụ quan trọng có thể giúp cho cả việc tổ chức cũng như tìm kiếm thông tin trong nguồn tài nguyên thông tin khổng lồ này. Các phương pháp phân loại văn bản hiện nay gặp phải thách thức bởi số lượng tài liệu huấn luyện và dữ liệu cần gán nhãn lớn. Tiếng Việt có ñặc thù riêng, nên việc phân loại văn bản tiếng Việt còn gặp một khó khăn khác là phải tách từ chính xác khi biểu diễn các tài liệu. Trong báo cáo này, chúng tôi ñề xuất một phương pháp phân loại văn bản một cách tự ñộng hoạt ñộng tốt trên các văn bản tiếng Việt có thể áp dụng vào xây dựng các hệ thống tồng hợp tin tức tiếng Việt. Phương pháp của chúng tôi sử dụng các thuật toán tách từ tiếng Việt ñể biểu diễn văn bản và áp dụng mô hình tập thô dung sai vào thuật toán phân loại văn bản Centroid – based ñể nâng cao chất lượng phân loại. Từ khóa: phân loại văn bản, tập thô dung sai, trọng tâm, ñồng xuất hiện, thu thập tin tức. 1. GIỚI THIỆU Báo ñiện tử tổng hợp là một dạng website tin tức mà nguồn tin ñược tổng hợp tự ñộng từ các báo ñiện tử khác. Báo ñiện tử tổng hợp giúp cho người ñọc có thể theo dõi các thông tin một cách ñầy ñủ nhất mà không cần phải ghé thăm các trang báo ñiện tử khác, do vậy giúp người ñọc tiết kiệm ñược thời gian và không phải ñọc các tin trùng lặp ñược ñăng tải trên các báo ñiện tử khác nhau. Mỗi trang báo ñiện tử tổng hợp có thể có các chức năng, cũng như cách thể hiện khác nhau ñối với người ñọc. Tuy nhiên một ứng dụng ñọc báo tổng hợp ñều có các thành phần cơ bản sau: - Trình thu thập tin tức: là thành phần có nhiệm vụ thu thập tin bài từ các trang báo ñiện tử khác một cách tự ñộng. - Lưu trữ tài liệu: Các ứng dụng tổng hợp tin tức thường lưu trữ tiêu ñề, URL, ảnh ñại diện và phần tóm tắt của các bài viết gốc. Một số trang báo ñiện tử tổng hợp còn lưu cả nội dung bài viết. - Bộ phân loại tin tức: ðây là một bộ phận quan trọng, có chức năng tự ñộng phân loại tin theo các chủ ñề trên hệ thống. - Giao diện sử dụng: là thành phần tương tác trực tiếp của hệ thống với người sử dụng. Khi xây dựng hệ thống, khó khăn lớn nhất là xây dựng chức năng phân loại tin tức tự ñộng, ñặc biệt là ñối với các tin tức tiếng Việt. Phân loại tin tức tiếng Việt gặp phải một số khó khăn sau: - Chủ ñề tin tức trên các báo ñiện tử là không ñồng nhất. - Ngôn ngữ tiếng Việt có những ñặc thù riêng ñòi hỏi phải có những phương pháp xử lý riêng ñể ñảm bảo việc phân loại tin tức là chính xác và mềm dẻo. - Tin tức tổng hợp phải luôn mới, vì vậy việc thu thập và phân loại tin tức phải thực hiện nhanh ñể ñảm bảo tin tức là luôn mới ñối với người ñọc. ðể giải quyết ñược các khó khăn trên, trong báo cáo này chúng tôi áp dụng mô hình tập thô dung sai làm tăng chất lượng biểu diễn tài liệu, từ ñó giúp phát hiện mối quan hệ về mặt ngữ nghĩa tiềm ẩn giữa các tài liệu giúp phân loại chính xác hơn. Các thuật toán tách từ tiếng Việt cũng ñược áp dụng ñể ñảm bảo việc tách từ là chính xác. 2. BÀI TOÁN PHÂN LOẠI TIN TỨC VÀ MÔ HÌNH TẬP THÔ DUNG SAI Phân loại văn bản tự ñộng là việc gán các nhãn phân loại lên một văn bản mới dựa trên mức ñộ tương tự của văn bản ñó so với các văn bản ñã ñược gán nhãn trong tập huấn luyện. Một số phương pháp phân loại văn bản thông dụng hiện nay là: Support Vector 1 Machine, KNN, Linear Least Squares Fit, Neural Network, Naïve Bayes, Centroidbased,.... [7]. Các phương pháp trên khi áp dụng phân loại văn bản tự ñộng trong tiếng Anh ñã ñạt ñược kết quả ñáng khích lệ. Tuy nhiên khi áp dụng vào các văn bản tiếng Việt sẽ gặp phải các hạn chế do ñặc thù của tiếng Việt. ðơn vị nhỏ nhất của tiếng Việt là “tiếng” mà không phải là từ như trong tiếng Anh nên việc tách văn bản thành các từ cũng ñòi hỏi các thuật toán hoạt ñộng hiệu quả hơn. Ngoài ra các phương pháp trên khi ñánh giá sự phụ thuộc của một văn bản vào một chủ ñề thông qua cách biểu diễn văn bản dưới dạng vector thuần túy cũng sẽ không thấy ñược mối quan hệ về mặt ngữ nghĩa giữa các tài liệu với nhau và giữa tài liệu với các chủ ñề. 2.1. Thuật toán phân loại Centroid – based [4] Có nhiều thuật toán phân loại văn bản khác nhau, tuy nhiên phương pháp phân loại tin tức mà chúng tôi ñề xuất dựa trên phương pháp phân loại Centroid – based. Centroid – based là một phương pháp phân loại ñơn giản, dễ cài ñặt và có ñộ phức tạp tuyến tính O(n). Ý tưởng của phương pháp phân loại này là: Mỗi lớp trong dữ liệu huấn luyện sẽ ñược biểu diễn bởi một vector trọng tâm. Việc xác ñịnh lớp của một tài liệu thử bất kì sẽ thông qua việc tìm vector trọng tâm nào gần với vector biểu diễn tài liệu thử nhất. Lớp của văn bản thử chính là lớp mà vector trọng tâm ñại diện. ðộ tương tự giữa các tài liệu và giữa tài liệu với trọng tâm của một lớp ñược tính theo ñộ ño c ...

Tài liệu được xem nhiều: