Danh mục

Báo cáo khoa học: Tagging Urdu Text with Parts of Speech: A Tagger Comparison

Số trang: 9      Loại file: pdf      Dung lượng: 115.65 KB      Lượt xem: 8      Lượt tải: 0    
Jamona

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

In this paper, four state-of-art probabilistic taggers i.e. TnT tagger, TreeTagger, RF tagger and SVM tool, are applied to the Urdu language. For the purpose of the experiment, a syntactic tagset is proposed. A training corpus of 100,000 tokens is used to train the models. Using the lexicon extracted from the training corpus, SVM tool shows the best accuracy of 94.15%. After providing a separate lexicon of 70,568 types, SVM tool again shows the best accuracy of 95.66%.
Nội dung trích xuất từ tài liệu:
Báo cáo khoa học: "Tagging Urdu Text with Parts of Speech: A Tagger Comparison"

Tài liệu được xem nhiều: