Danh mục

Xây dựng quy trình và thuật toán để phân loại tài liệu TBT

Số trang: 12      Loại file: pdf      Dung lượng: 419.83 KB      Lượt xem: 36      Lượt tải: 0    
Hoai.2512

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (12 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài viết này trình bày bài toán Phân loại Tài liệu TBT, mà có hai công việc chính (quy trình phân loại và thuật toán thực hiện), được xem như là một trong các thành phần cần thiết trong quá trình phát một Hệ thông minh. Quy trình phân loại này trải qua các bước trong một tiến trình xử lý thống nhất và có các đặc trưng giống như của một thuật toán.
Nội dung trích xuất từ tài liệu:
Xây dựng quy trình và thuật toán để phân loại tài liệu TBT KHOA HỌC - ỨNG DỤNG XÂY DỰNG QUY TRÌNH VÀ THUẬT TOÁN ĐỂ PHÂN LOẠI TÀI LIỆU TBT  ThS. NGUYỄN MINH ĐẾ (*) TÓM TẮT Trong bài báo này trình bày bài toán Phân loại Tài liệu TBT, mà có hai công việc chính (quy trình phân loại và thuật toán thực hiện), được xem như là một trong các thành phần cần thiết trong quá trình phát một Hệ thông minh. Quy trình phân loại này trải qua các bước trong một tiến trình xử lý thống nhất và có các đặc trưng giống như của một thuật toán. Bài báo đưa ra hai phương pháp để phân loại tài liệu TBT, gồm có hai hướng chính: theo mô hình phân loại tài liệu TBT và theo nội dung tài liệu TBT. Mô hình của phân loại tài liệu sẽ được xây dựng theo mô hình Taxonomy phân cấp và trong việc phân cấp sẽ sử dụng các bảng/khung phân loại cho trước. Phương pháp phân loại tài liệu TBT theo nội dung thì thực hiện theo một quy trình xử lý thống nhất và có sử dụng hai kỹ thuật: mô hình N-Gram và tính trọng số TF-IDF. Từ khóa: Chỉ số phân loại (CSPL), mô hình Taxonomy, phân loại tài liệu theo mô hình, phân loại tài liệu theo nội dung, mô hình N-Gram, trọng số TF-IDF. SUMMARY In this paper, we present the problem of TBT Document Classification, which has two major tasks (classification process and executive algorithm), which is considered as one of essential components in developing a Smart System. This classification process has steps in a unified process, and it has characteristics as an algorithm. This paper proposes two methods for TBT Document Classification, these two methods consist of two main directions: according to the model of TBT Document Classification; and according to the content of TBT documents. The model of Document Classification will be constructed in hierarchical Taxonomy model, and this hierarchy will be based on given classification tables/frames. The method of content-based TBT Document Classification is performed in a unified treatment process, with two techniques: N-Gram model; and TF-IDF weighting. Key words: Categorical Indicator (CI); Taxonomy Model; Document Classification according to the model; Document Classification according to the content; N-Gram model; TF-IDF weight. 1. Mở đầu Phân loại tài liệu TBT là một trong các công việc quan trọng để phục vụ và hỗ trợ cho mục tiêu 3 của đề tài “Nghiên cứu và xây dựng Hệ hỏi đáp thông minh cho thông tin về Hàng rào Kỹ thuật trong Thương mại (TBT) của tỉnh Long An”. Mục tiêu 3 của đề tài là “Nghiên cứu và xây dự ỏi đáp thông minh TBT Long An”, được chia ra làm các thành phần nhỏ hơn cần phải xây dựng. Các thành phần này đều rời rạc và độc lập với nhau, nhưng có tồn tại sự liên kết cần thiết để tạo thành một chỉnh thể của hệ thống. Sự liên kết này sẽ được tổ chức thành hệ thống có cấu trúc tương tự như phân tán, nghĩa là cho phép có sự thiếu vắng một số thành phần bên trong nhưng hệ thống vẫn hoạt động được. Hệ thống để phân loại tài liệu có hai công việc cần phải xây dựng: Quy trình phân loại; Phương pháp hỗ trợ việc phân loại. Quy trình phân loại tài liệu là công việc cần thiết đầu tiên để định hình các bước phải thực hiện. Tiếp theo, phải xây dựng các hệ thố ối ưu để chỉ dẫn nội dung thực hiện và định hướng cho các chương trình máy tính thực thi. Quy trình phân loại tài liệu thì cần phải xây dựng trước tiên. Sau đó, từ quy trình phân loại có được mới có thể xác định phương TẠP CHÍ KINH TẾ - CÔNG NGHIỆP 64 KHOA HỌC - ỨNG DỤNG pháp thực hiện cụ thể. Phương pháp thực hiện chia ra làm hai loại: thủ công và tin học hóa (chương trình máy tính). Chương trình máy tính cần có các thuật toán để xác định các hoạt động cần phải thực hiện theo thứ tự trước sau. ẽ được xây dựng theo mô hình từ thuật toán tổng quát cho đến các thuật toán chi tiế ất đa cấp bậc và lồng ghép lại, có sự liên kết lại với nhau, và có đặc trưng riêng là các thành phần được thiết kế, xây dựng qua các phiên bản khác nhau. Bài này trước tiên đề nghị một quy trình thống nhất để phân loại tài liệu TBT và có một tiến trình xác định. Quy trình này có một số các đặc tính như đặc trưng của thuật toán: Tính xác định; Tính hữu hạn; Tính kết quả; Tính phổ dụng; Tính hình thức. Bài cũng đưa ra phương pháp phân loại tài liệu TBT cũng như các thuật toán cần thiết để thực hiện. Phương pháp phân loại này sẽ theo 2 hướng: Hướng theo mô hình phân loại tài liệu TBT; Hướng theo nội dung của tài liệu TBT. Các thuật toán sẽ được chia ra làm hai nhóm tương ứng để thực hiện cho từng phương pháp phân loại phù hợp. Phần còn lại của bài ...

Tài liệu được xem nhiều: