Thông tin tài liệu:
Trong bài viết này trình bày bài toán Phân loại Tài liệu TBT, mà có hai công việc chính (quy trình phân loại và thuật toán thực hiện), được xem như là một trong các thành phần cần thiết trong quá trình phát một Hệ thông minh. Quy trình phân loại này trải qua các bước trong một tiến trình xử lý thống nhất và có các đặc trưng giống như của một thuật toán.
Nội dung trích xuất từ tài liệu:
Xây dựng quy trình và thuật toán để phân loại tài liệu TBT
KHOA HỌC - ỨNG DỤNG
XÂY DỰNG QUY TRÌNH VÀ THUẬT TOÁN
ĐỂ PHÂN LOẠI TÀI LIỆU TBT
ThS. NGUYỄN MINH ĐẾ (*)
TÓM TẮT
Trong bài báo này trình bày bài toán Phân loại Tài liệu TBT, mà có hai công việc chính (quy
trình phân loại và thuật toán thực hiện), được xem như là một trong các thành phần cần thiết trong
quá trình phát một Hệ thông minh. Quy trình phân loại này trải qua các bước trong một tiến trình
xử lý thống nhất và có các đặc trưng giống như của một thuật toán. Bài báo đưa ra hai phương
pháp để phân loại tài liệu TBT, gồm có hai hướng chính: theo mô hình phân loại tài liệu TBT và
theo nội dung tài liệu TBT. Mô hình của phân loại tài liệu sẽ được xây dựng theo mô hình
Taxonomy phân cấp và trong việc phân cấp sẽ sử dụng các bảng/khung phân loại cho trước.
Phương pháp phân loại tài liệu TBT theo nội dung thì thực hiện theo một quy trình xử lý thống nhất
và có sử dụng hai kỹ thuật: mô hình N-Gram và tính trọng số TF-IDF.
Từ khóa: Chỉ số phân loại (CSPL), mô hình Taxonomy, phân loại tài liệu theo mô hình, phân
loại tài liệu theo nội dung, mô hình N-Gram, trọng số TF-IDF.
SUMMARY
In this paper, we present the problem of TBT Document Classification, which has two major
tasks (classification process and executive algorithm), which is considered as one of essential
components in developing a Smart System. This classification process has steps in a unified
process, and it has characteristics as an algorithm. This paper proposes two methods for TBT
Document Classification, these two methods consist of two main directions: according to the model
of TBT Document Classification; and according to the content of TBT documents. The model of
Document Classification will be constructed in hierarchical Taxonomy model, and this hierarchy
will be based on given classification tables/frames. The method of content-based TBT Document
Classification is performed in a unified treatment process, with two techniques: N-Gram model;
and TF-IDF weighting.
Key words: Categorical Indicator (CI); Taxonomy Model; Document Classification
according to the model; Document Classification according to the content; N-Gram model; TF-IDF
weight.
1. Mở đầu
Phân loại tài liệu TBT là một trong các công việc quan trọng để phục vụ và hỗ trợ cho mục tiêu
3 của đề tài “Nghiên cứu và xây dựng Hệ hỏi đáp thông minh cho thông tin về Hàng rào Kỹ thuật
trong Thương mại (TBT) của tỉnh Long An”. Mục tiêu 3 của đề tài là “Nghiên cứu và xây dự
ỏi đáp thông minh TBT Long An”, được chia ra làm các thành phần nhỏ hơn cần phải xây
dựng. Các thành phần này đều rời rạc và độc lập với nhau, nhưng có tồn tại sự liên kết cần thiết để
tạo thành một chỉnh thể của hệ thống. Sự liên kết này sẽ được tổ chức thành hệ thống có cấu trúc
tương tự như phân tán, nghĩa là cho phép có sự thiếu vắng một số thành phần bên trong nhưng hệ
thống vẫn hoạt động được.
Hệ thống để phân loại tài liệu có hai công việc cần phải xây dựng: Quy trình phân loại; Phương
pháp hỗ trợ việc phân loại. Quy trình phân loại tài liệu là công việc cần thiết đầu tiên để định hình
các bước phải thực hiện. Tiếp theo, phải xây dựng các hệ thố ối ưu để chỉ dẫn nội
dung thực hiện và định hướng cho các chương trình máy tính thực thi. Quy trình phân loại tài liệu
thì cần phải xây dựng trước tiên. Sau đó, từ quy trình phân loại có được mới có thể xác định phương
TẠP CHÍ KINH TẾ - CÔNG NGHIỆP
64
KHOA HỌC - ỨNG DỤNG
pháp thực hiện cụ thể. Phương pháp thực hiện chia ra làm hai loại: thủ công và tin học hóa (chương
trình máy tính).
Chương trình máy tính cần có các thuật toán để xác định các hoạt động cần phải thực hiện theo
thứ tự trước sau. ẽ được xây dựng theo mô hình từ thuật toán tổng quát cho đến các
thuật toán chi tiế ất đa cấp bậc và lồng ghép lại, có sự liên kết lại với
nhau, và có đặc trưng riêng là các thành phần được thiết kế, xây dựng qua các phiên bản khác nhau.
Bài này trước tiên đề nghị một quy trình thống nhất để phân loại tài liệu TBT và có một tiến
trình xác định. Quy trình này có một số các đặc tính như đặc trưng của thuật toán: Tính xác định;
Tính hữu hạn; Tính kết quả; Tính phổ dụng; Tính hình thức.
Bài cũng đưa ra phương pháp phân loại tài liệu TBT cũng như các thuật toán cần thiết để
thực hiện. Phương pháp phân loại này sẽ theo 2 hướng: Hướng theo mô hình phân loại tài liệu TBT;
Hướng theo nội dung của tài liệu TBT. Các thuật toán sẽ được chia ra làm hai nhóm tương ứng để
thực hiện cho từng phương pháp phân loại phù hợp.
Phần còn lại của bài ...