Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng.
Nội dung trích xuất từ tài liệu:
So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều
Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 452-461 Tạp chí Khoa học Nông nghiệp Việt Nam 2021, 19(4): 452-461
www.vnua.edu.vn
SO SÁNH MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU
CHO CHUỖI DỮ LIỆU THỜI GIAN MỘT CHIỀU
Phan Thị Thu Hồng
Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam
Tác giả liên hệ: ptthong@vnua.edu.vn
Ngày nhận bài: 20.07.2020 Ngày chấp nhận đăng: 10.09.2020
TÓM TẮT
Chuỗi thời gian chứa các giá trị thiếu xảy ra trong hầu hết mọi lĩnh vực khoa học ứng dụng. Bỏ qua các giá trị
thiếu có thể dẫn đến giảm hiệu năng của hệ thống và kết quả không đáng tin cậy, đặc biệt là khi dữ liệu mất theo
khoảng lớn. Do đó, xử lý dữ liệu thiếu là một bước rất quan trọng để thực hiện các công việc tiếp như phân lớp,
phân tích dữ liệu... Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một
framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi
thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử
dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt
trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì
na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng.
Từ khóa: Chuỗi thời gian một chiều, dữ liệu thiếu, ước lượng giá trị thiếu, độ tương tự.
An Empirical Study of Imputation Methods for Univariate Time Series
ABSTRACT
Time series with missing values occur in almost areas of applied science. Ignoring missing values can lead to
a reduction of system performance and unreliable results, especially in case of large missing values. Therefore,
handling missing data is an important task to effectively perform further purposes such as classification, data
analysis, etc. This article aims first to introduce approaches for dealing with missing data. Next a framework is built
to fill the incomplete data in univariate time series and then to compare the performance of various imputation
methods. Four indices are used to evaluate the ability of imputation methods on 3 different real-time data series.
Through experimental results, the DTWBI and eDTWBI methods achieve better results with data having
seasonality component and without trend factor, while na.interp is more superior as the data have both seasonality
and trend components.
Keywords: Univariate time series, missing data, imputation, similarity.
truy xuçt khi cæn thiết. Chúng tồn täi trong
1. ĐẶT VẤN ĐỀ
nhiều Āng dýng thăc tế thuộc nhiều lïnh văc
Ngày nay, vĆi tiến bộ vþợt bêc cûa hệ thống khác nhau nhþ: kinh tế, tài chính, y tế, giáo
giám sát, să phát triển công nghệ lþu trĂ dĂ dýc, môi trþąng, đða lý, sinh học„ và tồn täi ć
liệu, să sẵn sàng cûa các bộ câm biến vĆi chi phí nhiều däng thĀc khác nhþ: số liệu, vën bân,
thçp và việc triển khai các hệ thống viễn thám, hình ânh, åm thanh, đoän phim„ Tuy nhiên,
gæn nhþ tçt câ dĂ liệu mà con ngþąi dùng để các dĂ liệu thu thêp đþợc thþąng không đæy đû,
phýc vý cho cuộc sống cûa mình đã đþợc ghi vì nhiều lý do lỗi cûa một hay nhiều thiết bð câm
nhên một cách tă động. Các dĂ liệu này đþợc biến, các sai sót xây ra trong quá trình trao đổi/
lþu trĂ (trong máy tính) để con ngþąi có thể truyền tâi dĂ liệu, lỗi cûa dýng cý đo đäc không
452
Phan Thị Thu Hồng
chính xác, điều kiện thąi tiết xçu (câm biến đến thu nhêp thăc tế cûa anh ta cüng nhþ thu
ngoài trąi), hoặc thiếu các tác động cûa con nhêp cûa gia đình anh ta. Do đò, bó qua các giá
ngþąi nhþ việc thăc hiện lçy méu nþĆc biển trð thiếu MCAR không làm cho phân tích dĂ liệu
(Rousseeuw & cs., 2013). bð sai lệch nhþng sẽ làm tëng sai số chuèn cûa
Mặt khác, hæu hết các mô hình dă báo hoặc các þĆc tính méu do kích thþĆc méu giâm (Dong
các mô hình phân tích chuỗi thąi gian (đĄn biến & cs., 2013).
hay đa biến) thþąng gặp khò khën khi xā lý các Thiếu dữ liệu ngẫu nhiên (Missing At
bộ dĂ liệu không đæy đû, mặc dù đò là nhĂng kï Random, MAR)
thuêt mänh (nhþ mäng nĄron, mô hình Markov Thiếu dĂ liệu ngéu nhiên là kiểu thiếu dĂ
èn, rÿng ngéu nhiên...). NhĂng mô hình này đñi liệu mà xác suçt cûa giá trð thiếu chî phý thuộc
hói dĂ liệu phâi đæy đû trong quá trình học (xây vào dĂ liệu đþợc quan sát, chĀ không phý thuộc
dăng mô hình dă đoán). HĄn nĂa việc thiếu dĂ vào phæn dĂ liệu bð thiếu. Hay nói cách khác,
liệu täo ra să mçt thông tin và có thể là nguyên các giá trð thiếu cûa một biến phý thuộc vào các
nhân dén đến việc giâi thích dĂ liệu không giá trð có sẵn cûa chính nó và các biến khác.
chính xác, sai lệch. Điều này cho phép có thể þĆc tính dĂ liệu thiếu
Thiếu dĂ liệu hoặc thiếu giá trð nghïa là cò dăa trên các biến khác. Ví dý, đánh giá học sinh
să tồn täi cûa các quan sát nhþng giá trð không tham gia một môn học bao gồm hai bài kiểm tra:
đþợc t ...