Danh mục

So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều

Số trang: 10      Loại file: pdf      Dung lượng: 1.35 MB      Lượt xem: 8      Lượt tải: 0    
tailieu_vip

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng.
Nội dung trích xuất từ tài liệu:
So sánh một số phương pháp xử lý dữ liệu thiếu cho chuỗi dữ liệu thời gian một chiều Vietnam J. Agri. Sci. 2021, Vol. 19, No. 4: 452-461 Tạp chí Khoa học Nông nghiệp Việt Nam 2021, 19(4): 452-461 www.vnua.edu.vn SO SÁNH MỘT SỐ PHƯƠNG PHÁP XỬ LÝ DỮ LIỆU THIẾU CHO CHUỖI DỮ LIỆU THỜI GIAN MỘT CHIỀU Phan Thị Thu Hồng Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam Tác giả liên hệ: ptthong@vnua.edu.vn Ngày nhận bài: 20.07.2020 Ngày chấp nhận đăng: 10.09.2020 TÓM TẮT Chuỗi thời gian chứa các giá trị thiếu xảy ra trong hầu hết mọi lĩnh vực khoa học ứng dụng. Bỏ qua các giá trị thiếu có thể dẫn đến giảm hiệu năng của hệ thống và kết quả không đáng tin cậy, đặc biệt là khi dữ liệu mất theo khoảng lớn. Do đó, xử lý dữ liệu thiếu là một bước rất quan trọng để thực hiện các công việc tiếp như phân lớp, phân tích dữ liệu... Bài viết này trước tiên nhằm giới thiệu các phương pháp xử lý dữ liệu thiếu. Tiếp theo một framework cho phép điền đầy dữ liệu mất mát cho chuỗi thời gian đơn biến được xây dựng. Cuối cùng, chúng tôi thực hiện so sánh hiệu suất của các phương pháp ước lượng giá trị thiếu trên ba chuỗi dữ liệu thời gian thực sử dụng bốn chỉ số đánh giá. Thông qua kết quả thử nghiệm, phương pháp DTWBI và eDTWBI đạt được kết quả vượt trội hơn các phương pháp khác khi dữ liệu có tính chất mùa vụ và không có thành phần xu hướng, trong khi đó thì na.interp tốt hơn các phương pháp khi dữ liệu có cả hai tính chất mùa vụ và xu hướng. Từ khóa: Chuỗi thời gian một chiều, dữ liệu thiếu, ước lượng giá trị thiếu, độ tương tự. An Empirical Study of Imputation Methods for Univariate Time Series ABSTRACT Time series with missing values occur in almost areas of applied science. Ignoring missing values can lead to a reduction of system performance and unreliable results, especially in case of large missing values. Therefore, handling missing data is an important task to effectively perform further purposes such as classification, data analysis, etc. This article aims first to introduce approaches for dealing with missing data. Next a framework is built to fill the incomplete data in univariate time series and then to compare the performance of various imputation methods. Four indices are used to evaluate the ability of imputation methods on 3 different real-time data series. Through experimental results, the DTWBI and eDTWBI methods achieve better results with data having seasonality component and without trend factor, while na.interp is more superior as the data have both seasonality and trend components. Keywords: Univariate time series, missing data, imputation, similarity. truy xuçt khi cæn thiết. Chúng tồn täi trong 1. ĐẶT VẤN ĐỀ nhiều Āng dýng thăc tế thuộc nhiều lïnh văc Ngày nay, vĆi tiến bộ vþợt bêc cûa hệ thống khác nhau nhþ: kinh tế, tài chính, y tế, giáo giám sát, să phát triển công nghệ lþu trĂ dĂ dýc, môi trþąng, đða lý, sinh học„ và tồn täi ć liệu, să sẵn sàng cûa các bộ câm biến vĆi chi phí nhiều däng thĀc khác nhþ: số liệu, vën bân, thçp và việc triển khai các hệ thống viễn thám, hình ânh, åm thanh, đoän phim„ Tuy nhiên, gæn nhþ tçt câ dĂ liệu mà con ngþąi dùng để các dĂ liệu thu thêp đþợc thþąng không đæy đû, phýc vý cho cuộc sống cûa mình đã đþợc ghi vì nhiều lý do lỗi cûa một hay nhiều thiết bð câm nhên một cách tă động. Các dĂ liệu này đþợc biến, các sai sót xây ra trong quá trình trao đổi/ lþu trĂ (trong máy tính) để con ngþąi có thể truyền tâi dĂ liệu, lỗi cûa dýng cý đo đäc không 452 Phan Thị Thu Hồng chính xác, điều kiện thąi tiết xçu (câm biến đến thu nhêp thăc tế cûa anh ta cüng nhþ thu ngoài trąi), hoặc thiếu các tác động cûa con nhêp cûa gia đình anh ta. Do đò, bó qua các giá ngþąi nhþ việc thăc hiện lçy méu nþĆc biển trð thiếu MCAR không làm cho phân tích dĂ liệu (Rousseeuw & cs., 2013). bð sai lệch nhþng sẽ làm tëng sai số chuèn cûa Mặt khác, hæu hết các mô hình dă báo hoặc các þĆc tính méu do kích thþĆc méu giâm (Dong các mô hình phân tích chuỗi thąi gian (đĄn biến & cs., 2013). hay đa biến) thþąng gặp khò khën khi xā lý các Thiếu dữ liệu ngẫu nhiên (Missing At bộ dĂ liệu không đæy đû, mặc dù đò là nhĂng kï Random, MAR) thuêt mänh (nhþ mäng nĄron, mô hình Markov Thiếu dĂ liệu ngéu nhiên là kiểu thiếu dĂ èn, rÿng ngéu nhiên...). NhĂng mô hình này đñi liệu mà xác suçt cûa giá trð thiếu chî phý thuộc hói dĂ liệu phâi đæy đû trong quá trình học (xây vào dĂ liệu đþợc quan sát, chĀ không phý thuộc dăng mô hình dă đoán). HĄn nĂa việc thiếu dĂ vào phæn dĂ liệu bð thiếu. Hay nói cách khác, liệu täo ra să mçt thông tin và có thể là nguyên các giá trð thiếu cûa một biến phý thuộc vào các nhân dén đến việc giâi thích dĂ liệu không giá trð có sẵn cûa chính nó và các biến khác. chính xác, sai lệch. Điều này cho phép có thể þĆc tính dĂ liệu thiếu Thiếu dĂ liệu hoặc thiếu giá trð nghïa là cò dăa trên các biến khác. Ví dý, đánh giá học sinh să tồn täi cûa các quan sát nhþng giá trð không tham gia một môn học bao gồm hai bài kiểm tra: đþợc t ...

Tài liệu được xem nhiều: