Danh mục

Xử lý dữ liệu thiếu trong nghiên cứu phụ tải bằng support vector regression (SVR)

Số trang: 6      Loại file: pdf      Dung lượng: 619.13 KB      Lượt xem: 12      Lượt tải: 0    
tailieu_vip

Phí tải xuống: 5,000 VND Tải xuống file đầy đủ (6 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài báo đề xuất một phương pháp xử lý dữ liệu thiếu bằng cách xây dựng các mô hình hồi quy tối ưu hóa các thông số tự động thông qua quá trình huấn luyện học máy support vector regression (SVR), từ đó ước lượng lại các dữ liệu đã mất hoặc không ghi nhận được trong quá trình đo đếm. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Xử lý dữ liệu thiếu trong nghiên cứu phụ tải bằng support vector regression (SVR) 28 Nguyễn Tuấn Dũng, Nguyễn Thanh Phương XỬ LÝ DỮ LIỆU THIẾU TRONG NGHIÊN CỨU PHỤ TẢI BẰNG SUPPORT VECTOR REGRESSION (SVR) DEALING WITH MISSING DATA FOR THE POWER LOAD STUDIES USING SUPPORT VECTOR REGRESSION (SVR) Nguyễn Tuấn Dũng1, Nguyễn Thanh Phương2 1 Tổng Công ty Điện lực TP. Hồ Chí Minh; dungnt@hcmpc.com.vn 2 Trường Đại học Công nghệ TP. Hồ Chí Minh; nt.phuong@hutech.edu.vn Tóm tắt - Trong những năm gần đây, việc nghiên cứu và ứng dụng các kỹ thuật khai thác dữ liệu gặp phải nhiều khó khăn, thách thức lớn, trong đó có vấn đề giá trị thiếu, tức là có những giá trị thuộc tính của dữ liệu bị thiếu. Có nhiều nguyên nhân khác nhau dẫn tới hiện tượng này: thiết bị thu thập dữ liệu bị hỏng, sự thay đổi thiết kế thí nghiệm, sự từ chối cung cấp dữ liệu nhằm bảo vệ tính riêng tư, sự sơ suất khi nhập dữ liệu, các sự cố xảy ra trong quá trình truyền dữ liệu,... [1]. Trong đó, việc thiếu dữ liệu phục vụ công tác nghiên cứu, dự báo phụ tải điện là một trong những vấn đề nan giải đối với ngành điện. Hiện các công ty điện lực đang thực hiện việc này bằng cách nội suy từ các giá trị đo đếm của các ngày trước, giờ trước một cách thủ công, không chuẩn xác làm ảnh hưởng không nhỏ đến kết quả phân tích, xử lý dữ liệu trong quá trình nghiên cứu phụ tải. Bài báo đề xuất một phương pháp xử lý dữ liệu thiếu bằng cách xây dựng các mô hình hồi quy tối ưu hóa các thông số tự động thông qua quá trình huấn luyện học máy Support Vector Regression (SVR), từ đó ước lượng lại các dữ liệu đã mất hoặc không ghi nhận được trong quá trình đo đếm. Abstract - In recent years, the research and the application of data mining techniques have encountered many difficulties and challenges, including the missing value problem i.e. the attribute values of the data are missing . There are many different causes of this phenomenon: damaged data collection equipment, the change of design of experiments, the refusal to provide the data in order to protect privacy, the mistake when importing data, the incident occurrence during the data transmission... [1]. In particular, the lack of data is one of the problems for the power sector. The power companies are doing this manually, causing influence on results analysis. This paper proposes a method of handling missing data by building the regression model to optimize parameters automatically through Support Vector Regression (SVR), machine learning training which estimates the lost data or unrecorded data during the measurement. Từ khóa - thiếu dữ liệu; ước lượng; số liệu đo đếm; phụ tải điện; SVM; SVR Key words - missing data; estimation; measurement data; power load; SVM; SVR 1. Đặt vấn đề 1.1. Dữ liệu thiếu trong quá trình khai thác cơ sở dữ liệu (CSDL) Tất cả các nhà nghiên cứu đều đã phải đối mặt với các vấn đề về dữ liệu định lượng bị mất (thiếu giá trị) tại một số điểm trong công việc của họ, làm thế nào để xử lý các các giá trị thuộc tính thiếu là một nhiệm vụ quan trọng hàng đầu của quá trình khái thác từ các CSDL. Việc loại bỏ tất cả các bộ dữ liệu có chứa giá trị thuộc tính thiếu sẽ làm mất thông tin, đánh mất các đặc trưng ban đầu của CSDL. Phương pháp xem xét tình trạng nguyên thủy (dữ liệu gốc), sử dụng dữ liệu sẵn có để có thể gán các giá trị thiếu sẽ là cách làm tốt nhất. Tuy nhiên, để xác định giá trị thực của dữ liệu thiếu là công việc rất khó khăn. Cho đến nay, có nhiều phương pháp xử lý giá trị thiếu đã được đề xuất và áp dụng [1, 2]. Các phương pháp này cho phép xử lý trực tiếp các giá trị thiếu, tuy nhiên chúng cũng có thể mang những thông tin nhiễu vào tập dữ liệu đang xét. Việc xử lý các giá trị thiếu cần phải được cân nhắc và thực hiện một cách thận trọng, nếu các nhà nghiên cứu sử dụng phương pháp xử lý dữ liệu bị mất mà không cẩn thận xem xét các giả định cần thiết của phương pháp đó, họ có nguy cơ có kết quả sai lệch và gây hiểu nhầm [2]. Cho đến nay, việc xử lý giá trị thiếu trong các CSDL vẫn là đề tài thu hút sự quan tâm của nhiều nhà nghiên cứu và ứng dụng. Một nhiệm vụ vô cùng quan trọng khi xây dựng một phương pháp xử lý giá trị thiếu là phải hiểu được cơ chế sinh ra các giá trị thiếu trong CSDL cần khai phá. Nắm bắt được cơ chế sinh ra giá trị thiếu trong một tình huống cụ thể sẽ giúp xây dựng được một phương pháp xử lý thích hợp và hiệu quả. Theo các nhà thống kê toán học, sự xuất hiện các giá trị thiếu trong một CSDL có thể phân thành ba trường hợp theo tính ngẫu nhiên như [1, 2]: - Trường hợp 1: Thiếu hoàn toàn ngẫu nhiên (Missing Completely At Random – MCAR). Đây là mức độ ngẫu nhiên cao nhất. Trường hợp này xảy ra khi xác suất một giá trị của thuộc tính bị thiếu không phụ thuộc vào các giá trị đã biết cũng như bản thân giá trị bị thiếu. - Trường hợp 2: Thiếu ngẫu nhiên (Missing At Random – MAR). Đó là khi xác suất xuất hiện một giá trị thiếu tại một thuộc tính có thể phụ thuộc vào các giá trị đã biết, nhưng không phụ thuộc vào bản thân giá trị bị thiếu. - Trường hợp 3: Thiếu không ngẫu nhiên (Not Missing At Random – NMAR): khi xác suất xuất hiện một giá trị thiếu tại một thuộc tính phụ thuộc vào giá trị của thuộc tính đó. 1.2. Dữ liệu thiếu trong nghiên cứu phụ tải điện Nghiên cứu phụ tải là hoạt động phân tích biểu đồ phụ tải hệ thống điện nhằm chia thành biểu đồ của các thành phần phụ tải, phân nhóm phụ tải, các khách hàng sử dụng điện cuối cùng và các công nghệ sử dụng điện, để đưa ra các thông tin quan trọng như: Công suất và thời gian xuất hiện phụ tải đỉnh; Xu hướng tăng trưởng của phụ tải đỉnh ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 3(112).2017-Quyển 1 và hệ số phụ tải; Chênh lệch phụ tải cao/thấp điểm của hệ thống; Lập kế hoạch, thiết kế và triển khai các chương trình DSM; Nâng cao độ chính xác của dự báo phụ tải ngắn hạn;.... Đây là một hoạt động chuyên sâu về phân tích số liệu, trong đó dữ liệu được thu thập thường là rất lớn, thông qua các hình thức thu thập tự động hoặc thủ công. ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: