Dự đoán khối lượng làm việc của một mạng lưới các thiết bị

Số trang: 6 Loại file: pdf Dung lượng: 353.35 KB Lượt xem: 7 Lượt tải: 0

tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 4,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết nghiên cứu về bộ dữ liệu của Công ty Phần mềm EMCA bao gồm một tệp tin chứa các thông tin về thời gian hoạt đông, trung bình mức sử dụng của các máy chủ cùng với nhiệm vụ tương ứng. Xử lý bộ dữ liệu có sẵn thành các tập huấn luyện và các tập kiểm thử sử dụng mạng bộ nhớ dài-ngắn (LSTM) để học các đặc điểm của giá trị trung bình đã cho và đi dự đoán 168 giờ tiếp theo cho các cặp máy chủ - nhiệm vụ tương ứng. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Dự đoán khối lượng làm việc của một mạng lưới các thiết bị DỰ ĐOÁN KHỐI LƯỢNG LÀM VIỆC CỦA MỘT MẠNG LƯ I CÁC THIẾT BỊ Trịnh Hoàng Lương, Huỳnh Đức Thắng, Nguyễn Thị Kiều Anh, Ngô Trần Ngọc Sơn Khoa Công nghệ Thông tin, Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD: ThS. Nguyễn Đô P ươ TÓM TẮT Dự đoán tần suất làm việc của một máy chủ đối với các nhiệm vụ tương ứng từ những dự liệu đã có sẵn. Bộ dữ liệu của Công ty Phần mềm EMCA bao gồm một tệp tin chứa các thông tin về thời gian hoạt đông, trung bình mức sử dụng của các máy chủ cùng với nhiệm vụ tương ứng. Xử lý bộ dữ liệu có sẵn thành các tập huấn luyện và các tập kiểm thử sử dụng mạng bộ nhớ dài-ngắn (LSTM) để học các đặc điểm của giá trị trung bình đã cho và đi dự đoán 168 giờ tiếp theo cho các cặp máy chủ - nhiệm vụ tương ứng. Từ khóa: Dự đoán, LSTM, học máy, tần suất hoạt động, thiết bị. 1 GI I THIỆU Ý ƯỞNG Hiện nay, nhiều công ty cung cấp các máy chủ thực hiện các hoạt động với quy mô lớn. Các máy chủ có thể hoạt động cùng một nhiệm vụ hoặc khác nhiệm vụ trong những khoảng thời gian khác nhau. Việc phân bố ở những khu vực khác nhau với số lượng nhiều máy chủ sẽ khiến cho việc hoạt động không được hiệu quả, do sẽ có thời gian khi nhiều máy không làm gì và những máy khác lại hoạt động hết công suất. Hậu quả là đem đến tổn thương lớn cho bộ phận phần cứng của các máy chủ. Từ những vấn đề trên, đã có các tập đoàn được thành lập và cung cấp dịch vụ thông báo mức độ làm việc của các máy chủ với độ bảo mật cao. Nhưng chính họ cũng có các câu hỏi đặt ra là liệu có thể tin tưởng được việc dự đoán mức độ làm việc của các máy chủ dựa trên những dữ liệu đã có sẵn từ trước. 2 NHỮNG CÔNG VIỆC LIÊN QUAN Năm 2016, nhóm nghiên cứu gồm Weishan Zhang; Bo Li; Dehai Zhao; Faming Gong và Qinghua Lu đã cho ra bài báo dự đoán mức độ làm việc của đám mây bằng mạng thần kinh tái phát (RNN). Xiaoyong Tang (2019) đã cho ra độ chính xác của việc nghiên cứu mạng bộ nhớ dài-ngắn cải thiện để dự đoán tần suất làm việc của hệ thống máy tính quy mô lớn là 86%. Một hướng tiếp cận vấn đề khác bằng quy hoạch tuyến tính của Mina Niknafs, Ivan Ukhov, Petru Eles và Zebo Peng (2019) trong việc quản lý thời gian hoạt động của các nguồn với độ chính xác cho mỗi lần dự đoán trong khoảng 80 – 95%. 59 3 GI I THIỆU KỸ THUẬT 3.1 Mạng thần kinh tái phát (Recurrent Neural Network – RNN [1]) Mô hình RNN được sử dụng cho dữ liệu dạng chuỗi với ý tưởng chính là sử dụng một bộ nhớ để lưu lại thông tin từ những bước tính toán xử lý trước để dựa vào nó có thể đưa ra dự đoán chính xác nhất cho bước dự đoán hiện tại. Hình 1: Mô hình RNN: Many to one 3.2 Mạng bộ nhớ dài-ngắn (Long short-term memory – LSTM[2]) LSTM cũng có cơ chế hoạt động dựa trên RNN nhưng có một số thay đổi trong các khối. LSTM có 4 cổng, có thể duy trì trạng thái nhớ và áp dụng phi tuyến (sigmoid) trước khi vào cổng ra. Hình 2: Mô hình LSTM 3.3 Tối ưu hóa Adam (Adam optimization[3]) Adam là thuật toán tối ưu có thể được sử dụng để thay thế đạo hàm hội tụ (Gradient descent) để cập nhật bộ trọng số được lặp đi lặp lại dựa vào dữ liệu học (training data). Đạo hàm hội tụ sử dụng duy nhất một tần suất học (learning rate) cho mọi lần cập nhật bộ trọng số. Trong khi đó, thuật toán tối ưu Adam sẽ cải thiện tần suất học cho từng bộ trọng số và lần lượt thay đổi trong suốt quá trình học. 60 Hình 3: Biểu đồ so sánh tốc độ hội tụ của các thuật toán tối ưu Có thể thấy, trong năm thuật toán tối ưu thì có lẽ thuật toán tối ưu Adam là sự lựa chọn tốt nhất cho bài toán. 3.4 Sai số toàn phương trung bình (Mean square error – MSE[4]) MSE là hàm sai số được sử dụng phổ biến nhất cho các bài toán hồi quy. Nó được xác định bởi trung bình của độ lệch của toàn bộ giá trị thật và giá trị dự đoán, được viết dưới dạng công thức: 1 N ˆ  L(y,y) (y  yˆ i )2 N i 0 trong đó: y là giá trị thực tế, ̂ là giá trị dự đoán, y - ̂ là sai số của giá trị thực tế so với dự đoán, ̂) là tổng trung bình của sai số của giá trị thực tế so với dự đoán. 4 QUÁ TRÌNH THỰC HIỆN 4.1 Dữ liệu đầu vào Đầu vào của bài toán là dữ liệu của 5 đặc tính công việc chia nhau thực hiện bởi 1000 máy chủ, chúng ta sẽ có 1000 bộ dữ liệu. Mỗi bộ dữ liệu có khoảng 1900 dòng (mỗi dòng tương ứng với mỗi giờ) với mỗi giờ là hiệu suất sử dụng trung bình trong 1 giờ của máy chủ. 61 Hình 4: Một đoạn dữ liệu ví dụ Trong đó host là tên máy chủ và Series là đặc tính công việc mà máy chủ đó phải thực hiện, còn Mean là khối lượng công việc trung bình trong giờ đó của máy chủ thực hiện. 4.2 Đặt vấn đề Mạng LSTM chỉ tốt khi thực hiện dự đoán một vài giá trị tiếp theo, nếu dự đoán quá nhiều giá trị thì sai số sẽ tuyến tính và càng ngày càng lớn. Để dự đoán được 168 giờ tiếp theo chúng ta cần khắc phục nhược điểm này. 4.3 Giải quyết vấn đề Với bộ dữ liệu 1900 dòng, 168 (1 tuần) giờ cuối cùng của mỗi bộ dữ liệu vào sẽ được tách riêng ra để làm dữ liêu thực tế (Y_test) dùng để so sánh với dữ liệu dự đoán. Số giờ được dùng để dự đoán ở đây sẽ là 30 giờ, việc sử dụng nhiều giờ hơn tăng thời gian học lên rất nhiều, nhưng sai số lại cải thiện rất ít nên ta sẽ chọn 30 giờ để dự đoán ra 1 giờ tiếp theo. 1732 dòng dữ liệu trong X_train, cứ mỗi 30 giờ liên tục thì sẽ có nhãn là g ...