Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlines
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlines Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3 XỬ LÝ DỮ LIỆU THIẾU TRONG CÁC CHUYẾN BAY CHẶNG HÀ NỘI - TPHCM CỦA VIETNAM AIRLINES Tạ Anh Tuấn1 , Nguyễn Thanh Tùng2 1 Lớp Cao học 24CNTT - Trường Đại học Thủy lợi, e-mail: tuanta@tlu.edu.vn 2 Khoa Công nghệ thông tin - Trường Đại học Thủy lợi, e-mail: tungnt@tlu.edu.vn 1. GIỚI THIỆU CHUNG trong nhiều nhiệm vụ quản lý. Vì vậy, nâng cao chất lượng dữ liệu để có một bảng dữ Hãng hàng không Quốc gia Việt Nam (tên liệu FIMS sạch và đầy đủ là cơ sở của nhiều giao dịch tiếng Anh là Vietnam Airlines, viết quyết định về các chuyến bay. Trong bài báo tắt là VNA). VNA là hãng hàng không quốc ngắn này, chúng tôi sử dụng một số phương gia của nước Cộng hòa xã hội chủ nghĩa Việt pháp học máy thống kê để điền dữ liệu thiếu Nam, là thành phần nòng cốt của Tổng công cho chặng bay Hà Nội - TPHCM. ty Hàng không Việt Nam. VNA có các đường bay đến khu vực Đông Nam Á, Đông 2. PHƯƠNG PHÁP VÀ KẾT QUẢ Á, châu Âu và châu Đại Dương, hiện đang NGHIÊN CỨU khai thác nhiều đường bay thường lệ tới nhiều điểm nội địa và nhiều điểm đến quốc tế Vấn đề đặt ra ở đây là điền giá trị thiếu của với trên 400 chuyến bay mỗi ngày (khoảng một biến số trong một bảng có rất nhiều biến 14000 chuyến bay mỗi năm) với gần 100 số khác. Nguyên lý chung của giải pháp này máy bay các loại Boeing và Airbus. là lời giải sẽ dựa vào việc xác định quy luật FIMS của VNA chứa cơ sở dữ liệu của biến số ta quan tâm (như xác định phân (CSDL) tổng hợp các thông tin liên quan bố xác suất) trong mối liên quan của biến số đến các hoạt động bay của VNA và do vậy này với ngữ cảnh (các biến số khác). Ý tưởng là một CSDL cơ bản và thiết yếu của VNA. cơ bản của chúng tôi về giải pháp như sau. Đại thể, mỗi chuyến bay của VNA được mô Về bản chất đây là bài toán dự đoán giá trị tả trên một dòng của CSDL FIMS với của một biến liên tục. Ý tưởng cơ bản là khai khoảng 300 biến số (thuộc tính), mô tả thông thác tối đa sự tương tự của các chuyến bay tin về máy bay, chuyến bay, tổ lái, sân bay, đối với chuyến bay có giá trị thiếu và tính giá thời tiết, cất cánh, hạ cánh, lượng nhiên liệu theo yêu cầu của phi công (FUEL_ORDER), trị dự đoán dựa vào các kỹ thuật thích hợp. - Phân chia các chuyến bay thành các lượng nhiên liệu do hệ thống dề xuất nhóm theo các thuộc tính: kiểu máy bay, (FUEL_BLOCK), v.v. Một trong các vấn đề của FIMS là làm thế tuyến bay (các điểm đi điểm đến cụ thể theo nào để điền dữ liệu thiếu cho các chặng bay. các tuyến trong và ngoài nước), thời tiết, v.v. Đây cũng là bài toán quan trọng được VNA (gọi tắt là nhóm bay). Việc dự đoán giá trị đề cập đến. Do nhiều nguyên nhân, từ máy thiếu của một chuyến bay về cơ bản dựa theo móc đến con người, dữ liệu của FIMS được nhóm bay của chuyến bay đó. Các kỹ thuật biết chưa hoàn toàn chính xác, có nhiễu và dự đoán sau được áp dụng, và kết quả cuối có còn nhiều ô của CSDL chưa có dữ liệu thêm tổ hợp của các dự đoán. (missing values). Việc điền dữ liệu thiếu là - Dự đoán 1: Theo giá trị trung bình của thiết yếu để có thông tin FIMS đáng tin cậy biến số trong nhóm bay. 190 Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3 - Dự đoán 2: Theo giá trị xuất hiện nhiều Trong Hình 3 và Hình 4, ta thấy tỷ lệ diễn nhất của biến số trong nhóm bay. giải của mô hình hồi quy RF trên tập dữ liệu - Dự đoán 3: Theo kết quả của phương VNA392_HANSGN_2016 dùng phương pháp random forest regression. pháp 2 điền missing value có kết quả tốt hơn - Dự đoán 4: Theo quan hệ của biến đang (95.81%, MSE=48570.17 lít dầu) so với xét với các biến liên quan (nếu tồn tại các phương pháp 1 dùng mean (90.76, quan hệ này). MSE=106361.9 lít dầu). Trong khuôn khổ của bài báo ngắn này, chúng tôi sử dụng gói MICE [3] kết hợp với randomForest trên môi trường R [1, 2]. Dữ liệu thực nghiệm gồm 59 bản ghi với 15 biến ghi lại các quan sát chặng bay Hà Nội - TPHCM năm 2016 của tàu bay VNA390 (VNA392_HANSGN_2016). Trong Hình 1, nửa trái thể hiện tần xuất của toàn bộ dữ liệu trống trong tập dữ liệu huấn luyện, nửa bên phải hiển thị vị trí các giá trị trống của các biến. Hình 2 hiển trị trực quan vị trí các bản ghi của các biến chứa giá trị trống (các dòng màu đỏ). Ta có thể hình dung được tỷ lệ và vị trí dữ liệu Hình 3. Lỗi training của thuật toán RF trống trong bảng dữ liệu của chặng bay năm trên tập VNA392_HANSGN_2016 2016 của tàu VNA392. khi điền giá trị trống (Na) bằng mean Type of random forest: regression Number of trees: 1000 No. of variables tried at each split: 2 Mean of squared residuals: 106361.9 % Var explained: 90.76 Hình 1. Tỷ lệ các số liệu trống trong dữ liệu chặng bay Hà Nội - TPHCM Hình 4. Lỗi training của thuật toán RF trên tập VNA392_HANSGN_2016 khi điền giá trị trống (Na) sử dụng RF và MICE Hình 2. Tỷ lệ các số liệu trống Mean of squared residuals ...
Tìm kiếm theo từ khóa liên quan:
Hãng hàng không Quốc gia Việt Nam Xử lý dữ liệu thiếu Lỗi training của thuật toán RF Phân chia chuyến bay Thông tin FIMSTài liệu cùng danh mục:
-
62 trang 388 3 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 369 6 0 -
Bài giảng Phân tích thiết kế hệ thống thông tin: Chương 3 - Hệ điều hành Windowns XP
39 trang 318 0 0 -
Phương pháp truyền dữ liệu giữa hai điện thoại thông minh qua môi trường ánh sáng nhìn thấy
6 trang 307 0 0 -
Đề cương chi tiết học phần Cấu trúc dữ liệu và giải thuật (Data structures and algorithms)
10 trang 299 0 0 -
Đáp án đề thi học kỳ 2 môn cơ sở dữ liệu
3 trang 288 1 0 -
Giáo trình Cơ sở dữ liệu: Phần 2 - TS. Nguyễn Hoàng Sơn
158 trang 279 0 0 -
PHÂN TÍCH THIẾT KẾ HỆ THỐNG XÂY DỰNG HỆ THỐNG ĐẶT VÉ TÀU ONLINE
43 trang 276 2 0 -
Phân tích thiết kế hệ thống - Biểu đồ trạng thái
20 trang 265 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 247 0 0
Tài liệu mới:
-
Khảo sát tình trạng dinh dưỡng trước mổ ở người bệnh ung thư đại trực tràng
9 trang 20 0 0 -
94 trang 18 0 0
-
Tham vấn Thanh thiếu niên - ĐH Mở Bán công TP Hồ Chí Minh
276 trang 19 0 0 -
Kết hợp luân phiên sóng T và biến thiên nhịp tim trong tiên lượng bệnh nhân suy tim
10 trang 18 0 0 -
Đề thi giữa học kì 1 môn Ngữ văn lớp 9 năm 2024-2025 có đáp án - Trường THCS Nguyễn Trãi, Thanh Khê
14 trang 20 0 0 -
Đánh giá hiệu quả giải pháp phát triển thể chất cho sinh viên Trường Đại học Kiến trúc Hà Nội
8 trang 18 0 0 -
Tỉ lệ và các yếu tố liên quan đoạn chi dưới ở bệnh nhân đái tháo đường có loét chân
11 trang 19 0 0 -
39 trang 18 0 0
-
Đề thi học kì 1 môn Tiếng Anh lớp 6 năm 2024-2025 có đáp án - Trường TH&THCS Quang Trung, Hội An
6 trang 18 1 0 -
Tôm ram lá chanh vừa nhanh vừa dễRất dễ làm, nhanh gọn mà lại ngon. Nhà mình
7 trang 18 0 0