Phương pháp xử lý dữ liệu trước ảnh hóa để huấn luyện mô hình phát hiện tấn công mạng dựa vào học sâu

Số trang: 6 Loại file: pdf Dung lượng: 546.14 KB Lượt xem: 10 Lượt tải: 0

tailieu_vip

Phí tải xuống: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết "Phương pháp xử lý dữ liệu trước ảnh hóa để huấn luyện mô hình phát hiện tấn công mạng dựa vào học sâu" đề xuất phương pháp tiền xử lý dữ liệu mạng trước khi ảnh hóa để sử dụng với mạng học sâu CNN phân loại đa lớp. Phương pháp được áp dụng để xử lý bộ dữ liệu NSL-KDD dùng tập kiểm tra KDDTest+ riêng cho kết quả rất khả quan. Kết quả cũng cho thấy tiền xử lý dữ liệu vẫn là khâu cần thiết khi áp dụng học sâu vào xây dựng các mô hình phát hiện tấn công mạng. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Phương pháp xử lý dữ liệu trước ảnh hóa để huấn luyện mô hình phát hiện tấn công mạng dựa vào học sâu Hội nghị Quốc gia lần thứ 26 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2023) Phương Pháp Xử Lý Dữ Liệu Trước Ảnh Hóa Để Huấn Luyện Mô Hình Phát Hiện Tấn Công Mạng Dựa Vào Học Sâu Hà Thanh Dũng1, Nguyễn Hồng Sơn2 1Khoa Công nghệ thông tin Trường Đại học Sài Gòn, 2Khoa Công nghệ thông tin II , Học Viện Công Nghệ Bưu Chính Viễn Thông Email: htdung@sgu.edu.vn, sonngh@ptit.edu.vnAbstract— Áp dụng công nghệ học sâu để xây dựng các nổ của hệ thống thông tin đi kèm với đó là sự đa dạngmô hình phát hiện tấn công mạng đang là một xu thế phổ và phức tạp của hoạt động tấn công.biến. Đặc biệt, ảnh hóa dữ liệu mạng tạo ra dạng ảnhquen thuộc đối với mạng CNN(Convolutional Neural Khi công nghệ học máy dần đi vào thực tiễn đã xuấtNetwork) để có sự phân loại tốt như trong thị giác máy hiện nhiều nghiên cứu áp dụng học máy để xây dựngtính là một cách làm rất sáng tạo. Tuy nhiên việc phát các giải pháp phát hiện thích ứng hơn. Ban đầu cáchiện nhiều loại tấn công dùng mô hình CNN phân loại đa thuật toán học máy truyền thống như rừng ngẫu nhiênlớp với tập dữ liệu mạng được ảnh hóa vẫn còn hạn chế. (RF- random forests), mạng neural tự tổ chức (SOM-Trong bài báo này chúng tôi đề xuất phương pháp tiền xử Self-Organizing Map), máy vectơ hỗ trợ (SVM -lý dữ liệu mạng trước khi ảnh hóa để sử dụng với mạng support vector machines) và mạng neural nhân tạohọc sâu CNN phân loại đa lớp. Phương pháp được áp (ANNs- Artificial Neural Networks) đã được sử dụngdụng để xử lý bộ dữ liệu NSL-KDD dùng tập kiểm tra rộng rãi trong việc phát triển mô hình phân loại xâmKDDTest+ riêng cho kết quả rất khả quan. Kết quả cũngcho thấy tiền xử lý dữ liệu vẫn là khâu cần thiết khi áp nhập mạng dựa trên các dữ liệu thật được thu thập từdụng học sâu vào xây dựng các mô hình phát hiện tấn mạng. Tuy nhiên, khi các tập dữ liệu ngày càng lớn cảcông mạng. về kích thước và số loại tấn công, các thuật toán học máy truyền thống không thể đáp ứng được với môi Keywords- Tiền xử lý dữ liệu, NSL-KDD, CNN trường mạng thực tế như vậy [2]. Đặc biệt, khi yêu cầu I. GIỚI THIỆU độ chính xác cao hơn, giảm tỷ lệ dương tính giả và yêu cầu phát hiện được các cuộc tấn công mới thì các thuậtNgày nay chuyển đổi số là xu hướng tất yếu và các hệ toán học máy thông thường trở nên bất cập [3,4]. Gầnthống thông tin đóng vai trò rất quan trọng trong đời đây, sự thành công của việc áp dụng công nghệ học sâusống, kinh tế và xã hội. An toàn cho các hệ thông tin (Deep Learning) trong các lĩnh vực như thị giác máycàng trở nên cấp thiết trong khi các hình thái tấn công tính và xử lý ngôn ngữ tự nhiên đã tạo động lực chomạng không ngừng phát triển. Giờ đây các chủ thể tấn các nghiên cứu áp dụng học sâu vào bài toán phát hiệncông đã có thể sử dụng trí tuệ nhân tạo (AI) để tăng tấn công mạng. Tuy nhiên không như trong lĩnh vực thịcường các cuộc tấn công dạng công nghệ xã hội (social giác máy tính, kinh nghiệm và kiến thức về học sâuengineering attack) và tận dụng phần mềm độc hại dưới trong lĩnh vực an toàn thông tin còn khá khiêm tốn. Sựdạng dịch vụ MaaS (malware-as-a-service) để thực khác biệt lớn nhất dễ nhận ra đó là khác biệt về dạnghiện các cuộc tấn công của mình[1]. Trong bối cảnh dữ liệu giữa hai lĩnh vực, một bên là dữ liệu ảnh và mộtnhư vậy các cơ chế và biện pháp phòng chống cũng bên là dữ liệu gói tin mạng. Để có thể sử dụng mạngphải được cải tiến liên tục và bài toán phát hiện tấn học sâu như CNN cần biến đổi điểm dữ liệu trongcông mạng luôn mang tính thời sự. Trong hệ thống an ...