Phát hiện và ngăn chặn tấn công nhằm vào ứng dụng Web sử dụng SVM, XGBoost và rừng ngẫu nhiên

Số trang: 5 Loại file: pdf Dung lượng: 577.78 KB Lượt xem: 12 Lượt tải: 0

10.10.2023

Phí lưu trữ: miễn phí

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết đề xuất phương pháp trích chọn các đặc trưng mới cho vấn đề nhận biết các yêu cầu kết nối HTTP ở dạng bình thường hay bất thường. Các đặc trưng này được trích xuất từ thông tin liên quan đến phương thức HTTP, địa chỉ URL và payload của yêu cầu kết nối. Các thử nghiệm được thực hiện sử dụng các bộ phận lớp hồi quy logistic, máy hỗ trợ véc tơ, XGBoost và rừng ngẫu nhiên trên bộ dữ liệu HTTP DATASET CSIC 2010. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Phát hiện và ngăn chặn tấn công nhằm vào ứng dụng Web sử dụng SVM, XGBoost và rừng ngẫu nhiên Phát hiện và ngăn chặn tấn công nhằm vào ứng dụng Web sử dụng SVM, XGBoost và rừng ngẫu nhiên Nguyễn Hồng Quang và Hoàng Phú Hoan Viện Công nghệ Thông tin và Truyền thông, Trường Đại học Bách Khoa Hà Nôi Email: quangnh@soict.hust.edu.vn, hoangphuhoan2012@gmail.com Abstract— Vấn đề ngăn chặn tấn công Web là một vấn đề quan Một nhược điểm quan trọng của phương pháp tiếp cận trọng để duy trì sự họat động hiệu quả của các Website. Trong signature-based là phương pháp này lại không có khả năng nghiên cứu này, chúng tôi đã đề xuất phương pháp trích chọn các phát hiện đối với các lỗ hổng chưa được công bố. Đây chính là đặc trưng mới cho vấn đề nhận biết các yêu cầu kết nối HTTP ở phương pháp mà các hacker mũ đen chuyên nghiệp thường dạng bình thường hay bất thường. Các đặc trưng này được trích xuất từ thông tin liên quan đến phương thức HTTP, địa chỉ URL dùng để tấn công vào các hệ thống quan trọng, được bảo vệ kĩ, và payload của yêu cầu kết nối. Các thử nghiệm được thực hiện tuy nhiên các phương pháp bảo vệ này hầu hết lại chỉ có tác sử dụng các bộ phân lớp hồi quy logistic, máy hỗ trợ véc tơ, dụng đối với các dạng tấn công đã biết. XGBoost và rừng ngẫu nhiên trên bộ dữ liệu HTTP DATASET Một xu hướng nổi lên trong các nghiên cứu gần đây là sử CSIC 2010. Kết quả đạt được độ chính xác 98% với bộ phân lớp dụng mô hình học máy trong việc phát hiện tấn công web [4]. hồi quy logistic và 100% với ba phương pháp còn lại. Điều này Mô hình học máy này thay vì việc phải cập nhật các phương khẳng định các đặc trưng mới là rất hiệu quả cho vấn đề này. pháp bảo vệ chống lại các phương thức tấn công mới thì sẽ chỉ cần dựa trên các thuộc tính, đặc điểm của các yêu cầu HTTP Keywords- yêu cầu kết nối HTTP, trích chọn đặc trưng, phát hiện bất thường, an ninh mạng, hồi quy logistic, máy hỗ trợ véc tơ, tới Website để xác định yêu cầu này là bình thường hay bất rừng ngẫu nhiên. thường. Ưu điểm của phương pháp này ở việc dễ dàng bảo trì, mở rộng, không cần có đội ngũ theo dõi và cải tiến ngày đêm để cập nhật khả năng đánh chặn đối với các kiểu tấn công mới. I. GIỚI THIỆU Phần tiếp theo mô tả phương pháp tiền xử lý và trích chọn Ngành công nghệ thông tin càng phát triển thì đồng thời đặc trưng. Phần 3 mô tả tập dữ liệu và các thử nghiệm. Cuối khả năng mất an toàn thông tin càng cao. Đặc biệt với các ứng cùng là kết luận. dụng public rộng rãi đối với người dùng như một Website thì II. TIỀN XỬ LÝ VÀ TRÍCH CHỌN ĐẶC TRƯNG khả năng trở thành mục tiêu tấn công lại càng lớn. Điều này đặt 2.1. Tiền xử lý dữ liệu ra một yêu cầu cấp thiết phải nâng cấp khả năng phòng chống Đầu tiên dữ liệu sẽ được xử lý bởi bước tiền xử lý. Bước tấn công cho các website. Để giúp các Website có khả năng tự này thực hiện loại bỏ đi các thành phần không cung cấp thông bảo vệ mình, các công ty về an ninh mạng đưa ra các ứng dụng tin cho quá trình phân loại. Dữ liệu được giữ lại bao gồm: bảo vệ Website tự động được gọi chung với tên WAF (Web  Phương thức: chứa thông tin về phương thức được sử Application Firewall). Công nghệ này chủ yếu phát hiện và dụng trong yêu cầu. Trong trường hợp của tập dữ liệu chặn các tấn công website dựa trên việc phân tích các yêu cầu này thì có ba phương thức được sử dụng đó là GET, HTTP (HTTP traffic) dựa trên phương pháp signature-based [1] POST, PUT. Thông tin này có ý nghĩa quan trọng đối [5][7][8]. Phương pháp này chủ yếu tập trung vào việc phân với cách thức Server xử lý yêu cầu. tích đặc điểm của các kiểu tấn công, từ đó các chuyên gia về  URI: đây là dữ liệu cung cấp thông tin về tài nguyên bảo mật sẽ tạo ra các luật mới nhằm lọc và ngăn chặn các yêu được yêu cầu truy cập trên Server. Các dữ liệu này cầu bất thường (abnormal traffic) thỏa mãn các điều kiện của phản ánh nhu cầu truy vấn thực sự của máy khách. các luật này. Nói cách khác là các yêu cầu giống với các đặc Phần này cũng xác định các dữ liệu sẽ được người điểm của một tấn công đã biết trước thì sẽ bị ngăn chặn. Điều dùng cung cấp cho Server (nếu có). đó đòi hỏi cần có một đội kỹ sư bảo mật luôn luôn túc trực để  Payload: đây là dữ liệu quan trọng nhất trong bộ dữ liên tục cập nhật các luật để chống lại các kiểu tấn công mới liệu. Phần này chứa toàn bộ dữ liệu chính mà người được phát hiện. Trong bối cảnh có rất nhiều kiểu traffic tấn dùng gửi lên Server cũng như là dữ liệu chủ yếu trong công khác nhau, trong đó lại có các hình thức tấn công phức ...