Phát hiện malware dựa trên header của tập tin Portable Executable sử dụng Machine Learning
Số trang: 6
Loại file: pdf
Dung lượng: 578.32 KB
Lượt xem: 37
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong bài báo "Phát hiện malware dựa trên header của tập tin Portable Executable sử dụng Machine Learning", nhóm tác giả dựa vào cấu trúc phần Portable Executable header của các tập tin Portable Executable để đề xuất một hướng tiếp cận khác trong việc sử dụng Machine learning để phân loại các tập tin này, là tập tin mã độc hay tập tin lành tính. Kết quả thực nghiệm cho thấy, tiếp cận đề xuất vẫn sử dụng thuật toán Random Forest cho bài toán phân loại nhưng độ chính xác và thời gian thực thi được cải thiện so với một số công bố gần đây (độ chính xác đạt 99.71%).
Nội dung trích xuất từ tài liệu:
Phát hiện malware dựa trên header của tập tin Portable Executable sử dụng Machine Learning 8 N.K.Tuấn, N.H.Hà, T.T.T.Nguyên / Tạp chí Khoa học và Công nghệ Đại học Duy Tân 5(48) (2021) 8-13 5(48) (2021) 8-13 Phát hiện malware dựa trên header của tập tin Portable Executable sử dụng Machine Learning Malware detection based on Portable Executable file header using Machine Learning Nguyễn Kim Tuấna,b*, Nguyễn Hoàng Hàc, Trần Trương Thiện Nguyêna,b Nguyen Kim Tuana,b*, Nguyen Hoang Hac, Tran Truong Thien Nguyena,b a Khoa Công nghệ thông tin, Trường Khoa học máy tính, Đại học Duy Tân, Đà Nẵng, Việt Nam a Faculty of Information Technology, School of Computer Sciences, Duy Tan University, 55000, Da Nang, Vietnam b Viện Nghiên cứu và Phát triển Công nghệ Cao, Ðại học Duy Tân, Ðà Nẵng, Việt Nam b Institute of Research and Development, Duy Tan University, Da Nang, 550000, Vietnam c Trường Đại học Khoa học, Đại học Huế, Việt Nam c University Sciences, Hue University, Vietnam (Ngày nhận bài: 18/5/2021, ngày phản biện xong: 02/6/2021, ngày chấp nhận đăng: 30/9/2021) Tóm tắt Trong bài báo này, chúng tôi dựa vào cấu trúc phần Portable Executable header của các tập tin Portable Executable để đề xuất một hướng tiếp cận khác trong việc sử dụng Machine learning để phân loại các tập tin này, là tập tin mã độc hay tập tin lành tính. Kết quả thực nghiệm cho thấy, tiếp cận đề xuất vẫn sử dụng thuật toán Random Forest cho bài toán phân loại nhưng độ chính xác và thời gian thực thi được cải thiện so với một số công bố gần đây (độ chính xác đạt 99.71%). Từ khóa: Tập tin PE; Trường; Đặc trưng; Mã độc; Thuật toán Random Forest; Abstract In this paper, we rely on the Portable Executable header structure of Portable Executable files to propose another approach in using Machine learning to classify these files, as malware files or benign files. Experimental results show that the proposed approach still uses Random Forest algorithm for the classification problem but the accuracy and execution time are improved compared to some recent publications (accuracy reaches 99.71%). Keywords: PE header, Field; Feature, Malware, Random Forest Algorithm. 1. Giới thiệu Malware có thể tồn tại trong các thiết bị đầu cuối, có thể truyền đi trên đường truyền mạng Trong những năm trở lại đây, mã độc và có thể đính kèm/ẩn trong các tập tin có thể (malware) đã trở thành mối đe dọa đáng kể đối thực thi, đặc biệt là trong các tập tin Portable với vấn đề bảo mật trên không gian mạng. * Corresponding Author: Nguyen Kim Tuan; Faculty of Information Technology, School of Computer Sciences, Duy Tan University, 55000, Da Nang; Institute of Research and Development, Duy Tan University, Da Nang, 550000, Vietnam Email: nguyenkimtuan@duytan.edu.vn N.K.Tuấn, N.H.Hà, T.T.T.Nguyên / Tạp chí Khoa học và Công nghệ Đại học Duy Tân 5(48) (2021) 8-13 9 Executable (PE) của hệ điều hành Windows. trường trong PE header là lớn, dữ liệu tại các Hiện có 2 kỹ thuật được sử dụng để phát hiện trường lại có quan hệ với nhau, hầu hết các malware [6]: i) Kỹ thuật dựa trên chữ ký trường đều có thể bị làm “sai khác”, ở những (Signature based detection) tuy cho độ chính mức độ khác nhau, nên bài toán phát hiện xác cao nhưng gặp nhiều khó khăn trước sự đa malware ở đây cần tiếp cận theo hướng sử dụng dạng và khả năng biến hình của các loại các thuật toán Machine learning thì mới đạt malware hiện nay; ii) Kỹ thuật không dựa trên được độ chính xác cao nhất có thể [1], [2], [4], chữ ký (Non-signature based detection) có thể [5], [6]. giải quyết khó khăn này, nó thường được sử Chúng ta có thể thu thập một lượng lớn các dụng để phát hiện được các loại malware “chưa mẫu PE header của các tập tin lành tính và tập được biết đến” (unknown), các loại malware có tin malware, sau đó trích xuất các đặc trưng của khả năng biến dạng cao xuất hiện gần đây… Kỹ mỗi trường, rồi so sánh để tìm ra sự khác biệt thuật (ii) giúp việc phân loại, phát hiện malware đáng kể nhất giữa tập tin lành tính và tập tin hiện nay đạt hiệu quả cao khi được triển khai malware, làm cơ sở cho việc phân loại về sau. theo hướng tiếp cận Machine learning. Đây là hướng tiếp cận mà chúng tôi thực Tập tin PE là các tập tin hoạt động trên môi nghiệm và đề xuất trong bài bào này. trường hệ điều hành Windows, nó có thể là các 2. Các nghiên cứu liên quan tập tin thực thi (executable files) hoặc là các tập tin chứa mã nhị phân được sử dụng bởi các tập Hiện có khá nhiều hướng tiếp cận cho bài tin thực thi khác. Vùng thông tin định dạng toán phân loại malware sử dụng kỹ thuật (format information) của tập tin PE [1] chứa Machine learning [7-9]. Trong phần này, chúng những thông tin cần thiết mà hệ điều hành sử tôi điểm lại những kết quả, về độ chính xác, về dụng để điều khiển việc thực thi của tập tin khi tỉ lệ phát hiện và tốc độ huấn luyện, mà một số chúng ...
Nội dung trích xuất từ tài liệu:
Phát hiện malware dựa trên header của tập tin Portable Executable sử dụng Machine Learning 8 N.K.Tuấn, N.H.Hà, T.T.T.Nguyên / Tạp chí Khoa học và Công nghệ Đại học Duy Tân 5(48) (2021) 8-13 5(48) (2021) 8-13 Phát hiện malware dựa trên header của tập tin Portable Executable sử dụng Machine Learning Malware detection based on Portable Executable file header using Machine Learning Nguyễn Kim Tuấna,b*, Nguyễn Hoàng Hàc, Trần Trương Thiện Nguyêna,b Nguyen Kim Tuana,b*, Nguyen Hoang Hac, Tran Truong Thien Nguyena,b a Khoa Công nghệ thông tin, Trường Khoa học máy tính, Đại học Duy Tân, Đà Nẵng, Việt Nam a Faculty of Information Technology, School of Computer Sciences, Duy Tan University, 55000, Da Nang, Vietnam b Viện Nghiên cứu và Phát triển Công nghệ Cao, Ðại học Duy Tân, Ðà Nẵng, Việt Nam b Institute of Research and Development, Duy Tan University, Da Nang, 550000, Vietnam c Trường Đại học Khoa học, Đại học Huế, Việt Nam c University Sciences, Hue University, Vietnam (Ngày nhận bài: 18/5/2021, ngày phản biện xong: 02/6/2021, ngày chấp nhận đăng: 30/9/2021) Tóm tắt Trong bài báo này, chúng tôi dựa vào cấu trúc phần Portable Executable header của các tập tin Portable Executable để đề xuất một hướng tiếp cận khác trong việc sử dụng Machine learning để phân loại các tập tin này, là tập tin mã độc hay tập tin lành tính. Kết quả thực nghiệm cho thấy, tiếp cận đề xuất vẫn sử dụng thuật toán Random Forest cho bài toán phân loại nhưng độ chính xác và thời gian thực thi được cải thiện so với một số công bố gần đây (độ chính xác đạt 99.71%). Từ khóa: Tập tin PE; Trường; Đặc trưng; Mã độc; Thuật toán Random Forest; Abstract In this paper, we rely on the Portable Executable header structure of Portable Executable files to propose another approach in using Machine learning to classify these files, as malware files or benign files. Experimental results show that the proposed approach still uses Random Forest algorithm for the classification problem but the accuracy and execution time are improved compared to some recent publications (accuracy reaches 99.71%). Keywords: PE header, Field; Feature, Malware, Random Forest Algorithm. 1. Giới thiệu Malware có thể tồn tại trong các thiết bị đầu cuối, có thể truyền đi trên đường truyền mạng Trong những năm trở lại đây, mã độc và có thể đính kèm/ẩn trong các tập tin có thể (malware) đã trở thành mối đe dọa đáng kể đối thực thi, đặc biệt là trong các tập tin Portable với vấn đề bảo mật trên không gian mạng. * Corresponding Author: Nguyen Kim Tuan; Faculty of Information Technology, School of Computer Sciences, Duy Tan University, 55000, Da Nang; Institute of Research and Development, Duy Tan University, Da Nang, 550000, Vietnam Email: nguyenkimtuan@duytan.edu.vn N.K.Tuấn, N.H.Hà, T.T.T.Nguyên / Tạp chí Khoa học và Công nghệ Đại học Duy Tân 5(48) (2021) 8-13 9 Executable (PE) của hệ điều hành Windows. trường trong PE header là lớn, dữ liệu tại các Hiện có 2 kỹ thuật được sử dụng để phát hiện trường lại có quan hệ với nhau, hầu hết các malware [6]: i) Kỹ thuật dựa trên chữ ký trường đều có thể bị làm “sai khác”, ở những (Signature based detection) tuy cho độ chính mức độ khác nhau, nên bài toán phát hiện xác cao nhưng gặp nhiều khó khăn trước sự đa malware ở đây cần tiếp cận theo hướng sử dụng dạng và khả năng biến hình của các loại các thuật toán Machine learning thì mới đạt malware hiện nay; ii) Kỹ thuật không dựa trên được độ chính xác cao nhất có thể [1], [2], [4], chữ ký (Non-signature based detection) có thể [5], [6]. giải quyết khó khăn này, nó thường được sử Chúng ta có thể thu thập một lượng lớn các dụng để phát hiện được các loại malware “chưa mẫu PE header của các tập tin lành tính và tập được biết đến” (unknown), các loại malware có tin malware, sau đó trích xuất các đặc trưng của khả năng biến dạng cao xuất hiện gần đây… Kỹ mỗi trường, rồi so sánh để tìm ra sự khác biệt thuật (ii) giúp việc phân loại, phát hiện malware đáng kể nhất giữa tập tin lành tính và tập tin hiện nay đạt hiệu quả cao khi được triển khai malware, làm cơ sở cho việc phân loại về sau. theo hướng tiếp cận Machine learning. Đây là hướng tiếp cận mà chúng tôi thực Tập tin PE là các tập tin hoạt động trên môi nghiệm và đề xuất trong bài bào này. trường hệ điều hành Windows, nó có thể là các 2. Các nghiên cứu liên quan tập tin thực thi (executable files) hoặc là các tập tin chứa mã nhị phân được sử dụng bởi các tập Hiện có khá nhiều hướng tiếp cận cho bài tin thực thi khác. Vùng thông tin định dạng toán phân loại malware sử dụng kỹ thuật (format information) của tập tin PE [1] chứa Machine learning [7-9]. Trong phần này, chúng những thông tin cần thiết mà hệ điều hành sử tôi điểm lại những kết quả, về độ chính xác, về dụng để điều khiển việc thực thi của tập tin khi tỉ lệ phát hiện và tốc độ huấn luyện, mà một số chúng ...
Tìm kiếm theo từ khóa liên quan:
Bài viết nghiên cứu khoa học Tập tin PE Phát hiện malware Mã độc Thuật toán Random Forest Tập tin Portable Executable Machine LearningTài liệu liên quan:
-
6 trang 216 0 0
-
9 trang 187 0 0
-
Constraints on preinflation fluctuations in a nearly flat open ΛCDM cosmology
8 trang 124 0 0 -
Hành trình tiếp nhận chủ nghĩa Mác – Lênin và tìm ra con đường cứu nước của Chủ tịch Hồ Chí Minh
5 trang 112 0 0 -
Nuclear energy system's behavior and decision making using machine learning
8 trang 112 0 0 -
Đổi mới đào tạo ngành Tài chính – Ngân hàng ở Việt Nam: Thực tiễn và bài học kinh nghiệm
6 trang 101 0 0 -
Đánh giá hiệu năng trong mạng có kết nối không liên tục DTN
8 trang 94 0 0 -
4 trang 82 0 0
-
7 trang 69 0 0
-
95 trang 68 0 0