Phát hiện malware dựa trên header của tập tin PE sử dụng Machine learning
Số trang: 6
Loại file: pdf
Dung lượng: 742.88 KB
Lượt xem: 24
Lượt tải: 0
Xem trước 1 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết này trình bày cấu trúc phần PE header của các tập tin PE để đề xuất một hướng tiếp cận khác trong việc sử dụng Machine learning để phân loại các tập tin này, là tập tin mã độc hay tập tin lành tính. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Phát hiện malware dựa trên header của tập tin PE sử dụng Machine learning Phát hiện malware dựa trên header của tập tin PE sử dụng Machine learning Malware detection based on PE file header by using Machine learning Nguyễn Kim Tuấna*, Nguyễn Hoàng Hàb* Trường Đại học Duy Tân, 03 Quang Trung, Đà Nẵng, Việt Nam a, Trường Đại học Khoa học Huế, 77 Nguyễn Huệ, Huế, Việt Nm b a nguyenkimtuan@duytan.edu.vn, bnhha76@gmail.com, __________________________________________________________________________________________ Tóm tắt Trong bài báo này, chúng tôi dựa vào cấu trúc phần PE header của các tập tin PE để đề xuất một hướng tiếp cận khác trong việc sử dụng Machine learning để phân loại các tập tin này, là tập tin mã độc hay tập tin lành tính. Kết quả thực nghiệm cho thấy, tiếp cận đề xuất vẫn sử dụng thuật toán Random Forest cho bài toán phân loại nhưng độ chính xác và thời gian thực thi được cải thiện so với một số công bố gần đây (độ chính xác đạt 99.71%). Từ khóa: Tập tin PE; Trường; Đặc trưng; Mã độc; Thuật toán Random Forests; Abstract In this paper, we rely on the PE header structure of PE files to propose another approach in using Machine learning to classify these files, as malware files or benign files. Experimental results show that the proposed approach still uses Random Forest algorithm for the classification problem but the accuracy and execution time are improved compared to some recent publications (accuracy reaches 99.71%). Keywords: PE header, Field; Feature, Malware, Random Forsest Algorithm. 1. Giới thiệu Trong những năm trở lại đây, mã độc tập tin hoạt động trên môi trường hệ điều (malware) đã trở thành mối đe dọa đáng kể hành Windows, nó có thể là các tập tin thực đối với vấn đề bảo mật trên không gian mạng. thi (executable files) hoặc là các tập tin chứa Malware có thể tồn tại trong các thiết bị đầu mã nhị phân được sử dụng bởi các tập tin thực cuối, có thể truyền đi trên đường truyền mạng thi khác. Vùng thông tin định dạng (format và có thể đính kèm/ẩn trong các tập tin có thể information) của tập tin PE [1] chứa những thực thi, đặc biệt là trong các tập tin PE của thông tin cần thiết mà hệ điều hành sử dụng hệ điều hành Windows. Hiện có 2 kỹ thuật để điều khiển việc thực thi của tập tin khi được sử dụng để phát hiện malware [6]. Kỹ chúng được nạp vào main memory. Tất cả các thuật dựa trên chữ ký (Signature based tập tin PE đều có cùng cấu trúc và cùng số detection) tuy cho độ chính xác cao nhưng lượng trường (field) trong PE header, nên gặp nhiều khó khăn trước sự đa dạng và khả chúng ta có thể trích xuất các field này, để làm năng biến hình của các loại malware hiện nay. tập đặc trưng (feature) đầu vào cho quá trình Kỹ thuật không dựa trên chữ ký (Non- xây dựng mô hình phân loại malware của các signature based detection) có thể giải quyết tập tin này theo cách sử dụng các thuật toán khó khăn này, nó thường được sử dụng để Machine learning. phát hiện được các loại malware “chưa được Chúng ta đều biết, thông tin chứa trong biết đến” (unknown), các loại malware có khả PE header của các tập tin PE lành tính năng biến dạng cao xuất hiện gần đây… Kỹ (benign) đều ở dạng đã được chuẩn hóa bởi thuật này giúp việc phân loại, phát hiện hệ điều hành Windows. Nếu một tập tin PE malware hiện nay đạt hiệu quả cao khi được nào đó mà dữ liệu chứa trong các field trong triển khai theo hướng tiếp cận Machine PE header của nó có sự “sai khác” so với các learning. tập tin PE lành tính thì nhiều khả năng đó là Tập tin PE (Portable Executable) là các tập tin malware. Như vậy, chúng ta có thể 1 phân loại một tập tin PE, là tập tin malware dạng cao và tỷ lệ dương tính giả thấp với độ hay tập tin lành tính, bằng cách xem xét dữ chính xác 92%. liệu chứa trong các field của PE header của Jinrong Bai và cộng sự đề xuất một nó. Vì số lượng field trong PE header là lớn, hướng tiếp cận cho việc phát hiện malware dữ liệu tại các field lại có quan hệ với nhau, trong các tập tin PE bằng cách khai phá thông hầu hết các field đều có thể bị làm “sai khác”, tin định dạng của các tập tin này [1]. Kỹ thuật ở những mức độ khác nhau… nên bài toán “in-depth analysis” được nhóm tác giả chọn phát hiện malware ở đây cần tiếp cận theo để phân tích vùng thông tin định dạng của các hướng sử dụng các thuật toán Machine tập tin PE. Đầu tiên, họ cho trích xuất ra 197 learning thì mới đạt được độ chính xác cao đặc trưng từ vùng thông tin định dạng này, nhất có thể [1], [2], [4], [5], [6]. sau đó thực hiện việc chọn đặc trưng để giảm Chúng ta có thể thu thập một lượng lớn số lượng xuống còn 19 hoặc 20 đặc trưng. các mẫu PE header của các tập tin lành tính Tập đặc trưng được chọn sẽ được training bởi và tập tin ...
Nội dung trích xuất từ tài liệu:
Phát hiện malware dựa trên header của tập tin PE sử dụng Machine learning Phát hiện malware dựa trên header của tập tin PE sử dụng Machine learning Malware detection based on PE file header by using Machine learning Nguyễn Kim Tuấna*, Nguyễn Hoàng Hàb* Trường Đại học Duy Tân, 03 Quang Trung, Đà Nẵng, Việt Nam a, Trường Đại học Khoa học Huế, 77 Nguyễn Huệ, Huế, Việt Nm b a nguyenkimtuan@duytan.edu.vn, bnhha76@gmail.com, __________________________________________________________________________________________ Tóm tắt Trong bài báo này, chúng tôi dựa vào cấu trúc phần PE header của các tập tin PE để đề xuất một hướng tiếp cận khác trong việc sử dụng Machine learning để phân loại các tập tin này, là tập tin mã độc hay tập tin lành tính. Kết quả thực nghiệm cho thấy, tiếp cận đề xuất vẫn sử dụng thuật toán Random Forest cho bài toán phân loại nhưng độ chính xác và thời gian thực thi được cải thiện so với một số công bố gần đây (độ chính xác đạt 99.71%). Từ khóa: Tập tin PE; Trường; Đặc trưng; Mã độc; Thuật toán Random Forests; Abstract In this paper, we rely on the PE header structure of PE files to propose another approach in using Machine learning to classify these files, as malware files or benign files. Experimental results show that the proposed approach still uses Random Forest algorithm for the classification problem but the accuracy and execution time are improved compared to some recent publications (accuracy reaches 99.71%). Keywords: PE header, Field; Feature, Malware, Random Forsest Algorithm. 1. Giới thiệu Trong những năm trở lại đây, mã độc tập tin hoạt động trên môi trường hệ điều (malware) đã trở thành mối đe dọa đáng kể hành Windows, nó có thể là các tập tin thực đối với vấn đề bảo mật trên không gian mạng. thi (executable files) hoặc là các tập tin chứa Malware có thể tồn tại trong các thiết bị đầu mã nhị phân được sử dụng bởi các tập tin thực cuối, có thể truyền đi trên đường truyền mạng thi khác. Vùng thông tin định dạng (format và có thể đính kèm/ẩn trong các tập tin có thể information) của tập tin PE [1] chứa những thực thi, đặc biệt là trong các tập tin PE của thông tin cần thiết mà hệ điều hành sử dụng hệ điều hành Windows. Hiện có 2 kỹ thuật để điều khiển việc thực thi của tập tin khi được sử dụng để phát hiện malware [6]. Kỹ chúng được nạp vào main memory. Tất cả các thuật dựa trên chữ ký (Signature based tập tin PE đều có cùng cấu trúc và cùng số detection) tuy cho độ chính xác cao nhưng lượng trường (field) trong PE header, nên gặp nhiều khó khăn trước sự đa dạng và khả chúng ta có thể trích xuất các field này, để làm năng biến hình của các loại malware hiện nay. tập đặc trưng (feature) đầu vào cho quá trình Kỹ thuật không dựa trên chữ ký (Non- xây dựng mô hình phân loại malware của các signature based detection) có thể giải quyết tập tin này theo cách sử dụng các thuật toán khó khăn này, nó thường được sử dụng để Machine learning. phát hiện được các loại malware “chưa được Chúng ta đều biết, thông tin chứa trong biết đến” (unknown), các loại malware có khả PE header của các tập tin PE lành tính năng biến dạng cao xuất hiện gần đây… Kỹ (benign) đều ở dạng đã được chuẩn hóa bởi thuật này giúp việc phân loại, phát hiện hệ điều hành Windows. Nếu một tập tin PE malware hiện nay đạt hiệu quả cao khi được nào đó mà dữ liệu chứa trong các field trong triển khai theo hướng tiếp cận Machine PE header của nó có sự “sai khác” so với các learning. tập tin PE lành tính thì nhiều khả năng đó là Tập tin PE (Portable Executable) là các tập tin malware. Như vậy, chúng ta có thể 1 phân loại một tập tin PE, là tập tin malware dạng cao và tỷ lệ dương tính giả thấp với độ hay tập tin lành tính, bằng cách xem xét dữ chính xác 92%. liệu chứa trong các field của PE header của Jinrong Bai và cộng sự đề xuất một nó. Vì số lượng field trong PE header là lớn, hướng tiếp cận cho việc phát hiện malware dữ liệu tại các field lại có quan hệ với nhau, trong các tập tin PE bằng cách khai phá thông hầu hết các field đều có thể bị làm “sai khác”, tin định dạng của các tập tin này [1]. Kỹ thuật ở những mức độ khác nhau… nên bài toán “in-depth analysis” được nhóm tác giả chọn phát hiện malware ở đây cần tiếp cận theo để phân tích vùng thông tin định dạng của các hướng sử dụng các thuật toán Machine tập tin PE. Đầu tiên, họ cho trích xuất ra 197 learning thì mới đạt được độ chính xác cao đặc trưng từ vùng thông tin định dạng này, nhất có thể [1], [2], [4], [5], [6]. sau đó thực hiện việc chọn đặc trưng để giảm Chúng ta có thể thu thập một lượng lớn số lượng xuống còn 19 hoặc 20 đặc trưng. các mẫu PE header của các tập tin lành tính Tập đặc trưng được chọn sẽ được training bởi và tập tin ...
Tìm kiếm theo từ khóa liên quan:
Tạp chí Khoa học và Công nghệ Khoa học Kỹ thuật và Công nghệ Cấu trúc phần PE header Tập tin PE Thuật toán Random ForestGợi ý tài liệu liên quan:
-
15 trang 209 0 0
-
9 trang 149 0 0
-
Phân tích và so sánh các loại pin sử dụng cho ô tô điện
6 trang 92 0 0 -
10 trang 89 0 0
-
Hội nhập quốc tế trong lĩnh vực pháp luật sở hữu trí tuệ của Việt Nam
4 trang 82 0 0 -
Ảnh hưởng các tham số trong bảng sam điều kiện đối với phương pháp điều khiển sử dụng đại số gia tử
9 trang 65 0 0 -
5 trang 62 0 0
-
Đánh giá việc sử dụng xi măng thay thế bột khoáng nhằm cải thiện tính năng của bê tông nhựa nóng
5 trang 51 0 0 -
15 trang 51 0 0
-
Mô hình quá trình kết tụ hạt dưới ảnh hưởng của sóng siêu âm trong hệ thống lọc bụi ly tâm
4 trang 43 0 0