Phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập
Số trang: 7
Loại file: pdf
Dung lượng: 726.89 KB
Lượt xem: 12
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết này đề xuất một phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập Convolutional Neural Networks (CNN) với dữ liệu đầu vào là ảnh ASM. Cụ thể, phương pháp dựa trên phần mềm dịch ngược để tạo ra tệp tin ASM và biểu diễn phần thông tin đặc tả cấu trúc của tệp tin dưới dạng chuỗi điểm ảnh.
Nội dung trích xuất từ tài liệu:
Phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00205 PHƯƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP Mạc Đình Hiếu1, Lê Ngọc Anh1, Trần Đức Hùng2, Trịnh Văn Hùng3, Ngô Minh Phƣớc3, Hà Quốc Trung3 1 Viện Công nghệ thông tin và Truyền thông, Trƣờng Đại học Bách khoa Hà Nội 2 Viện Hóa học môi trƣờng quân sự, Bộ Tƣ lệnh hóa học 3 Trung tâm Công nghệ thông tin, Bộ Khoa học và Công nghệ hieumd@soict.hust.edu.vn, anh.ln180008@sis.hust.edu.vn, minhhieu06042010@gmail.com, hungtv@most.gov.vn, phuocnm@most.gov.vn, trunghq@soict.hust.edu.vn TÓM TẮT: Bài báo này đề xuất một phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập Convolutional Neural Networks (CNN) với dữ liệu đầu vào là ảnh ASM. Cụ thể, phương pháp dựa trên phần mềm dịch ngược để tạo ra tệp tin ASM và biểu diễn phần thông tin đặc tả cấu trúc của tệp tin dưới dạng chuỗi điểm ảnh. Chuỗi điểm ảnh sau đó được cắt ngắn, biến đổi thành ảnh vuông đen trắng có kích thước nhỏ. Một kiến trúc CNN đơn giản cũng được triển khai để phân loại ảnh nhằm giảm thiểu khối lượng tính toán nhưng vẫn đảm bảo độ chính xác. Kết quả thử nghiệm trên bộ dữ liệu Microsoft Malware Classification Challenge (BIG 2015) đã chứng minh hiệu quả của phương pháp đề xuất với tỷ lệ phân loại đúng đạt 98,59 %, trong khi thời gian xử lý một mẫu mã độc trung bình là 0,0054 s trên máy tính có cấu hình phổ thông. Từ khóa: Phân loại mã độc, phân tích tĩnh, mạng nơron tích chập, học sâu. I. GIỚI THIỆU Mã độc là các chƣơng trình phần mềm độc hại đƣợc tin tặc tạo ra nhằm thực hiện các hành động bất hợp pháp nhƣ phá hoại các hệ thống máy tính, nghe lén, thu thập trái phép thông tin riêng tƣ của ngƣời dùng hoặc chiếm quyền điều khiển, biến các thiết bị thành các tác nhân để thực hiện các hành vi tấn công mạng khác [1]. Ngày này, mã độc đã trở thành một trong những mối nguy hiểm lớn nhất đối với không gian mạng nói chung và an toàn bảo mật của các hạ tầng thông tin nói riêng. Theo báo cáo của SYNMATEC, riêng năm 2017 đã có hơn 669 triệu mẫu mã độc mới và các biến thể của chúng đƣợc tin tặc phát triển và lây nhiễm trên toàn thế giới [2]. Rõ ràng, với hàng trăm triệu mã độc đang tồn tại và sự xuất hiện không ngừng của những mẫu mã độc mới với các kỹ thuật tấn công, lây nhiễm, che dấu ngày càng tinh vi đang tạo ra rất nhiều thách thức đối với các nhà nghiên cứu bảo mật. Phân tích tĩnh và phân tích động là hai kỹ thuật phổ biến dùng trong phát hiện mã độc. Phân tích tĩnh tập trung tìm ra các dấu hiệu của mẫu mã độc mà không cần phải thực thi chúng. Tuy nhiên, phân tích tĩnh đòi hỏi kinh nghiệm, kiến thức chuyên gia và đôi khi không khả thi do tin tặc sử dụng các kỹ thuật che giấu thông tin nhƣ mã hóa. Phân tích động tiến hành thực thi mã độc trong môi trƣờng có kiểm soát để quan sát, thu thập thông tin về quá trình hoạt động, tƣơng tác của mã độc với hệ điều hành, với dữ liệu của ngƣời dùng và với các tác nhân bên ngoài qua mạng Internet. Thông tin này sau đó đƣợc tổng hợp, khai phá để đƣa ra các đặc điểm hành vi bất thƣờng. Điểm hạn chế của phân tích động chủ yếu liên quan đến quá trình lựa chọn và triển khai môi trƣờng ảo hóa phù hợp cho mã độc. Ngoài ra, một trong những thách thức lớn đối với các nhà nghiên cứu bảo mật là việc tin tặc có thể dễ dàng tạo ra các biến thể khác nhau bằng một số thay đổi nhỏ trong mã nguồn. Để có thể bắt kịp với tốc độ phát triển của mã độc, cần có một cơ chế tự động cho phép xác định nhanh các mẫu khác nhau là thuộc cùng một họ mã độc. Các công trình khoa học về phân loại mã độc trƣớc đây [3], [4] chỉ ra rằng, mã độc nếu thuộc cùng một họ sẽ có những dấu hiệu giống nhau về cấu trúc, mã nguồn và hành vi cơ bản. Từ đó, một số nghiên cứu đã sử dụng các thuật toán học máy và xây dựng bộ phân loại với bộ dữ liệu mã độc đã biết để mô hình hóa các đặc trƣng, cho phép phát hiện một chƣơng trình là bình thƣờng hay độc hại hoặc phân biệt các họ mã độc với nhau. Việc ứng dụng thuật toán học máy giảm thiểu rất nhiều công sức của các nhà bảo mật trong việc phân tích mã độc so với với các phƣơng pháp truyền thống, đồng thời giúp tăng tỷ lệ phát hiện và phân loại mã độc [5]. Tuy nhiên, hiệu năng các phƣơng pháp học máy truyền thống phụ thuộc nhiều vào dữ liệu đầu vào, đƣợc trích chọn dựa trên kinh nghiệm của các chuyên gia [6]. Những năm gần đây, các kiến trúc mạng học sâu (Deep Learning) đã đem lại hiệu năng vƣợt trội trong rất nhiều các lĩnh vực khác nhau nhƣ xử lý ngôn ngữ tự nhiên, thị giác máy tính, nhận dạng giọng nói và cả trong lĩnh vực an toàn thông tin nhờ khả năng xử lý trực tiếp dữ liêu thô, tự động trích chọn các đặc trƣng ở nhiều cấp độ khác nhau cũng nhƣ khả năng tổng quát hóa cao [7-10]. Trong bài báo này, chúng tôi đề xuất áp dụng mạng nơron tích chập Convolutional Neural Networks (CNN) để phân loại nhanh mã độc tƣơng tự nhƣ các nghiên cứu [4-5], [11-12]. Ƣu điểm của phƣơng pháp này cho phép chuyển từ bài toán phân loại mã độc sang bài toán phân loại ảnh, từ đó xây dựng các công cụ phân loại mã độc tự động mà không yêu cầu tri thức sâu rộng của chuyên gia bảo mật. Điểm khác biệt của chúng tôi hay đóng góp chính của bài báo này là phƣơng pháp đề xuất chỉ sử dụng dữ liệu đầu vào là tệp tin ASM của mẫu mã độc đƣợc biểu diễn rút gọn dƣới dạng các ảnh đen trắng (chúng tôi gọi là ảnh ASM, phân biệt với ảnh mã độc là ảnh đƣợc chuyển đổi trực tiếp từ tệp nhị phân tƣơng ứng), sau đó đƣợc đƣa vào bộ phân loại sử dụng mạng CNN có kiến trúc mạng đơn giản để giảm khối lƣợng tính toán, tăn ...
Nội dung trích xuất từ tài liệu:
Phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00205 PHƯƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP Mạc Đình Hiếu1, Lê Ngọc Anh1, Trần Đức Hùng2, Trịnh Văn Hùng3, Ngô Minh Phƣớc3, Hà Quốc Trung3 1 Viện Công nghệ thông tin và Truyền thông, Trƣờng Đại học Bách khoa Hà Nội 2 Viện Hóa học môi trƣờng quân sự, Bộ Tƣ lệnh hóa học 3 Trung tâm Công nghệ thông tin, Bộ Khoa học và Công nghệ hieumd@soict.hust.edu.vn, anh.ln180008@sis.hust.edu.vn, minhhieu06042010@gmail.com, hungtv@most.gov.vn, phuocnm@most.gov.vn, trunghq@soict.hust.edu.vn TÓM TẮT: Bài báo này đề xuất một phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập Convolutional Neural Networks (CNN) với dữ liệu đầu vào là ảnh ASM. Cụ thể, phương pháp dựa trên phần mềm dịch ngược để tạo ra tệp tin ASM và biểu diễn phần thông tin đặc tả cấu trúc của tệp tin dưới dạng chuỗi điểm ảnh. Chuỗi điểm ảnh sau đó được cắt ngắn, biến đổi thành ảnh vuông đen trắng có kích thước nhỏ. Một kiến trúc CNN đơn giản cũng được triển khai để phân loại ảnh nhằm giảm thiểu khối lượng tính toán nhưng vẫn đảm bảo độ chính xác. Kết quả thử nghiệm trên bộ dữ liệu Microsoft Malware Classification Challenge (BIG 2015) đã chứng minh hiệu quả của phương pháp đề xuất với tỷ lệ phân loại đúng đạt 98,59 %, trong khi thời gian xử lý một mẫu mã độc trung bình là 0,0054 s trên máy tính có cấu hình phổ thông. Từ khóa: Phân loại mã độc, phân tích tĩnh, mạng nơron tích chập, học sâu. I. GIỚI THIỆU Mã độc là các chƣơng trình phần mềm độc hại đƣợc tin tặc tạo ra nhằm thực hiện các hành động bất hợp pháp nhƣ phá hoại các hệ thống máy tính, nghe lén, thu thập trái phép thông tin riêng tƣ của ngƣời dùng hoặc chiếm quyền điều khiển, biến các thiết bị thành các tác nhân để thực hiện các hành vi tấn công mạng khác [1]. Ngày này, mã độc đã trở thành một trong những mối nguy hiểm lớn nhất đối với không gian mạng nói chung và an toàn bảo mật của các hạ tầng thông tin nói riêng. Theo báo cáo của SYNMATEC, riêng năm 2017 đã có hơn 669 triệu mẫu mã độc mới và các biến thể của chúng đƣợc tin tặc phát triển và lây nhiễm trên toàn thế giới [2]. Rõ ràng, với hàng trăm triệu mã độc đang tồn tại và sự xuất hiện không ngừng của những mẫu mã độc mới với các kỹ thuật tấn công, lây nhiễm, che dấu ngày càng tinh vi đang tạo ra rất nhiều thách thức đối với các nhà nghiên cứu bảo mật. Phân tích tĩnh và phân tích động là hai kỹ thuật phổ biến dùng trong phát hiện mã độc. Phân tích tĩnh tập trung tìm ra các dấu hiệu của mẫu mã độc mà không cần phải thực thi chúng. Tuy nhiên, phân tích tĩnh đòi hỏi kinh nghiệm, kiến thức chuyên gia và đôi khi không khả thi do tin tặc sử dụng các kỹ thuật che giấu thông tin nhƣ mã hóa. Phân tích động tiến hành thực thi mã độc trong môi trƣờng có kiểm soát để quan sát, thu thập thông tin về quá trình hoạt động, tƣơng tác của mã độc với hệ điều hành, với dữ liệu của ngƣời dùng và với các tác nhân bên ngoài qua mạng Internet. Thông tin này sau đó đƣợc tổng hợp, khai phá để đƣa ra các đặc điểm hành vi bất thƣờng. Điểm hạn chế của phân tích động chủ yếu liên quan đến quá trình lựa chọn và triển khai môi trƣờng ảo hóa phù hợp cho mã độc. Ngoài ra, một trong những thách thức lớn đối với các nhà nghiên cứu bảo mật là việc tin tặc có thể dễ dàng tạo ra các biến thể khác nhau bằng một số thay đổi nhỏ trong mã nguồn. Để có thể bắt kịp với tốc độ phát triển của mã độc, cần có một cơ chế tự động cho phép xác định nhanh các mẫu khác nhau là thuộc cùng một họ mã độc. Các công trình khoa học về phân loại mã độc trƣớc đây [3], [4] chỉ ra rằng, mã độc nếu thuộc cùng một họ sẽ có những dấu hiệu giống nhau về cấu trúc, mã nguồn và hành vi cơ bản. Từ đó, một số nghiên cứu đã sử dụng các thuật toán học máy và xây dựng bộ phân loại với bộ dữ liệu mã độc đã biết để mô hình hóa các đặc trƣng, cho phép phát hiện một chƣơng trình là bình thƣờng hay độc hại hoặc phân biệt các họ mã độc với nhau. Việc ứng dụng thuật toán học máy giảm thiểu rất nhiều công sức của các nhà bảo mật trong việc phân tích mã độc so với với các phƣơng pháp truyền thống, đồng thời giúp tăng tỷ lệ phát hiện và phân loại mã độc [5]. Tuy nhiên, hiệu năng các phƣơng pháp học máy truyền thống phụ thuộc nhiều vào dữ liệu đầu vào, đƣợc trích chọn dựa trên kinh nghiệm của các chuyên gia [6]. Những năm gần đây, các kiến trúc mạng học sâu (Deep Learning) đã đem lại hiệu năng vƣợt trội trong rất nhiều các lĩnh vực khác nhau nhƣ xử lý ngôn ngữ tự nhiên, thị giác máy tính, nhận dạng giọng nói và cả trong lĩnh vực an toàn thông tin nhờ khả năng xử lý trực tiếp dữ liêu thô, tự động trích chọn các đặc trƣng ở nhiều cấp độ khác nhau cũng nhƣ khả năng tổng quát hóa cao [7-10]. Trong bài báo này, chúng tôi đề xuất áp dụng mạng nơron tích chập Convolutional Neural Networks (CNN) để phân loại nhanh mã độc tƣơng tự nhƣ các nghiên cứu [4-5], [11-12]. Ƣu điểm của phƣơng pháp này cho phép chuyển từ bài toán phân loại mã độc sang bài toán phân loại ảnh, từ đó xây dựng các công cụ phân loại mã độc tự động mà không yêu cầu tri thức sâu rộng của chuyên gia bảo mật. Điểm khác biệt của chúng tôi hay đóng góp chính của bài báo này là phƣơng pháp đề xuất chỉ sử dụng dữ liệu đầu vào là tệp tin ASM của mẫu mã độc đƣợc biểu diễn rút gọn dƣới dạng các ảnh đen trắng (chúng tôi gọi là ảnh ASM, phân biệt với ảnh mã độc là ảnh đƣợc chuyển đổi trực tiếp từ tệp nhị phân tƣơng ứng), sau đó đƣợc đƣa vào bộ phân loại sử dụng mạng CNN có kiến trúc mạng đơn giản để giảm khối lƣợng tính toán, tăn ...
Tìm kiếm theo từ khóa liên quan:
Phân loại mã độc Phân tích tĩnh Mạng nơron tích chập Tệp tin ASM Tệp tin dưới dạng chuỗi điểm ảnhGợi ý tài liệu liên quan:
-
Điều khiển xe tự lái sử dụng mạng noron tích chập tiên tiến
9 trang 37 0 0 -
11 trang 37 0 0
-
Tìm kiếm hình ảnh bằng phương pháp học sâu
8 trang 35 0 0 -
Phát hiện đối tượng dựa vào học sâu trên Raspberry Pi
8 trang 34 0 0 -
Giải pháp nhận dạng ký tự tiếng Trung viết tay dựa trên mạng nơron tích chập
6 trang 32 0 0 -
Một kỹ thuật định vị đối tượng trong hệ thống camera giám sát phục vụ theo dõi trực quang
7 trang 28 0 0 -
Tìm kiếm ảnh sử dụng mạng nơron tích chập và đồ thị phân cụm
14 trang 26 0 0 -
Ứng dụng sandbox phân tích mã độc trên môi trường phân tán
6 trang 24 0 0 -
Sử dụng kỹ thuật khai phá dữ liệu phần mềm độc hại từ mã lệnh
6 trang 22 0 0 -
30 trang 22 0 0