Mối quan hệ giữa số lượng bản đồ đặc trưng và hiệu suất của mạng CNN
Số trang: 9
Loại file: pdf
Dung lượng: 290.04 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết trình bày mối quan hệ giữa số lượng bản đồ đặc trưng và hiệu suất của mạng CNN; Đề xuất/cải tiến một mô hình bằng cách xây dựng một lớp mới gọi là “Reduced Dimension” để giảm số lượng bản đồ đặc trưng trên các mạng CNN.
Nội dung trích xuất từ tài liệu:
Mối quan hệ giữa số lượng bản đồ đặc trưng và hiệu suất của mạng CNN MỐI QUAN HỆ GIỮA SỐ LƯỢNG BẢN ĐỒ ĐẶC TRƯNG VÀ HIỆU SUẤT CỦA MẠNG CNN Phùng Thị Thu Trang1 Tóm tắt: Mạng thần kinh tích chập (Convolutional neural network - CNN) đã đạtđược những thành tựu to lớn trong thị giác máy tính. Các mô hình sử dụng CNN đượcthiết kế để ngày càng sâu hơn, sử dụng nhiều bản đồ đặc trưng hơn để trích xuất nhiềutính năng từ hình ảnh đầu vào. Trong công việc này, chúng tôi đề xuất/cải tiến một môhình bằng cách xây dựng một lớp mới gọi là “Reduced Dimension” để giảm số lượngbản đồ đặc trưng trên các mạng CNN. Công việc này giúp cho các mô hình nhẹ hơn vàchi phí tính toán ít hơn. Kết quả thử nghiệm trên một số kiến trúc mạng khác nhau chothấy “Lớp giảm kênh” hoạt động tốt trên các mô hình sử dụng kĩ thuật sử dụng kết nối tắtđồng nhất như ResNet. Từ khóa: Học sâu, Mạng thần kính tích chập, Lớp giảm kênh, Thị giác máy tính. 1. Giới thiệu Học máy, đặc biệt là học sâu, đã đạt được những thành tựu to lớn trong nhiều lĩnhvực gần đây. Các mô hình được xây dựng dựa trên mạng thần kinh tích chập đã đạt đượchiệu suất cao. Ví dụ, Alex và các cộng sự. [1] đã xây dựng mạng có tên AlexNet đã giànhchiến thắng trong cuộc thi nhận dạng đối tượng (ImageNet) với độ chính xác 57% top-1 và 80.3% top-5 vào năm 2012. Trong các năm tiếp theo, nhiều mô hình biến thể dựatrên CNN, như ZFNet [2] năm 2013, GoogleNet [3] năm 2014, VGGNet [4] năm 2014,ResNet [5] năm 2015, đã giành chiến thắng trong cuộc thi này. Ngoài phân loại hình ảnh,CNN thường được áp dụng cho nhiều bài toán về xử lý ảnh và thi giác máy tính như pháthiện đa đối tượng, chú thích hình ảnh, phân đoạn hình ảnh... Tuy nhiên, những mô hình được liệt kê ở trên được xây dựng với một số tham sốlớn và chi phí tính toán phức tạp. Ví dụ, vào năm 2012 mạng AlexNet đã sử dụng 60 triệutham số và 727 triệu phép tính (727 triệu FLOP – FLOP được sử dụng theo như bài báo[8]). Năm 2014, VGG Net sử dụng 138 triệu tham số và xấp xỉ 30 tỷ phép tính. Với mộtsố lượng lớn tham số và chi phí tính toán như vậy thì các mô hình sẽ gặp khó khăn lớnkhi chạy với thời gian thực hoặc trên các thiết bị nhúng mà không có GPU hỗ trợ. Do đó,xây dựng các mô hình nhẹ là một yếu tố rất quan trọng với chi phí tính toán thấp các môhình nhẹ dễ dàng chạy trong thời gian thực và trên các thiết bị nhúng. Hơn nữa, các môhình nhẹ vẫn có thể đạt được độ chính xác xấp xỉ như các mô hình sâu. Gần đây, đã cómột số mô hình nhẹ được công bố như MobileNet [6], MobileNet V2 [7], ShuffleNet [8],ShuffleNet V2 [9], v.v. Trong bài báo này, chúng tôi trình bày một cách tiếp cận mới để giảm số lượngtham số và chi phí tính toán của các mô hình CNN. Chúng tôi tiến hành thử nghiệm với 31 ThS., Trường ĐH Thái Nguyên 106 Phùng Thị Thu Trangloại mạng phổ biến được sử dụng gần đây là: CNN cơ bản, Depthwise CNN và ResidualCNN. Kết quả thử nghiệm cho thấy số lượng tham số và FLOPs có thể giảm gấp , , và độchính xác cũng đạt gần tương tự lần so với các mô hình gốc. Đóng góp chính của chúngtôi trong bài báo này là: (1) Đề xuất một tầng mới mang tên Reduced Dimension có tác dụng làm giảm sốlượng tham số và FLOPs. (2) Qua phân tích và đánh giá, chúng tôi thấy rằng Reduced Dimension Layer thíchhợp với kiến trúc của mạng ResNet, hiệu suất của mô hình giảm đi không đáng kể nhưngtốc độ thực hiện nhanh hơn nhiều lần. Phần còn lại của bài báo được tổ chức như sau: Phần 2 cung cấp đánh giá về cáccông việc liên quan. Cách tiếp cận mới được đề xuất trong phần 3 bao gồm mô tả chitiết tầng Reduced Dimension và các mô hình được sử dụng để thử nghiệm. Kết quả thửnghiệm, so sánh và phân tích được trình bày trong phần 4 và kết luận được đưa ra trongphần 5. 2. Các công trình liên quan Alexnet đã được đề xuất vào năm 2012 bởi Alex krizhesky cùng các cộng sự [1].Trong năm đó, AlexNet đã giành chiến thắng trong cuộc thi ImageNet với tỷ lệ lỗi top 5thấp hơn 11% so với mô hình ở vị trí thứ hai. AlexNet được xây dựng dựa trên kiến trúccủa mạng LeNet nhưng thay vì sử dụng hàm kích hoạt tanh, tác giả đã đề xuất hàm kíchhoạt ReLU để có tốc độ hội tụ nhanh hơn và chính xác hơn. Sau thành công của AlexNet,ZFNet [2] đã giành chiến thắng vào năm 2013 với tỷ lệ lỗi xác thực top 5 là 16,5%. ZFNetđược cải thiện từ AlexNet bằng cách sử dụng kích thước bộ lọc 7 7 và stride = 2 tronglớp tích chập thứ nhất thay vì kích thước bộ lọc 11 11 và stride = 4 như trong Alexnet.VGGNet được xuất bản bởi Karen Simonyan và Andrew Zisserman [4], VGGNet sửdụng bộ lọc 3 3 thay vì kích thước lớn hơn, giúp giảm số lượng tham số được sử dụngtrong mô hình. Tuy nhiên, VGGNet vẫn được coi là một mô hình rất lớn với số lượngtham số lần lượt là 138 triệu và 144 triệu tương ứng với VGG-16 và VGG-19. Khônggiống như VGGNet, GoogleNet (Incep ...
Nội dung trích xuất từ tài liệu:
Mối quan hệ giữa số lượng bản đồ đặc trưng và hiệu suất của mạng CNN MỐI QUAN HỆ GIỮA SỐ LƯỢNG BẢN ĐỒ ĐẶC TRƯNG VÀ HIỆU SUẤT CỦA MẠNG CNN Phùng Thị Thu Trang1 Tóm tắt: Mạng thần kinh tích chập (Convolutional neural network - CNN) đã đạtđược những thành tựu to lớn trong thị giác máy tính. Các mô hình sử dụng CNN đượcthiết kế để ngày càng sâu hơn, sử dụng nhiều bản đồ đặc trưng hơn để trích xuất nhiềutính năng từ hình ảnh đầu vào. Trong công việc này, chúng tôi đề xuất/cải tiến một môhình bằng cách xây dựng một lớp mới gọi là “Reduced Dimension” để giảm số lượngbản đồ đặc trưng trên các mạng CNN. Công việc này giúp cho các mô hình nhẹ hơn vàchi phí tính toán ít hơn. Kết quả thử nghiệm trên một số kiến trúc mạng khác nhau chothấy “Lớp giảm kênh” hoạt động tốt trên các mô hình sử dụng kĩ thuật sử dụng kết nối tắtđồng nhất như ResNet. Từ khóa: Học sâu, Mạng thần kính tích chập, Lớp giảm kênh, Thị giác máy tính. 1. Giới thiệu Học máy, đặc biệt là học sâu, đã đạt được những thành tựu to lớn trong nhiều lĩnhvực gần đây. Các mô hình được xây dựng dựa trên mạng thần kinh tích chập đã đạt đượchiệu suất cao. Ví dụ, Alex và các cộng sự. [1] đã xây dựng mạng có tên AlexNet đã giànhchiến thắng trong cuộc thi nhận dạng đối tượng (ImageNet) với độ chính xác 57% top-1 và 80.3% top-5 vào năm 2012. Trong các năm tiếp theo, nhiều mô hình biến thể dựatrên CNN, như ZFNet [2] năm 2013, GoogleNet [3] năm 2014, VGGNet [4] năm 2014,ResNet [5] năm 2015, đã giành chiến thắng trong cuộc thi này. Ngoài phân loại hình ảnh,CNN thường được áp dụng cho nhiều bài toán về xử lý ảnh và thi giác máy tính như pháthiện đa đối tượng, chú thích hình ảnh, phân đoạn hình ảnh... Tuy nhiên, những mô hình được liệt kê ở trên được xây dựng với một số tham sốlớn và chi phí tính toán phức tạp. Ví dụ, vào năm 2012 mạng AlexNet đã sử dụng 60 triệutham số và 727 triệu phép tính (727 triệu FLOP – FLOP được sử dụng theo như bài báo[8]). Năm 2014, VGG Net sử dụng 138 triệu tham số và xấp xỉ 30 tỷ phép tính. Với mộtsố lượng lớn tham số và chi phí tính toán như vậy thì các mô hình sẽ gặp khó khăn lớnkhi chạy với thời gian thực hoặc trên các thiết bị nhúng mà không có GPU hỗ trợ. Do đó,xây dựng các mô hình nhẹ là một yếu tố rất quan trọng với chi phí tính toán thấp các môhình nhẹ dễ dàng chạy trong thời gian thực và trên các thiết bị nhúng. Hơn nữa, các môhình nhẹ vẫn có thể đạt được độ chính xác xấp xỉ như các mô hình sâu. Gần đây, đã cómột số mô hình nhẹ được công bố như MobileNet [6], MobileNet V2 [7], ShuffleNet [8],ShuffleNet V2 [9], v.v. Trong bài báo này, chúng tôi trình bày một cách tiếp cận mới để giảm số lượngtham số và chi phí tính toán của các mô hình CNN. Chúng tôi tiến hành thử nghiệm với 31 ThS., Trường ĐH Thái Nguyên 106 Phùng Thị Thu Trangloại mạng phổ biến được sử dụng gần đây là: CNN cơ bản, Depthwise CNN và ResidualCNN. Kết quả thử nghiệm cho thấy số lượng tham số và FLOPs có thể giảm gấp , , và độchính xác cũng đạt gần tương tự lần so với các mô hình gốc. Đóng góp chính của chúngtôi trong bài báo này là: (1) Đề xuất một tầng mới mang tên Reduced Dimension có tác dụng làm giảm sốlượng tham số và FLOPs. (2) Qua phân tích và đánh giá, chúng tôi thấy rằng Reduced Dimension Layer thíchhợp với kiến trúc của mạng ResNet, hiệu suất của mô hình giảm đi không đáng kể nhưngtốc độ thực hiện nhanh hơn nhiều lần. Phần còn lại của bài báo được tổ chức như sau: Phần 2 cung cấp đánh giá về cáccông việc liên quan. Cách tiếp cận mới được đề xuất trong phần 3 bao gồm mô tả chitiết tầng Reduced Dimension và các mô hình được sử dụng để thử nghiệm. Kết quả thửnghiệm, so sánh và phân tích được trình bày trong phần 4 và kết luận được đưa ra trongphần 5. 2. Các công trình liên quan Alexnet đã được đề xuất vào năm 2012 bởi Alex krizhesky cùng các cộng sự [1].Trong năm đó, AlexNet đã giành chiến thắng trong cuộc thi ImageNet với tỷ lệ lỗi top 5thấp hơn 11% so với mô hình ở vị trí thứ hai. AlexNet được xây dựng dựa trên kiến trúccủa mạng LeNet nhưng thay vì sử dụng hàm kích hoạt tanh, tác giả đã đề xuất hàm kíchhoạt ReLU để có tốc độ hội tụ nhanh hơn và chính xác hơn. Sau thành công của AlexNet,ZFNet [2] đã giành chiến thắng vào năm 2013 với tỷ lệ lỗi xác thực top 5 là 16,5%. ZFNetđược cải thiện từ AlexNet bằng cách sử dụng kích thước bộ lọc 7 7 và stride = 2 tronglớp tích chập thứ nhất thay vì kích thước bộ lọc 11 11 và stride = 4 như trong Alexnet.VGGNet được xuất bản bởi Karen Simonyan và Andrew Zisserman [4], VGGNet sửdụng bộ lọc 3 3 thay vì kích thước lớn hơn, giúp giảm số lượng tham số được sử dụngtrong mô hình. Tuy nhiên, VGGNet vẫn được coi là một mô hình rất lớn với số lượngtham số lần lượt là 138 triệu và 144 triệu tương ứng với VGG-16 và VGG-19. Khônggiống như VGGNet, GoogleNet (Incep ...
Tìm kiếm theo từ khóa liên quan:
Mạng thần kính tích chập Lớp giảm kênh Thị giác máy tính Tầng Reduced Dimension Mô hình CNNTài liệu liên quan:
-
Bài giảng Học sâu và ứng dụng - Bài 7: Một số ứng dụng học sâu trong thị giác máy (Phần 1)
64 trang 198 0 0 -
Giáo trình Thị giác máy tính và ứng dụng: Phần 2
92 trang 172 0 0 -
9 trang 89 0 0
-
Độ chính xác nhận dạng trong mô hình Faster R-CNN khi có nhiễu
5 trang 60 0 0 -
Giáo trình Mạng nơ ron học sâu và ứng dụng: Phần 2
53 trang 41 0 0 -
11 trang 41 0 0
-
Nhận dạng tín hiệu ra đa LPI sử dụng mạng nơ ron học sâu
6 trang 41 0 0 -
Cải tiến một số thuật toán heuristic giải bài toán clique lớn nhất
9 trang 39 0 0 -
Giáo trình Thị giác máy tính và ứng dụng: Phần 1
70 trang 36 0 0 -
Mô hình Deep Learning trong nhận diện cảm xúc và cảnh báo stress
3 trang 35 0 0