Danh mục

Caption Image - chuyển đổi dạng lưu trữ video về dạng text

Số trang: 6      Loại file: pdf      Dung lượng: 304.35 KB      Lượt xem: 15      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (6 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết nghiên cứu về cách áp dụng các thành tựu của tự động mô tả nội dung hình ảnh vào việc quản lý, lưu trữ và trích xuất video một cách hiệu quả hơn. Để hiểu rõ hơn mời các bạn cùng tham khảo nội dung chi tiết bài viết này.
Nội dung trích xuất từ tài liệu:
Caption Image - chuyển đổi dạng lưu trữ video về dạng text CAPTION IMAGE - CHUYỂN ĐỔI DẠNG LƯ TRỮ VIDEO VỀ DẠNG TEXT Lê Thị Kim Băng, Đỗ Quốc Bảo, Võ Văn Linh, Nguyễn Phước Đại, Nguyễn Văn Chinh, Nguyễn Thị Mai Phương Khoa Công nghệ Thông tin, Trường Đại học Công nghệ TP.Hồ Chí Minh GVHD: CN. Nguyễn Mạnh Hùng, ThS. Nguyễn Đô P ươ TÓM TẮT Tự động mô tả nội dung của một hình ảnh là một vấn đề cơ bản trong lĩnh vực trí tuệ nhân tạo kết nối giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên. Các tiến bộ gần đây trong lĩnh vực trí tuệ nhân tạo đã cải thiện đáng kể hiệu suất của các mô hình. Tuy nhiên, các ứng dụng của tự động mô tả nội dung của một hình ảnh vẫn còn chưa rõ ràng và thực tế. ưu trữ và quản lý các video là một công việc quan trọng trong nhiều lĩnh vực, vấn đề này đặc biệt nảy sinh đối với các lĩnh vực đòi hỏi phải lưu trữ video liên tục và truy xuất trong một lượng lớn video, camera an ninh chính là một ví dụ điển hình trong trường hợp này. Trong bài báo này, chúng tôi nghiên cứu về cách áp dụng các thành tựu của tự động mô tả nội dung hình ảnh vào việc quản lý, lưu trữ và trích xuất video một cách hiệu quả hơn. Từ khóa: Image captioning, word embedding, video processing, LSTM, model inception v3. ABSTRACT Automatically describing the content of an image is a fundamental problem in artificial intelligence that connects computer vision and natural language processing. Recent progress in artificial intelligence (AI) has greatly improved the performance of models. However, the application of automatically describing the content of an image is still unclear and realistic. Storing and managing videos is an important task in many fields, especially problems for areas that require continuous video storage and retrieval in a large number of video, and security cameras are a prime example in this case. In this paper, we study how to apply the achievements of image caption generator to managing, storing and extracting videos more effectively. Keywords: Image captioning, word embedding, video processing, LSTM, model inception v3. 1 GI I THIỆU Thị giác máy tính và xử lý ngôn ngữ tự nhiên là hai lĩnh vực riêng biệt trong trí tuệ nhân tạo nhưng đã được kết hợp để tạo ra các nghiên cứu mới, tự động mô tả nội dung hình ảnh chính là một trong số đó. Các nghiên cứu mới gần đây đã mang lại những mô tả ngày càng chính xác hơn. Trong công việc lưu trữ, quản lý và truy xuất video, có hai câu hỏi được đặt ra: Làm thế nào để lưu trữ những video, phân cảnh có chứa nội dung cần lưu trữ dựa theo mục đích lưu trữ của lĩnh vực để mang lại hiệu quả trong việc lưu trữ và quản lý như tiết kiệm bộ nhớ, lưu trữ theo thể loại – nội dung 76 – đối tượng,…? Làm thế nào để có thể truy xuất tới phân cảnh, thời điểm có chứa nội dung, mô tả được đưa ra một cách hiệu quả và nhanh nhất so với truy xuất thủ công, đặc biệt là trong các video có thời lượng dài? Chúng tôi đã sử dụng kết quả đạt được từ tự động mô tả nội dung hình ảnh để giải quyết hai câu hỏi trên. 2 P ƯƠN ÁN TIẾP CẬN Hình 1. Mô hình của chương trình 2.1 Model Inception V3 Mạng Inception gồm các đơn vị gọi là ‚inception cell‛ - phép tích chập 1 đầu vào với nhiều bộ lọc khác nhau rồi tổng hợp lại, theo nhiều nhánh. Tại sao lại chọn model Inception V3? – Với mỗi 1 cell, sử dụng các 1x1, 3x3, 5x5 bộ lọc để lấy ra các thuộc tính từ đầu vào. Giảm số lượng tham số của mô hình dẫn đến chi phí tính toán sẽ tiết kiệm hơn. – Inception có một đặc điểm khá hay là có thêm 2 đầu ra phụ. Nó giúp cho việc huấn luyện diễn ra nhanh hơn khi tối ưu những lớp đầu dựa vào các đầu ra phụ. Các lớp càng gần cuối càng ít được tối ưu ngay vì vậy chưa cần thiết phải tối ưu ngay. Sau một thời gian tối ưu các lớp đầu rồi mới tối ưu các lớp tiếp theo dựa vào đầu vào cuối cùng. Việc này cải thiện khả năng tính toán và tốc độ huấn luyện khá nhiều. 77 Bảng 1. So sánh giữa một số mô hình bắt đối tượng trong ảnh [11] Model Size Top-1 Accuracy Top-5 Accuracy Parameters Xception 88MB 0.790 0.945 22, 910, 480 VGG19 549MB 0.713 0.900 143, 667, 240 ResNet101 171MB 0.764 0.928 44, 707, 176 InceptionV3 92MB 0.779 0.937 23, 851, 784 InceptionResNetV2 215MB 0.803 0.953 55, 873, 763 MobileNet 16MB 0.704 0.895 4, 253, 864 2.2 Word embedding Glove -Global Vectors, là một mô hình cho biểu diễn từ phân tán. Mô hình này là một thuật toán học tập không giám sát để có được các biểu diễn vectơ cho các từ. Điều này đạt được bằng cách ánh xạ các từ vào một không gian có ý nghĩa trong đó khoảng cách giữa các từ có liên quan đến sự giống nhau về ngữ nghĩa, có thể rút ra mối quan hệ ngữ nghĩa giữa các từ trong ma trận xuất hiện. Đào tạo được thực hiện trên các số liệu thống kê về sự xuất hiện của từ từ một kho văn bản và các biểu diễn kết quả thể hiện các cấu trúc tuyến tính của không gian vectơ từ. Là mô hình hồi quy log- bilinear cho việc học từ đại diện không giám sát, nó kết hợp các tính năng của hai họ mô hình, cụ thể là nhân tố ma trận (the global matrix factorization) và phương pháp cửa sổ ngữ cảnh cục bộ (local context window methods). Mô hình GloVe được chúng tôi sử dụng trong việc embedding các từ và tạo ma trận embedding cho bảng từ vựng với mỗi từ embeddi ...

Tài liệu được xem nhiều:

Tài liệu liên quan: