Danh mục

Tìm kiếm hình ảnh bằng phương pháp học sâu

Số trang: 8      Loại file: pdf      Dung lượng: 690.46 KB      Lượt xem: 34      Lượt tải: 0    
tailieu_vip

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này trình bày một phương pháp tìm kiếm hình ảnh bằng phương pháp học sâu CNN và độ đo tương đồng Cosine. Các kết quả thực nghiệm trên tập dữ liệu CIFAR-10 cho thấy phương pháp có tiềm năng ứng dụng trong thực tế.
Nội dung trích xuất từ tài liệu:
Tìm kiếm hình ảnh bằng phương pháp học sâu Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0067 TÌM KIẾM HÌNH ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU Bùi Thanh Hùng, Phạm Hoàng Phương Lab Phân tích dữ liệu và Trí tuệ nhân tạo, Viện Kỹ thuật Công nghệ, Đại học Thủ Dầu Một Số 6 Trần Văn Ơn, phường Phú Hòa, thành phố Thủ Dầu Một, Bình Dương hungbt.cntt@tdmu.edu.vn, phuongspkt@gmail.com TÓM TẮT: Tìm kiếm thông tin là một trong những nhu cầu cần thiết của con người. Bài toán này có nhiều ứng dụng trong thực tế. Trước đây, hình thức tìm kiếm chủ đạo là tìm kiếm bằng từ khóa với ưu điểm là đơn giản và dễ dùng, tuy nhiên đôi khi lại không đủ khả năng để diễn tả toàn bộ ý muốn của con người. Trong những năm gần đây, cùng với sự phát triển của khoa học công nghệ, việc tìm kiếm bằng hình ảnh đã bắt đầu được nghiên cứu và áp dụng. Bài báo này trình bày một phương pháp tìm kiếm hình ảnh bằng phương pháp học sâu CNN và độ đo tương đồng Cosine. Các kết quả thực nghiệm trên tập dữ liệu CIFAR-10 cho thấy phương pháp có tiềm năng ứng dụng trong thực tế. Từ khóa: Tìm kiếm hình ảnh, nhận dạng hình ảnh, học sâu, mạng nơron tích chập, cosine similarity. I. GIỚI THIỆU Cùng với sự phát triển vượt trội của các công nghệ kỹ thuật số và sự phổ biến rộng rãi các thiết bị quay phim, chụp ảnh dẫn đến kho dữ liệu ảnh lưu trữ trên Web cũng tăng theo một cách nhanh chóng. Mary Meeker, một chuyên gia về phân tích Internet và công nghệ thuộc Đại học Cornell (Mỹ) trong báo cáo thường niên về xu hướng Internet cho biết: “Chúng ta đã tải lên mạng trung bình khoảng 1,8 tỷ ảnh số trong một ngày và 657 tỷ bức ảnh trong một năm. Có nghĩa là cứ mỗi hai phút thì số lượng ảnh chúng ta chụp sẽ nhiều hơn tổng số ảnh đã có của 150 năm về trước” (Meeker, 2014). Đây là một thách thức lớn cho việc tổ chức và tìm kiếm ảnh theo cách truyền thống. Vì vậy, việc xây dựng một hệ thống tìm kiếm ảnh là một điều cấp bách và cần thiết. Các hệ thống tìm kiếm ảnh hiện tại thường sử dụng phương pháp là tìm kiếm ảnh theo các văn bản đi kèm với ảnh (metadata) giúp cho việc tìm kiếm đơn giản và hiệu quả. Tuy nhiên, phương pháp tìm kiếm ảnh này vẫn còn một số hạn chế làm cho kết quả tìm kiếm chưa chính xác hoặc chưa làm hài lòng hoàn toàn người sử dụng. Đối với phương pháp tìm kiếm ảnh dựa trên văn bản hoặc các mô tả (metadata) kèm theo ảnh sẽ không chính xác khi các mô tả này bị sai sót hoặc không tồn tại. Kế đến là phương pháp tìm kiếm ảnh theo nội dung “truyền thống” thường dựa vào các đặc trưng trực quan như màu sắc, kết cấu, hình dạng, đặc trưng cục bộ được rút trích từ ảnh. Phương pháp này có hạn chế là làm cách nào để xác định và chọn ra được những đặc trưng đại diện có ảnh hưởng cao đến độ chính xác của kết quả tìm kiếm. Quá trình chọn lựa này sẽ gây mất nhiều thời gian trong quá trình xây dựng hệ thống; ngoài ra, còn phát sinh vấn đề do sự cách biệt ngữ nghĩa (semantic gap) giữa đặc trưng ở mức thấp dưới dạng các pixel ảnh và mức khái niệm cao theo sự chấp nhận của con người như chó, mèo,... Trong những năm gần đây, các phương pháp học sâu bao gồm mạng nơron tích chập đã đạt được thành công lớn trong giải quyết nhiều bài toán. Phương pháp này đã được chứng minh là rất hiệu quả trong lĩnh vực thị giác máy tính và xử lý hình ảnh như: phát hiện người đi bộ [1], phát hiện khuôn mặt [2], phân loại hình ảnh [3] và tô màu hình ảnh tự động [4]. CNN đã được áp dụng để truy xuất hình ảnh [5-8]. Kiapour và cộng sự [9] đã tiến hành nghiên cứu tìm kiếm sản phẩm quần áo thời trang bằng hình ảnh tương tự trên trang web thương mại điện tử. Nhóm tác giả đã thực hiện và so sánh một số phương pháp, trong đó nổi bật nhất là phương pháp sử dụng mạng CNN hai lớp ẩn và thực nghiệm trên bộ dữ liệu Exact Street2Shop. Nhóm tác giả Mahmmod và cộng sự đề xuất sử dụng các khía cạnh tính toán của đa thức Krawtchouk cho các đơn hàng cao [10]. Các công cụ tìm kiếm như Google, Bing hay mạng xã hội Pinterest cũng đã nghiên cứu và áp dụng mạng nơron học sâu vào việc truy xuất hình ảnh. Nghiên cứu này của chúng tôi khác so với các nghiên cứu khác, chúng tôi áp dụng phương pháp xây dựng hệ thống tìm kiếm ảnh theo nội dung dựa trên mô hình học sâu- mạng nơron tích chập (Convolution Neural Networks - CNN) tự xây dựng để trích xuất đặc trưng và phân lớp đối tượng kết hợp với độ đo tương đồng Cosine (cosine similarity) để tính độ tương đồng của ảnh. Chúng tôi cũng xây dựng thử nghiệm hệ thống tìm kiếm bằng hình ảnh, trong đó người dùng có thể cung cấp một hình ảnh bất kỳ và hệ thống sẽ trả về danh sách các hình ảnh với các mức độ tương đồng (tương tự) được sắp xếp từ cao xuống thấp. II. MÔ HÌNH ĐỀ XUẤT Mô hình đề xuất gồm mô hình huấn luyện (Train) và mô hình kiểm tra (Test) trong đó mô hình học sâu CNN là framework để trích xuất đặc trưng. Dữ liệu ban đầu được chia thành hai phần để Tran và Test. Ảnh trong tập dữ liệu đã được chọn lọc trước đó sẽ đi qua các bộ lọc để thực hiện phép tích chập. Tiếp đến sử dụng phép giảm mẫu tối đa để giữ lại những đặc trưng tiêu biểu của ảnh. Thực hiện tích chập và giảm mẫu như vậy cho đến khi ảnh có kích thước đủ nhỏ thì thực hiện làm phẳng nó thành một véctơ. Sau đó, véctơ này sẽ đi qua các lớp liên kết đầy đủ (fully-connected) sẽ thu được kết quả là đặc trưng đại diện cho ảnh. Sơ đồ tổng quan của mô hình đề xuất được trình bày trong Hình 1. 260 TÌM KIẾM HÌNH ẢNH BẰNG PHƯƠNG PHÁP HỌC SÂU Ảnh huấn luyện Top k ảnh Ảnh truy vấn Mô hình CNN tự Sắp xếp theo Mô ...

Tài liệu được xem nhiều: