Một phương pháp tra cứu ảnh học biểu diễn và học đa tạp cho giảm chiều với thông tin từ người dùng
Số trang: 8
Loại file: pdf
Dung lượng: 776.79 KB
Lượt xem: 14
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất một phương pháp tra cứu ảnh RMLIR hiệu quả cho phép cải thiện kết quả độ chính xác. Phương pháp của chúng tôi khai thác việc học biểu diễn ảnh bằng cách tận dụng một mô hình học sâu đã huấn luyện với tập dữ liệu lớn và tận dụng thông tin phản hồi của người dùng giải quyết vấn đề chiều đặc trưng lớn so với số mẫu phản hồi thông qua học đa tạp cho giảm chiều
Nội dung trích xuất từ tài liệu:
Một phương pháp tra cứu ảnh học biểu diễn và học đa tạp cho giảm chiều với thông tin từ người dùng Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00039 MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HỌC BIỂU DIỄN VÀ HỌC ĐA TẠP CHO GIẢM CHIỀU VỚI THÔNG TIN TỪ NGƯỜI DÙNG Cù Việt Dũng1, Nguyễn Hữu Quỳnh1, Ngô Quốc Tạo2, Trần Thị Minh Thu1 1 Khoa Công nghệ thông tin, Trƣờng Đại học Điện lực, 2 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam dungcv@epu.edu.vn, nhquynh@epu.edu.vn, thuttm@epu.edu.vn TÓM TẮT: Trong những năm gần đây, đã có nhiều phương pháp tra cứu ảnh được đông đảo các nhóm tác giả nghiên cứu và đề xuất. Tuy nhiên, các phương pháp này thường dùng một số đặc trưng thủ công và phản hồi trên tập mẫu có số lượng hạn chế nhưng số chiều đặc trưng mức lớn (the curse of dimensionality) trong không gian đặc trưng dẫn đến kết quả độ chính xác kém. Trong bài báo này, chúng tôi đề xuất một phương pháp tra cứu ảnh RMLIR hiệu quả cho phép cải thiện kết quả độ chính xác. Phương pháp của chúng tôi khai thác việc học biểu diễn ảnh bằng cách tận dụng một mô hình học sâu đã huấn luyện với tập dữ liệu lớn và tận dụng thông tin phản hồi của người dùng giải quyết vấn đề chiều đặc trưng lớn so với số mẫu phản hồi thông qua học đa tạp cho giảm chiều. Chúng tôi cũng cung cấp các kết quả và đánh giá thực nghiệm trên cơ sở dữ liệu đặc trưng 10800 ảnh để chỉ ra độ chính xác của phương pháp đề xuất. Từ khóa: Tra cứu ảnh dựa vào nội dung, tiền huấn luyện, học biểu diễn, mạng nơron tích chập, học đa tạp, giảm chiều. I. GIỚI THIỆU Hiệu quả tra cứu của một hệ thống tra cứu ảnh dựa vào nội dung chủ yếu phụ thuộc vào biểu diễn đặc trƣng và độ đo tƣơng tự, những điều này đã đƣợc nghiên cứu rộng rãi bởi các nhà nghiên cứu đa phƣơng tiện trong nhiều thập kỷ qua. Mặc dù một loạt các kỹ thuật đã đƣợc đề xuất nhƣng nó vẫn là một trong những thách thức to lớn trong nghiên cứu tra cứu ảnh dựa vào nội dung (CBIR). Về cốt lõi, các đặc trƣng hình ảnh ảnh hƣởng đến mọi khía cạnh của các ứng dụng thị giác máy tính bao gồm cả CBIR. Sự hiệu quả của bất kỳ hệ thống CBIR nào chủ yếu phụ thuộc vào biểu diễn đặc trƣng của các hình ảnh đƣợc trích rút bằng cách áp dụng một mô tả hình ảnh. Mặc dù trong nhiều thập kỷ qua, một loạt các kỹ thuật trích rút đặc trƣng đƣợc đƣa ra để tìm ra các biểu diễn hình ảnh phong phú và đầy đủ hơn về mặt ngữ nghĩa, nhƣng nó vẫn còn là một thách thức to lớn trong các ứng dụng CBIR. Các đặc trƣng thủ công đƣợc sử dụng nhiều trong các ứng dụng CBIR thông thƣờng để định lƣợng, biểu diễn nội dung của bức ảnh. Các ứng dụng trƣớc đây chủ yếu tập trung vào các đặc trƣng nguyên thủy (đặc trƣng toàn cục) mô tả toàn bộ một bức ảnh dƣới dạng một véctơ duy nhất, chẳng hạn nhữ biểu diễn màu, kết cấu hoặc đặc trƣng hình dạng. Trong hệ thống, các ảnh đƣợc biểu diễn bởi ba đặc trƣng chính: màu [1; 10; 16], kết cấu [5] và hình dạng [1; 16]. Đặc trƣng màu là đặc trƣng quan trọng nhất cho tra cứu ảnh bởi vì đặc trƣng này không nhạy cảm với tỉ lệ, xoay, cảnh trông xa và che lấp của ảnh [10]. Đặc trƣng kết cấu là một tín hiệu quan trọng khác cho tra cứu ảnh. Các nghiên cứu trƣớc đây đã chỉ ra rằng thông tin kết cấu theo cấu trúc và hƣớng phù hợp tốt với mô hình nhận thức của con ngƣời và thông tin hình dạng cũng vậy. Trong khi các kỹ thuật trên tập trung vào các đặc trƣng toàn cục thì các kỹ thuật sau đó đã cải thiện để tìm các biểu diễn ảnh bằng cách trích rút một tập các đặc trƣng bất biến cục bộ và các đặc trƣng riêng lẻ có thể đƣợc khớp với một cơ sở dữ liệu lớn của các đối tƣợng. Một trong những kỹ thuật hiệu quả nhát là kỹ thuật bag of visual words (BOVW), sử dụng các mô tả cục bộ mạnh mẽ nhƣ Scale Invariant Feature Transform (SIFT) [ 9], Speeded Up Robust Features (SURF) [2], and Binary Robust Invariant Scalable Keypoints (BRISK) [8]. Tuy nhiên nhƣợc điểm chính của BOVW là để biểu diễn một bức ảnh cần có một véctơ có số chiều lớn, mặc dù véctơ với số chiều lớn thƣờng cung cấp cho chúng ta một kết quả tốt hơn so với chiều thấp nhƣng lại gây khó khăn trong việc lập chỉ mục, tốc độ tính toán tra cứu sẽ lâu hơn. Sau đó các véctơ nhƣ Fisher Vector (FV) [ 12] và Vector of Locally Aggregated Descriptors (VLAD) [7] nhằm giải quyết vấn đề này bằng cách mã hóa một bức ảnh thành một véctơ giảm kích thƣớc mà không ảnh hƣởng đáng kể đến độ chính xác. Tuy nhiên, hiệu quả của biểu diễn đặc trƣng thủ công trong CBIR vốn đã bị hạn chế, vì những cách tiếp cận này chủ yếu thƣờng sử dụng kiến trúc mạng nông và chỉ dựa vào các đặc trƣng toàn cục, cục bộ thông thƣờng không thể mô tả ngữ nghĩa của toàn bộ bức ảnh. Các mô hình CNN cố gắng để mô hình trừu tƣợng hóa mức cao trong hình ảnh bằng cách sử dụng các kiến trúc sâu bao gồm nhiều biến đổi phi tuyến tính [15]. Trong CNN, các đặc trƣng đƣợc trích rút ở nhiều cấp độ tóm tắt và cho phép hệ thống học các hàm phức tạp, ánh xạ trực tiếp dữ liệu đầu vào thô thành đầu ra, mà không cần dựa vào các đặc trƣng đƣợc thiết kế thủ công sử dụng tri thức miền. Hiện tại vấn đề khó khăn chính là vấn đề khoảng cách ngữ nghĩa giữa các điểm ảnh mức thấp đƣợc thu bởi máy móc và khái niệm ngữ nghĩa mức cao đƣợc con ngƣời cảm nhận. Thách thức nhƣ vậy có thể bắt nguồn từ thách thức cơ bản của trí tuệ nhân tạo, đó là cách chúng ta xây dựng và huấn luyện máy tính thông minh nhƣ con ngƣời để giải quyết các vấn đề trong thế giới thực. Học máy là một trong những kỹ thuật đầy hứa hẹn sẽ giải quyết đƣợc những khó khăn, thách thức này. Để giảm khoảng cách giữa các đặc trƣng trực quan mức thấp và các khái niệm ngữ nghĩa mức cao, 308 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ ...
Nội dung trích xuất từ tài liệu:
Một phương pháp tra cứu ảnh học biểu diễn và học đa tạp cho giảm chiều với thông tin từ người dùng Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00039 MỘT PHƯƠNG PHÁP TRA CỨU ẢNH HỌC BIỂU DIỄN VÀ HỌC ĐA TẠP CHO GIẢM CHIỀU VỚI THÔNG TIN TỪ NGƯỜI DÙNG Cù Việt Dũng1, Nguyễn Hữu Quỳnh1, Ngô Quốc Tạo2, Trần Thị Minh Thu1 1 Khoa Công nghệ thông tin, Trƣờng Đại học Điện lực, 2 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam dungcv@epu.edu.vn, nhquynh@epu.edu.vn, thuttm@epu.edu.vn TÓM TẮT: Trong những năm gần đây, đã có nhiều phương pháp tra cứu ảnh được đông đảo các nhóm tác giả nghiên cứu và đề xuất. Tuy nhiên, các phương pháp này thường dùng một số đặc trưng thủ công và phản hồi trên tập mẫu có số lượng hạn chế nhưng số chiều đặc trưng mức lớn (the curse of dimensionality) trong không gian đặc trưng dẫn đến kết quả độ chính xác kém. Trong bài báo này, chúng tôi đề xuất một phương pháp tra cứu ảnh RMLIR hiệu quả cho phép cải thiện kết quả độ chính xác. Phương pháp của chúng tôi khai thác việc học biểu diễn ảnh bằng cách tận dụng một mô hình học sâu đã huấn luyện với tập dữ liệu lớn và tận dụng thông tin phản hồi của người dùng giải quyết vấn đề chiều đặc trưng lớn so với số mẫu phản hồi thông qua học đa tạp cho giảm chiều. Chúng tôi cũng cung cấp các kết quả và đánh giá thực nghiệm trên cơ sở dữ liệu đặc trưng 10800 ảnh để chỉ ra độ chính xác của phương pháp đề xuất. Từ khóa: Tra cứu ảnh dựa vào nội dung, tiền huấn luyện, học biểu diễn, mạng nơron tích chập, học đa tạp, giảm chiều. I. GIỚI THIỆU Hiệu quả tra cứu của một hệ thống tra cứu ảnh dựa vào nội dung chủ yếu phụ thuộc vào biểu diễn đặc trƣng và độ đo tƣơng tự, những điều này đã đƣợc nghiên cứu rộng rãi bởi các nhà nghiên cứu đa phƣơng tiện trong nhiều thập kỷ qua. Mặc dù một loạt các kỹ thuật đã đƣợc đề xuất nhƣng nó vẫn là một trong những thách thức to lớn trong nghiên cứu tra cứu ảnh dựa vào nội dung (CBIR). Về cốt lõi, các đặc trƣng hình ảnh ảnh hƣởng đến mọi khía cạnh của các ứng dụng thị giác máy tính bao gồm cả CBIR. Sự hiệu quả của bất kỳ hệ thống CBIR nào chủ yếu phụ thuộc vào biểu diễn đặc trƣng của các hình ảnh đƣợc trích rút bằng cách áp dụng một mô tả hình ảnh. Mặc dù trong nhiều thập kỷ qua, một loạt các kỹ thuật trích rút đặc trƣng đƣợc đƣa ra để tìm ra các biểu diễn hình ảnh phong phú và đầy đủ hơn về mặt ngữ nghĩa, nhƣng nó vẫn còn là một thách thức to lớn trong các ứng dụng CBIR. Các đặc trƣng thủ công đƣợc sử dụng nhiều trong các ứng dụng CBIR thông thƣờng để định lƣợng, biểu diễn nội dung của bức ảnh. Các ứng dụng trƣớc đây chủ yếu tập trung vào các đặc trƣng nguyên thủy (đặc trƣng toàn cục) mô tả toàn bộ một bức ảnh dƣới dạng một véctơ duy nhất, chẳng hạn nhữ biểu diễn màu, kết cấu hoặc đặc trƣng hình dạng. Trong hệ thống, các ảnh đƣợc biểu diễn bởi ba đặc trƣng chính: màu [1; 10; 16], kết cấu [5] và hình dạng [1; 16]. Đặc trƣng màu là đặc trƣng quan trọng nhất cho tra cứu ảnh bởi vì đặc trƣng này không nhạy cảm với tỉ lệ, xoay, cảnh trông xa và che lấp của ảnh [10]. Đặc trƣng kết cấu là một tín hiệu quan trọng khác cho tra cứu ảnh. Các nghiên cứu trƣớc đây đã chỉ ra rằng thông tin kết cấu theo cấu trúc và hƣớng phù hợp tốt với mô hình nhận thức của con ngƣời và thông tin hình dạng cũng vậy. Trong khi các kỹ thuật trên tập trung vào các đặc trƣng toàn cục thì các kỹ thuật sau đó đã cải thiện để tìm các biểu diễn ảnh bằng cách trích rút một tập các đặc trƣng bất biến cục bộ và các đặc trƣng riêng lẻ có thể đƣợc khớp với một cơ sở dữ liệu lớn của các đối tƣợng. Một trong những kỹ thuật hiệu quả nhát là kỹ thuật bag of visual words (BOVW), sử dụng các mô tả cục bộ mạnh mẽ nhƣ Scale Invariant Feature Transform (SIFT) [ 9], Speeded Up Robust Features (SURF) [2], and Binary Robust Invariant Scalable Keypoints (BRISK) [8]. Tuy nhiên nhƣợc điểm chính của BOVW là để biểu diễn một bức ảnh cần có một véctơ có số chiều lớn, mặc dù véctơ với số chiều lớn thƣờng cung cấp cho chúng ta một kết quả tốt hơn so với chiều thấp nhƣng lại gây khó khăn trong việc lập chỉ mục, tốc độ tính toán tra cứu sẽ lâu hơn. Sau đó các véctơ nhƣ Fisher Vector (FV) [ 12] và Vector of Locally Aggregated Descriptors (VLAD) [7] nhằm giải quyết vấn đề này bằng cách mã hóa một bức ảnh thành một véctơ giảm kích thƣớc mà không ảnh hƣởng đáng kể đến độ chính xác. Tuy nhiên, hiệu quả của biểu diễn đặc trƣng thủ công trong CBIR vốn đã bị hạn chế, vì những cách tiếp cận này chủ yếu thƣờng sử dụng kiến trúc mạng nông và chỉ dựa vào các đặc trƣng toàn cục, cục bộ thông thƣờng không thể mô tả ngữ nghĩa của toàn bộ bức ảnh. Các mô hình CNN cố gắng để mô hình trừu tƣợng hóa mức cao trong hình ảnh bằng cách sử dụng các kiến trúc sâu bao gồm nhiều biến đổi phi tuyến tính [15]. Trong CNN, các đặc trƣng đƣợc trích rút ở nhiều cấp độ tóm tắt và cho phép hệ thống học các hàm phức tạp, ánh xạ trực tiếp dữ liệu đầu vào thô thành đầu ra, mà không cần dựa vào các đặc trƣng đƣợc thiết kế thủ công sử dụng tri thức miền. Hiện tại vấn đề khó khăn chính là vấn đề khoảng cách ngữ nghĩa giữa các điểm ảnh mức thấp đƣợc thu bởi máy móc và khái niệm ngữ nghĩa mức cao đƣợc con ngƣời cảm nhận. Thách thức nhƣ vậy có thể bắt nguồn từ thách thức cơ bản của trí tuệ nhân tạo, đó là cách chúng ta xây dựng và huấn luyện máy tính thông minh nhƣ con ngƣời để giải quyết các vấn đề trong thế giới thực. Học máy là một trong những kỹ thuật đầy hứa hẹn sẽ giải quyết đƣợc những khó khăn, thách thức này. Để giảm khoảng cách giữa các đặc trƣng trực quan mức thấp và các khái niệm ngữ nghĩa mức cao, 308 MỘT PHƢƠNG PHÁP TRA CỨU ẢNH KHAI THÁC HIỆU QUẢ THÔNG TIN PHẢN HỒI TỪ ...
Tìm kiếm theo từ khóa liên quan:
Tra cứu ảnh dựa vào nội dung Học biểu diễn Mạng nơron tích chập Học đa tạp Mô hình học sâuGợi ý tài liệu liên quan:
-
69 trang 169 0 0
-
Nâng cao hiệu quả tra cứu ảnh nhãn hiệu sử dụng cây quyết định và phản hồi liên quan
10 trang 165 0 0 -
7 trang 161 0 0
-
13 trang 38 0 0
-
Điều khiển xe tự lái sử dụng mạng noron tích chập tiên tiến
9 trang 37 0 0 -
11 trang 37 0 0
-
Tìm kiếm hình ảnh bằng phương pháp học sâu
8 trang 35 0 0 -
Phát hiện đối tượng dựa vào học sâu trên Raspberry Pi
8 trang 34 0 0 -
Giải pháp nhận dạng ký tự tiếng Trung viết tay dựa trên mạng nơron tích chập
6 trang 32 0 0 -
Một kỹ thuật định vị đối tượng trong hệ thống camera giám sát phục vụ theo dõi trực quang
7 trang 28 0 0