Một phương pháp tìm kiếm ảnh theo ngữ nghĩa dựa trên mạng nơron tích chập và Ontology
Số trang: 10
Loại file: pdf
Dung lượng: 1.06 MB
Lượt xem: 19
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Truy vấn ảnh dựa trên ngữ nghĩa đóng một vai trò quan trọng trong nhiều ứng dụng thực tế. Trong bài viết này, một phương pháp tìm kiếm ảnh theo ngữ nghĩa được đề xuất kết hợp giữa mạng nơron tích chập (CNN) và ontology. Đầu tiên, CNN được sử dụng để trích xuất đặc trưng và xác định phân lớp của ảnh đầu vào.
Nội dung trích xuất từ tài liệu:
Một phương pháp tìm kiếm ảnh theo ngữ nghĩa dựa trên mạng nơron tích chập và Ontology Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0062 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP VÀ ONTOLOGY Huỳnh Thị Châu Lan1, Nguyễn Thị Uyên Nhi2, Văn Thế Thành1, Nguyễn Minh Hải3, Nguyễn Hải Yến1 Khoa Công nghệ thông tin, Trường ĐH Công nghiệp thực phẩm TP. Hồ Chí Minh 1 2 Trường Đại học Kinh tế - Đại học Đà Nẵng 3 Trường Đại học Sư phạm TP. Hồ Chí Minh {lanhtc, yennh, thanhvt}@hufi.edu.vn, 2nhintu@due.edu.vn, 3hainm@hcmue.edu.vn TÓM TẮT: Truy vấn ảnh dựa trên ngữ nghĩa đóng một vai trò quan trọng trong nhiều ứng dụng thực tế. Trong bài báo này, một phương pháp tìm kiếm ảnh theo ngữ nghĩa được đề xuất kết hợp giữa mạng nơron tích chập (CNN) và ontology. Đầu tiên, CNN được sử dụng để trích xuất đặc trưng và xác định phân lớp của ảnh đầu vào. Sau đó, từ khung ontology đã được xây dựng, một phương pháp làm giàu ontology được đề xuất. Câu lệnh SPARQL được tự động tạo ra từ các phân lớp ảnh và thực hiện truy vấn trên ontology đã được xây dựng nhằm truy xuất tập ảnh tương tự và ngữ nghĩa tương ứng. Từ đó, một mô hình truy vấn ảnh dựa trên ngữ nghĩa được đề xuất và thực nghiệm trên các bộ ảnh CIFAR-10 (60.000 ảnh, 10 phân lớp) và Caltech 256 (30.607 ảnh, 256 phân lớp) với độ chính xác lần lượt: 0,884094; 0,848326. Kết quả thực nghiệm được so sánh với các công trình liên quan khác trên cùng tập dữ liệu ảnh, chứng tỏ tính hiệu quả của phương pháp đề xuất. Từ khóa: Truy vấn ảnh dựa trên ngữ nghĩa, mạng nơron tích chập, phân lớp ảnh, ontology. I. GIỚI THIỆU Ngày nay, với sự phát triển vượt bậc trong việc sử dụng Internet và các thiết bị mobile, số lượng hình ảnh kỹ thuật số đã tăng lên rất nhiều. Do đó, để quản lý và tìm kiếm chính xác hình ảnh trong bộ dữ liệu ảnh khổng lồ này, cần có một hệ thống truy vấn mạnh mẽ. Hiện nay, nhiều lĩnh vực khác nhau ứng dụng hệ thống tìm kiếm ảnh trong thực tế như chẩn đoán bệnh lâm sàn trong lĩnh vực y học, truy vết tội phạm trong lĩnh vực an ninh, hay hệ thống thư viện số,... Trong hệ thống truy vấn ảnh theo nội dung CBIR (Content-Based Image Retrival), trích xuất đặc trưng là một tác vụ vô cùng quan trọng. Vì các hình ảnh được so sánh với nhau theo các đặc trưng cấp thấp của chúng, chẳng hạn như màu sắc, kết cấu, hình dạng,… để tìm tập ảnh tương tự, nên độ chính xác của hệ thống CBIR chủ yếu phụ thuộc vào các vectơ đặc trưng được trích xuất từ tập cơ sở dữ liệu hình ảnh. Nhiều kỹ thuật hiện đại được phát triển để nâng cao hiệu suất của CBIR, trong đó mạng nơron tích chập (Convolution neural network - CNN) đã chứng tỏ tính ưu việt của nó trong các lĩnh vực như rút trích đặc trưng ảnh, phân loại và nhận dạng hình ảnh [1-3]. Tuy nhiên, hệ thống CBIR chỉ tìm kiếm được các tập ảnh tương tự nhau về nội dung cấp thấp, nhưng có thể có ngữ nghĩa hoàn toàn khác nhau. Vì vậy, luôn tồn tại “khoảng cách ngữ nghĩa” [4] giữa đặc trưng cấp thấp và ngữ nghĩa cấp cao của người dùng. Việc phân tích và tìm kiếm ngữ nghĩa hình ảnh là một trong những thách thức được quan tâm và nghiên cứu trong lĩnh vực thị giác máy tính. Tìm kiếm ảnh dựa trên ontology là phương pháp hiệu quả nhằm truy xuất ngữ nghĩa cấp cao của hình ảnh thông qua các phân cấp miền, mối quan hệ giữa các miền, các khái niệm... Các ngữ nghĩa trên ontology gần gũi với ngữ nghĩa cấp cao của người dùng mà máy tính có thể hiểu và truy xuất được. Trong bài báo này, chúng tôi đề xuất một phương pháp kết hợp giữa mạng nơron tích chập (CNN) và ontology cho bài toán tìm kiếm ảnh theo ngữ nghĩa. Các đóng góp chính của bài báo bao gồm: (1) Sử dụng mạng CNN để rút trích đặc trưng và phân lớp cho cơ sở dữ liệu hình ảnh; (2) xây dựng phương pháp làm giàu khung ontology đã xây dựng; (3) tạo câu lệnh SPARQL từ các phân lớp ảnh và thực hiện truy vấn trên ontology đã được xây dựng để truy xuất tập ảnh tương tự và ngữ nghĩa tương ứng. Phần còn lại của bài báo được tổ chức như sau: trong Phần II, chúng tôi khảo sát và phân tích ưu nhược điểm của các công trình liên quan để minh chứng tính khả thi của phương pháp đề xuất; trong Phần III, chúng tôi trình phương pháp truy vấn ảnh theo tiếp cận ngữ nghĩa; thực nghiệm và đánh giá kết quả của phương pháp đề xuất được mô tả trong Phần IV; Phần V là kết luận và hướng phát triển tiếp theo. II. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Với sự gia tăng nhanh chóng của dữ liệu ảnh số về cả kích thước lẫn độ phức tạp, đòi hỏi cần phải có các hệ thống truy vấn ảnh hiệu quả. Nhiều phương pháp tìm kiếm ảnh theo ngữ nghĩa đã cho thấy độ chính xác cao trong truy vấn và trích xuất ngữ nghĩa cấp cao của hình ảnh. Trong đó, tập trung chủ yếu vào hai vấn đề chính: trích xuất đặc trưng cấp thấp hình ảnh, đồng thời liên kết với ngữ nghĩa cấp cao được truy xuất từ ontology. Những nghiên cứu gần đây chủ yếu tập trung vào phương pháp rút trích đặc trưng và phân lớp hình ảnh dựa trên mạng nơron tích chập học sâu (CNNs), kết hợp với các cải tiến kiến trúc mạng thông qua các kỹ thuật học máy nhằm nâng cao hiệu quả tìm kiếm ảnh [2, 5-11]. Mạng học sâu CNNs được sử dụng để trích xuất đặc trưng và phân lớp ảnh được nhiều nhóm nghiên cứu quan tâm. Dingding Cai và cộng sự (2017) đề xuất mạng nơron tích chập độ phân giải nhận biết (RACNNs) [5]. Thực nghiệm trên các bộ ảnh Stanford Cars, Caltech-UCSD Birds-200-2011, Oxford 102 218 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP… Category Flower với độ chính xác của phương pháp đề xuất là 63,8% trê ...
Nội dung trích xuất từ tài liệu:
Một phương pháp tìm kiếm ảnh theo ngữ nghĩa dựa trên mạng nơron tích chập và Ontology Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0062 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP VÀ ONTOLOGY Huỳnh Thị Châu Lan1, Nguyễn Thị Uyên Nhi2, Văn Thế Thành1, Nguyễn Minh Hải3, Nguyễn Hải Yến1 Khoa Công nghệ thông tin, Trường ĐH Công nghiệp thực phẩm TP. Hồ Chí Minh 1 2 Trường Đại học Kinh tế - Đại học Đà Nẵng 3 Trường Đại học Sư phạm TP. Hồ Chí Minh {lanhtc, yennh, thanhvt}@hufi.edu.vn, 2nhintu@due.edu.vn, 3hainm@hcmue.edu.vn TÓM TẮT: Truy vấn ảnh dựa trên ngữ nghĩa đóng một vai trò quan trọng trong nhiều ứng dụng thực tế. Trong bài báo này, một phương pháp tìm kiếm ảnh theo ngữ nghĩa được đề xuất kết hợp giữa mạng nơron tích chập (CNN) và ontology. Đầu tiên, CNN được sử dụng để trích xuất đặc trưng và xác định phân lớp của ảnh đầu vào. Sau đó, từ khung ontology đã được xây dựng, một phương pháp làm giàu ontology được đề xuất. Câu lệnh SPARQL được tự động tạo ra từ các phân lớp ảnh và thực hiện truy vấn trên ontology đã được xây dựng nhằm truy xuất tập ảnh tương tự và ngữ nghĩa tương ứng. Từ đó, một mô hình truy vấn ảnh dựa trên ngữ nghĩa được đề xuất và thực nghiệm trên các bộ ảnh CIFAR-10 (60.000 ảnh, 10 phân lớp) và Caltech 256 (30.607 ảnh, 256 phân lớp) với độ chính xác lần lượt: 0,884094; 0,848326. Kết quả thực nghiệm được so sánh với các công trình liên quan khác trên cùng tập dữ liệu ảnh, chứng tỏ tính hiệu quả của phương pháp đề xuất. Từ khóa: Truy vấn ảnh dựa trên ngữ nghĩa, mạng nơron tích chập, phân lớp ảnh, ontology. I. GIỚI THIỆU Ngày nay, với sự phát triển vượt bậc trong việc sử dụng Internet và các thiết bị mobile, số lượng hình ảnh kỹ thuật số đã tăng lên rất nhiều. Do đó, để quản lý và tìm kiếm chính xác hình ảnh trong bộ dữ liệu ảnh khổng lồ này, cần có một hệ thống truy vấn mạnh mẽ. Hiện nay, nhiều lĩnh vực khác nhau ứng dụng hệ thống tìm kiếm ảnh trong thực tế như chẩn đoán bệnh lâm sàn trong lĩnh vực y học, truy vết tội phạm trong lĩnh vực an ninh, hay hệ thống thư viện số,... Trong hệ thống truy vấn ảnh theo nội dung CBIR (Content-Based Image Retrival), trích xuất đặc trưng là một tác vụ vô cùng quan trọng. Vì các hình ảnh được so sánh với nhau theo các đặc trưng cấp thấp của chúng, chẳng hạn như màu sắc, kết cấu, hình dạng,… để tìm tập ảnh tương tự, nên độ chính xác của hệ thống CBIR chủ yếu phụ thuộc vào các vectơ đặc trưng được trích xuất từ tập cơ sở dữ liệu hình ảnh. Nhiều kỹ thuật hiện đại được phát triển để nâng cao hiệu suất của CBIR, trong đó mạng nơron tích chập (Convolution neural network - CNN) đã chứng tỏ tính ưu việt của nó trong các lĩnh vực như rút trích đặc trưng ảnh, phân loại và nhận dạng hình ảnh [1-3]. Tuy nhiên, hệ thống CBIR chỉ tìm kiếm được các tập ảnh tương tự nhau về nội dung cấp thấp, nhưng có thể có ngữ nghĩa hoàn toàn khác nhau. Vì vậy, luôn tồn tại “khoảng cách ngữ nghĩa” [4] giữa đặc trưng cấp thấp và ngữ nghĩa cấp cao của người dùng. Việc phân tích và tìm kiếm ngữ nghĩa hình ảnh là một trong những thách thức được quan tâm và nghiên cứu trong lĩnh vực thị giác máy tính. Tìm kiếm ảnh dựa trên ontology là phương pháp hiệu quả nhằm truy xuất ngữ nghĩa cấp cao của hình ảnh thông qua các phân cấp miền, mối quan hệ giữa các miền, các khái niệm... Các ngữ nghĩa trên ontology gần gũi với ngữ nghĩa cấp cao của người dùng mà máy tính có thể hiểu và truy xuất được. Trong bài báo này, chúng tôi đề xuất một phương pháp kết hợp giữa mạng nơron tích chập (CNN) và ontology cho bài toán tìm kiếm ảnh theo ngữ nghĩa. Các đóng góp chính của bài báo bao gồm: (1) Sử dụng mạng CNN để rút trích đặc trưng và phân lớp cho cơ sở dữ liệu hình ảnh; (2) xây dựng phương pháp làm giàu khung ontology đã xây dựng; (3) tạo câu lệnh SPARQL từ các phân lớp ảnh và thực hiện truy vấn trên ontology đã được xây dựng để truy xuất tập ảnh tương tự và ngữ nghĩa tương ứng. Phần còn lại của bài báo được tổ chức như sau: trong Phần II, chúng tôi khảo sát và phân tích ưu nhược điểm của các công trình liên quan để minh chứng tính khả thi của phương pháp đề xuất; trong Phần III, chúng tôi trình phương pháp truy vấn ảnh theo tiếp cận ngữ nghĩa; thực nghiệm và đánh giá kết quả của phương pháp đề xuất được mô tả trong Phần IV; Phần V là kết luận và hướng phát triển tiếp theo. II. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Với sự gia tăng nhanh chóng của dữ liệu ảnh số về cả kích thước lẫn độ phức tạp, đòi hỏi cần phải có các hệ thống truy vấn ảnh hiệu quả. Nhiều phương pháp tìm kiếm ảnh theo ngữ nghĩa đã cho thấy độ chính xác cao trong truy vấn và trích xuất ngữ nghĩa cấp cao của hình ảnh. Trong đó, tập trung chủ yếu vào hai vấn đề chính: trích xuất đặc trưng cấp thấp hình ảnh, đồng thời liên kết với ngữ nghĩa cấp cao được truy xuất từ ontology. Những nghiên cứu gần đây chủ yếu tập trung vào phương pháp rút trích đặc trưng và phân lớp hình ảnh dựa trên mạng nơron tích chập học sâu (CNNs), kết hợp với các cải tiến kiến trúc mạng thông qua các kỹ thuật học máy nhằm nâng cao hiệu quả tìm kiếm ảnh [2, 5-11]. Mạng học sâu CNNs được sử dụng để trích xuất đặc trưng và phân lớp ảnh được nhiều nhóm nghiên cứu quan tâm. Dingding Cai và cộng sự (2017) đề xuất mạng nơron tích chập độ phân giải nhận biết (RACNNs) [5]. Thực nghiệm trên các bộ ảnh Stanford Cars, Caltech-UCSD Birds-200-2011, Oxford 102 218 MỘT PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NGỮ NGHĨA DỰA TRÊN MẠNG NƠRON TÍCH CHẬP… Category Flower với độ chính xác của phương pháp đề xuất là 63,8% trê ...
Tìm kiếm theo từ khóa liên quan:
Truy vấn ảnh dựa trên ngữ nghĩa Mạng nơron tích chập Phân lớp ảnh Phương pháp tìm kiếm Câu lệnh SPARQLTài liệu liên quan:
-
11 trang 43 0 0
-
Điều khiển xe tự lái sử dụng mạng noron tích chập tiên tiến
9 trang 42 0 0 -
Tìm kiếm hình ảnh bằng phương pháp học sâu
8 trang 37 0 0 -
Giải pháp nhận dạng ký tự tiếng Trung viết tay dựa trên mạng nơron tích chập
6 trang 34 0 0 -
Phát hiện đối tượng dựa vào học sâu trên Raspberry Pi
8 trang 34 0 0 -
Một kỹ thuật định vị đối tượng trong hệ thống camera giám sát phục vụ theo dõi trực quang
7 trang 31 0 0 -
Tìm kiếm ảnh sử dụng mạng nơron tích chập và đồ thị phân cụm
14 trang 28 0 0 -
Trích chọn đặc trưng cho mạng nơron tích chập trong bài toán nhận diện tấn công mạng
8 trang 27 0 0 -
Phân loại chữ số cho các camera nhận diện biển số giao thông tại Việt Nam
8 trang 26 0 0 -
Dự đoán góc lái xe tự hành sử dụng mạng noron tích chập tiên tiến
9 trang 25 0 0