Đóng góp của đặc trưng văn bản trong bài toán phân lớp ảnh
Số trang: 8
Loại file: pdf
Dung lượng: 1.35 MB
Lượt xem: 14
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất phương pháp phân lớp ảnh kết hợp các bộ phân lớp dựa trên đặc trưng ảnh và đặc trưng văn bản ở bộ phân lớp thứ ba sử dụng giải thuật hồi quy logistic. Đặc trưng văn bản sẽ được xây dựng dựa trên các văn bản đi kèm với ảnh, các bức ảnh này là ảnh láng giềng gần nhất với ảnh đầu vào trong tập ảnh chuẩn.
Nội dung trích xuất từ tài liệu:
Đóng góp của đặc trưng văn bản trong bài toán phân lớp ảnh Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00022 ĐÓNG GÓP CỦA ĐẶC TRƯNG VĂN BẢN TRONG BÀI TOÁN PHÂN LỚP ẢNH Hà Thị Phương Anh1, Phạm Thế Phi2, Đỗ Thanh Nghị2 1 Khoa Công nghệ thông tin, Trường Đại học Bạc Liêu 2 Khoa Công nghệ thông tin & Truyền thông, Trường Đại học Cần Thơ htpanh52@gmail.com, ptphi@cit.ctu.edu.vn, dtnghi@cit.ctu.edu.vn TÓM TẮT: Trong bài viết này, chúng tôi đề xuất phương pháp phân lớp ảnh kết hợp các bộ phân lớp dựa trên đặc trưng ảnh và đặc trưng văn bản ở bộ phân lớp thứ ba sử dụng giải thuật hồi quy logistic. Đặc trưng văn bản sẽ được xây dựng dựa trên các văn bản đi kèm với ảnh, các bức ảnh này là ảnh láng giềng gần nhất với ảnh đầu vào trong tập ảnh chuẩn. Các đặc trưng ảnh được trích chọn với các phương pháp khác nhau để xác định phương pháp phù hợp nhất. Kết quả thực nghiệm trên tập dữ liệu hình ảnh di sản văn hóa phi vật thể cho thấy phương pháp được đề xuất đã cải thiện được hiệu quả phân lớp ảnh, đặc biệt là đối với những đặc trưng ảnh tốt và những lớp có số lượng ảnh tương đối và không bị nhiễu. Từ khóa: Phân lớp ảnh, đặc trưng ảnh, đặc trưng văn bản, hồi quy logistic. I. GIỚI THIỆU Một trong những nhiệm vụ quan trọng hiện nay trong lĩnh vực thị giác máy tính đó là phân lớp đối tượng. Phân lớp đối tượng là một nhiệm vụ dễ dàng cho con người nhưng lại là một vấn đề khá phức tạp đối với máy học, đặc biệt là phân lớp đối tượng trong ảnh. Hiện nay, đã có nhiều nghiên cứu về lĩnh vực nhận dạng và phân lớp ảnh như nghiên cứu của Torralba [2] về nhận dạng đối tượng trong ảnh có kích thước nhỏ 32x32 pixels dùng phương pháp trích đặc trưng SIFT; nghiên cứu của Đỗ Thanh Nghị [4] về phân lớp ảnh với giải thuật giảm gradient ngẫu nhiên đa lớp dựa vào phương pháp biểu diễn ảnh bằng đặc trưng SIFT và mô hình túi từ. Ngoài ra, còn có các nghiên cứu khác về lĩnh vực này [6, 7, 14, 16] sử dụng cách tiếp cận rút trích đặc trưng dựa trên phát hiện của các điểm, màu sắc, kết cấu, tổ chức đồ. Các nghiên cứu này phần lớn tập trung vào quá trình phân lớp dựa vào các đặc trưng cấp thấp như màu sắc, kết cấu, SIFT,... Nếu như chúng ta có hàng triệu bức ảnh trong tập huấn luyện thì những đặc trưng này sẽ có ý nghĩa, nhưng trong thực tế thì việc thu thập hàng triệu ảnh là một vấn đề vô cùng khó khăn và tốn kém về mặt chi phí, vì thế nếu tập dữ liệu không đủ lớn thì nó có thể gây khó khăn trong vấn đề phân khúc các đối tượng trong ảnh. Trong tình huống khác, ở đó chúng ta có sẵn một số lượng tương đối các bức ảnh đã được gán nhãn, đồng thời có các văn bản đi kèm với chúng, các văn bản này có thể sẽ cung cấp cho chúng ta thêm thông tin để phân tích hình ảnh. Khi đó, những đặc trưng cấp thấp được rút trích từ ảnh kết hợp với thông tin văn bản đi kèm có thể sẽ đủ làm đại diện biểu diễn cho ảnh. Như vậy, các văn bản đi kèm sẽ hỗ trợ cho việc phân lớp đối tượng trong ảnh chính xác và dễ dàng hơn [1, 15]. Ý tưởng chính trong bài viết này đó là chúng tôi sẽ tiến hành xây dựng các bộ phân lớp ảnh dựa trên các đặc trưng ảnh khác nhau và các bộ phân lớp văn bản dựa trên đặc trưng văn bản đại diện cho ảnh. Trọng tâm là xây dựng bộ phân lớp thứ ba kết hợp các giá trị tin cậy của hai bộ phân lớp trên sử dụng giải thuật hồi quy logistic (Hình 1). Kết quả thực nghiệm trên tập dữ liệu di sản văn hóa phi vật thể cho thấy các đặc trưng văn bản khi đưa vào các mô hình phân lớp kết hợp với các bộ phân lớp ảnh đã giúp cải thiện được hiệu quả phân lớp. Phần tiếp theo của bài viết được tổ chức như sau: phần II trình bày về tập dữ liệu hình ảnh văn hóa phi vật thể, phần III trình bày các phương pháp rút trích đặc trưng ảnh, phần IV trình bày phương pháp xây dựng đặc trưng văn bản, phần V giới thiệu về các giải thuật phân lớp, phần VI trình bày kết quả thực nghiệm, phần VII trình bày kết luận và hướng phát triển. Ảnh truy Trích đặc trưng Các bộ phân Kết hợp các vấn ảnh lớp ảnh bộ phân lớp Trích lọc k ảnh láng giềng gần Đặc trưng Các bộ phân lớp Tập ảnh Nhãn chuẩn nhất văn bản văn bản Hình 1. Quy trình phân lớp ảnh truy vấn sử dụng bộ phân lớp kết hợp các bộ phân lớp ảnh và bộ phân lớp văn bản sử dụng giải thuật hồi quy logistic Hà Thị Phương Anh, Phạm Thế Phi, Đỗ Thanh Nghị 169 II. CHUẨN BỊ TẬP DỮ LIỆU Tập dữ liệu thực nghiệm chúng tôi sử dụng là tập hình ảnh di sản văn hóa phi vật thể khu vực Đồng bằng sông Cửu Long được thu thập từ Internet, gồm 17 di sản (17 lớp) đó là: 1- Đờn ca tài tử Nam Bộ; 2- Nghệ thuật Chầm Riêng Chà pây của người Khmer; 3- Nghề dệt chiếu; 4- Lễ hội Cúng biển Mỹ Long; 5- Nghệ thuật sân khấu Dù Kê của người Khmer; 6- Lễ hội Ok Om Bok của người Khmer; 7- Lễ hội miếu Bà Chúa Xứ Núi Sam; 8- Đại lễ Kỳ yên đình Tân Phước; 9- Lễ hội vía Bà Ngũ Hành; 10- Lễ làm chay; 11- Nghề đóng xuồng ghe Long Hậu; 12- Nghề dệt chiếu lác; 13- Tục cúng việc lề; 14- Hội đua bò Bảy Núi; 15- Lễ hội Nghinh Ông; 16- Lễ hội Trương Định; 17- Văn hóa Chợ nổi Cái Răng (xem Hình 2). ...
Nội dung trích xuất từ tài liệu:
Đóng góp của đặc trưng văn bản trong bài toán phân lớp ảnh Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00022 ĐÓNG GÓP CỦA ĐẶC TRƯNG VĂN BẢN TRONG BÀI TOÁN PHÂN LỚP ẢNH Hà Thị Phương Anh1, Phạm Thế Phi2, Đỗ Thanh Nghị2 1 Khoa Công nghệ thông tin, Trường Đại học Bạc Liêu 2 Khoa Công nghệ thông tin & Truyền thông, Trường Đại học Cần Thơ htpanh52@gmail.com, ptphi@cit.ctu.edu.vn, dtnghi@cit.ctu.edu.vn TÓM TẮT: Trong bài viết này, chúng tôi đề xuất phương pháp phân lớp ảnh kết hợp các bộ phân lớp dựa trên đặc trưng ảnh và đặc trưng văn bản ở bộ phân lớp thứ ba sử dụng giải thuật hồi quy logistic. Đặc trưng văn bản sẽ được xây dựng dựa trên các văn bản đi kèm với ảnh, các bức ảnh này là ảnh láng giềng gần nhất với ảnh đầu vào trong tập ảnh chuẩn. Các đặc trưng ảnh được trích chọn với các phương pháp khác nhau để xác định phương pháp phù hợp nhất. Kết quả thực nghiệm trên tập dữ liệu hình ảnh di sản văn hóa phi vật thể cho thấy phương pháp được đề xuất đã cải thiện được hiệu quả phân lớp ảnh, đặc biệt là đối với những đặc trưng ảnh tốt và những lớp có số lượng ảnh tương đối và không bị nhiễu. Từ khóa: Phân lớp ảnh, đặc trưng ảnh, đặc trưng văn bản, hồi quy logistic. I. GIỚI THIỆU Một trong những nhiệm vụ quan trọng hiện nay trong lĩnh vực thị giác máy tính đó là phân lớp đối tượng. Phân lớp đối tượng là một nhiệm vụ dễ dàng cho con người nhưng lại là một vấn đề khá phức tạp đối với máy học, đặc biệt là phân lớp đối tượng trong ảnh. Hiện nay, đã có nhiều nghiên cứu về lĩnh vực nhận dạng và phân lớp ảnh như nghiên cứu của Torralba [2] về nhận dạng đối tượng trong ảnh có kích thước nhỏ 32x32 pixels dùng phương pháp trích đặc trưng SIFT; nghiên cứu của Đỗ Thanh Nghị [4] về phân lớp ảnh với giải thuật giảm gradient ngẫu nhiên đa lớp dựa vào phương pháp biểu diễn ảnh bằng đặc trưng SIFT và mô hình túi từ. Ngoài ra, còn có các nghiên cứu khác về lĩnh vực này [6, 7, 14, 16] sử dụng cách tiếp cận rút trích đặc trưng dựa trên phát hiện của các điểm, màu sắc, kết cấu, tổ chức đồ. Các nghiên cứu này phần lớn tập trung vào quá trình phân lớp dựa vào các đặc trưng cấp thấp như màu sắc, kết cấu, SIFT,... Nếu như chúng ta có hàng triệu bức ảnh trong tập huấn luyện thì những đặc trưng này sẽ có ý nghĩa, nhưng trong thực tế thì việc thu thập hàng triệu ảnh là một vấn đề vô cùng khó khăn và tốn kém về mặt chi phí, vì thế nếu tập dữ liệu không đủ lớn thì nó có thể gây khó khăn trong vấn đề phân khúc các đối tượng trong ảnh. Trong tình huống khác, ở đó chúng ta có sẵn một số lượng tương đối các bức ảnh đã được gán nhãn, đồng thời có các văn bản đi kèm với chúng, các văn bản này có thể sẽ cung cấp cho chúng ta thêm thông tin để phân tích hình ảnh. Khi đó, những đặc trưng cấp thấp được rút trích từ ảnh kết hợp với thông tin văn bản đi kèm có thể sẽ đủ làm đại diện biểu diễn cho ảnh. Như vậy, các văn bản đi kèm sẽ hỗ trợ cho việc phân lớp đối tượng trong ảnh chính xác và dễ dàng hơn [1, 15]. Ý tưởng chính trong bài viết này đó là chúng tôi sẽ tiến hành xây dựng các bộ phân lớp ảnh dựa trên các đặc trưng ảnh khác nhau và các bộ phân lớp văn bản dựa trên đặc trưng văn bản đại diện cho ảnh. Trọng tâm là xây dựng bộ phân lớp thứ ba kết hợp các giá trị tin cậy của hai bộ phân lớp trên sử dụng giải thuật hồi quy logistic (Hình 1). Kết quả thực nghiệm trên tập dữ liệu di sản văn hóa phi vật thể cho thấy các đặc trưng văn bản khi đưa vào các mô hình phân lớp kết hợp với các bộ phân lớp ảnh đã giúp cải thiện được hiệu quả phân lớp. Phần tiếp theo của bài viết được tổ chức như sau: phần II trình bày về tập dữ liệu hình ảnh văn hóa phi vật thể, phần III trình bày các phương pháp rút trích đặc trưng ảnh, phần IV trình bày phương pháp xây dựng đặc trưng văn bản, phần V giới thiệu về các giải thuật phân lớp, phần VI trình bày kết quả thực nghiệm, phần VII trình bày kết luận và hướng phát triển. Ảnh truy Trích đặc trưng Các bộ phân Kết hợp các vấn ảnh lớp ảnh bộ phân lớp Trích lọc k ảnh láng giềng gần Đặc trưng Các bộ phân lớp Tập ảnh Nhãn chuẩn nhất văn bản văn bản Hình 1. Quy trình phân lớp ảnh truy vấn sử dụng bộ phân lớp kết hợp các bộ phân lớp ảnh và bộ phân lớp văn bản sử dụng giải thuật hồi quy logistic Hà Thị Phương Anh, Phạm Thế Phi, Đỗ Thanh Nghị 169 II. CHUẨN BỊ TẬP DỮ LIỆU Tập dữ liệu thực nghiệm chúng tôi sử dụng là tập hình ảnh di sản văn hóa phi vật thể khu vực Đồng bằng sông Cửu Long được thu thập từ Internet, gồm 17 di sản (17 lớp) đó là: 1- Đờn ca tài tử Nam Bộ; 2- Nghệ thuật Chầm Riêng Chà pây của người Khmer; 3- Nghề dệt chiếu; 4- Lễ hội Cúng biển Mỹ Long; 5- Nghệ thuật sân khấu Dù Kê của người Khmer; 6- Lễ hội Ok Om Bok của người Khmer; 7- Lễ hội miếu Bà Chúa Xứ Núi Sam; 8- Đại lễ Kỳ yên đình Tân Phước; 9- Lễ hội vía Bà Ngũ Hành; 10- Lễ làm chay; 11- Nghề đóng xuồng ghe Long Hậu; 12- Nghề dệt chiếu lác; 13- Tục cúng việc lề; 14- Hội đua bò Bảy Núi; 15- Lễ hội Nghinh Ông; 16- Lễ hội Trương Định; 17- Văn hóa Chợ nổi Cái Răng (xem Hình 2). ...
Tìm kiếm theo từ khóa liên quan:
Phân lớp ảnh Đặc trưng ảnh Đặc trưng văn bản Hồi quy logistic Bài toán phân lớp ảnhGợi ý tài liệu liên quan:
-
Machine Learning cơ bản: Phần 1 - Vũ Hữu Tiệp
232 trang 55 0 0 -
108 trang 32 0 0
-
Bài giảng Khai phá web - Bài 9: Chủ đề nâng cao
41 trang 31 0 0 -
Phân lớp ảnh bằng KD-Tree Random Forest
12 trang 22 0 0 -
Phân loại phương tiện giao thông Việt Nam trong không ảnh
8 trang 22 0 0 -
Một tiếp cận tìm kiếm ảnh theo ngữ nghĩa dựa trên mạng nơ ron tích chập và Ontology
12 trang 21 0 0 -
Bài giảng Học máy: Bài 4 - Nguyễn Hoàng Long
0 trang 20 0 0 -
Phát hiện và ngăn chặn tấn công nhằm vào ứng dụng Web sử dụng SVM, XGBoost và rừng ngẫu nhiên
5 trang 19 0 0 -
Giáo trình Nhập môn trí tuệ nhân tạo: Phần 2 - Từ Minh Phương
99 trang 19 0 0 -
Một phương pháp tìm kiếm ảnh theo ngữ nghĩa dựa trên mạng nơron tích chập và Ontology
10 trang 18 0 0