Bài viết này đề xuất một giải pháp để nâng cao hiệu quả phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh. Về cơ bản, phương pháp phát hiện văn bản ở đây được đề xuất dựa trên ý tưởng xây dựng cơ chế tập trung ngữ cảnh (context attention) để học các thuộc tính hình học khác nhau nhằm tái tạo lại biểu diễn đa giác của các vùng văn bản.
Nội dung trích xuất từ tài liệu:
Nâng cao hiệu quả phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh dựa trên cơ chế tập trung ngữ cảnh Nguyễn Thị Thanh Tân, Huỳnh Văn Huy, Ngô Quốc Tạo NÂNG CAO HIỆU QUẢ PHÁT HIỆN VĂN BẢN TIẾNG VIỆT TRONG ẢNH NGOẠI CẢNH DỰA TRÊN CƠ CHẾ TẬP TRUNG NGỮ CẢNH Nguyễn Thị Thanh Tân*, Huỳnh Văn Huy#, Ngô Quốc Tạo+ * Đại học Điện Lực # Trường Đại học Lạc Hồng + Viện Công nghệ Thông tin – Viện Hàn lâm KH&CN Việt Nam Abstract— Bài báo này đề xuất một giải pháp để nâng thuật trên các linh kiện. Nhận dạng biển báo giao thôngcao hiệu quả phát hiện văn bản tiếng Việt trong ảnh ngoại hỗ trợ người khiếm thị, xe tự hành, v.v.cảnh. Về cơ bản, phương pháp phát hiện văn bản ở đây So với bài toán OCR truyền thống, việc phát hiện phátđược đề xuất dựa trên ý tưởng xây dựng cơ chế tập trung hiện văn bản tiếng Việt trong ảnh ngoại cảnh thường cóngữ cảnh (context attention) để học các thuộc tính hình độ phức tạp lớn và phải đối mặt với nhiều thách thức dohọc khác nhau nhằm tái tạo lại biểu diễn đa giác của các các nguyên nhân sau: i) Ảnh có độ phức tạp cao do chứavùng văn bản. Hiệu quả của phương pháp đã được kiểm nhiều loại đối tượng và nhiễu khác nhau; ii) Văn bảnnghiệm trên hai tập dữ liệu ngoại cảnh tiếng Việt, bao trong ảnh thường không chuẩn (irregular) với nhiều hìnhgồm: VinText và VnSceneText. Các kết quả thực nghiệm dạng, kích thước, hướng, màu sắc và kiểu chữ khác nhau;cho thấy phương pháp đề xuất có khả năng phát hiện iii) Không có sự đồng nhất giữa các hình ảnh do ảnh đượcđược các văn bản tiếng Việt có hình dạng và kích thước chụp từ nhiều góc độ, khoảng cách, ánh sáng và độ phânbất kỳ với độ chính xác cao và ổn định. Cụ thể, phương giải khác nhau; iv) Văn bản có thể bị che khuất bởi cácpháp đạt Precision (độ chính xác), Recall (độ phủ), đối tượng khác trong ảnh hoặc bởi các yếu tố khác nhưHmean (độ trung bình điều hòa) trên tập VinText là mờ, tối, chói sáng hoặc nhiễu; v) Bài toán phát hiện văn(85.63%, 87.94%, 86.77%) và trên tập VnSceneText là(85.14%, 87.23%, 86.17%). Các kết quả thực nghiệm cho bản ngoại cảnh thường phải xử lý một lượng lớn các hìnhthấy đây là một hướng tiếp cận khả thi đối với việc phát ảnh hoặc video, điều này đòi hỏi các thuật toán phải cóhiện văn bản tiếng Việt trong ảnh ngoại cảnh. khả năng xử lý dữ liệu nhanh và hiệu quả. Đối với việc phát hiện văn bản ngoại cảnh tiếng Việt, Keywords— Văn bản ngoại cảnh, ảnh ngoại cảnh, vùng ngoài việc phải đối mặt với các thách thức của bài toánvăn bản, phân đoạn, phát hiện, đặc trưng, ánh xạ, độ chính phát hiện văn bản trong ảnh ngoại cảnh nói chung, cònxác, độ phủ, độ trung bình điều hòa, tích chập, scale, gặp phải nhiều khó khăn, thách thức do đặc điểm cấu trúcbatch, batch normal. và ngôn ngữ, điển hình như: Phức tạp về ngữ pháp và cấu trúc: Cấu trúc tiếngI. MỞ ĐẦU Việt phức tạp hơn với việc sử dụng dấu thanh điều chỉnh Ảnh văn bản ngoại cảnh (scene text image) là những ngữ điệu của từ ngữ, cũng như cách viết liền và cách viếthình ảnh chứa văn bản được chụp trong một môi trường tách giữa các từ ghép, điều này tạo thêm thách thức trongtự nhiên (ngoại cảnh) mà không phải là văn bản trong tài việc nhận dạng và phân biệt các từ và cụm từ. Bên cạnhliệu được quét hoặc trong môi trường số hóa. Văn bản này đó, các tầng dấu thanh trong ảnh ngoại cảnh đôi khi đượccó thể xuất hiện trên các bề mặt khác nhau như biển báo, in ẫn rất ngẫu hứng, có thể gây ra vấn đề dính chữ và dínhquảng cáo, bảng chỉ dẫn, bảng menu, tên đường, và nhiều dòng trong văn bản, làm giảm độ chính xác trong phátđối tượng khác trong đời sống hàng ngày. hiện và nhận dạng. Phát hiện văn bản trong ảnh ngoại cảnh (scene text Cỡ chữ và hình thức biểu đạt ...