Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân - Trịnh Tấn Đạt
Số trang: 21
Loại file: pdf
Dung lượng: 1.22 MB
Lượt xem: 61
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân trình bày nội dung: giới thiệu về hệ thống nhận dạng ký tự Việt ngữ trong hình ảnh hiệu suất chưa cao; mô hình đề xuất trích xuất các vùng thông tin trong ảnh CCCD; hiệu quả nhận dạng Việt ngữ cho từng vùng thông tin trên CCCD; kết quả trích xuất và nhận dạng các vùng thông tin trong ảnh CCCD;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân - Trịnh Tấn Đạt Ứng Dụng Nhận Dạng Tiếng Việt Trong Trích Xuất Thông Tin Từ Căn Cước Công Dân Trịnh Tấn Đạt Nội dung 1. Giới thiệu 2. Mô hình đề xuất 3. Thực nghiệm và kết quả 4. Sản phẩm 5. Kết luận Giới thiệu ❖ Khó khăn và thách thức: ▪ Hệ thống nhận dạng ký tự Việt ngữ trong hình ảnh hiệu suất chưa cao. • Nhiễu • Ảnh bị mờ • Ảnh bị ảnh hưởng bởi ánh sáng/bóng tối • Độ phân giải thấp • Mất mát thông tin Mô hình đề xuất Input image Cropper Text Detector Text Recognizer Results Số: 079060 Ngày, tháng, năm sinh: 26/04/1996 Giới tính: Nam Quốc tịch: Việt Nam … Mô hình đề xuất ❖Cropper: Xác định vị trí của CCCD trong ảnh đầu vào có nền và chuẩn hóa ảnh CCCD về góc nhìn ở phía trước (front-view hay top-down view) ▪ Mô hình Mask R-CNN để phân đoạn ảnh CCCD và tìm biên của CCCD. ▪ Dựa vào biên của đối tượng, chúng tôi xác định 4 đỉnh của CCCD và áp dụng Perspective Transform để chuẩn hóa CCCD về góc nhìn trực diện. Kết quả của Mask-RCNN cho việc chuẩn hóa ảnh CCCD Mô hình đề xuất ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD ▪ Hướng tiếp cận 1: dùng các kỹ thuật xử lý ảnh ▪ Hướng tiếp cận 2: dùng EAST detector Mô hình đề xuất Convert to grayscale image ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD Gaussian smoothing Black- hata operator Dùng các kỹ thuật xử lý ảnh Magnitude of gradient by x- direction Closing operator Otsu thresholdin g Find Using connected heuristic components information Extract text lines Mô hình đề xuất ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD Dùng EAST detector Kết quả của EAST detector Kết quả khi hậu xử lý Mô hình đề xuất “Giới tính: Nam” Predicted sequence Transcription ❖ Text Recognition Layer ▪ Mạng tích chập hồi quy (CRNN) kết hợp Per-frame predictions (joint CTC-Attention) CTC. ▪ Mạng CRNN kết hợp cơ chế Attention. Deep bidirectional LSTM ▪ Kết hợp giữa mạng tích chập (CNN), Recurrent Layers mạng hồi quy (LSTM) và cơ chế Attention kết hợp CTC Feature sequence (CNN+LSTM+CTC+Attention) trong một mô hình đầu cuối (end-to-end). Convolutional Layers Convolutional feature maps Input (text lines) Mô hình đề xuất Thực nghiệm và kết quả ❖Dữ liệu ▪ 120 ảnh CCCD (ảnh thật) thu thập được chỉ được dùng trong quá trình kiểm tra ▪ Để huấn luyện mô hình đề xuất, chúng tôi sử dụng kỹ thuật tạo dữ liệu giả (synthetic data và augmentation data). ▪ 1150 ảnh CCCD với nền được dùng để huấn luyện mô hình Mask- RCNN. ▪ Các dữ liệu ảnh CCCD giả chứa đựng 73090 dòng văn bản chứa đựng các thông tin cơ bản của CCCD như: số CCCD, họ tên, ngày tháng năm sinh, quê quán. o 70044 mẫu như tập huấn luyện o 3046 mẫu được dùng như tập kiểm thử (valid data). o 1065 dòng thông tin (từ ảnh thật) để đánh giá mô hình nhận dạng Thực nghiệm và kết quả Dữ liệu giả để huấn luyện mô hình nhận dạng CRNN. Kết quả ▪ Kết quả so sánh của mô hình Cropper The Cropper Độ chính xác (%) Thời gian xử lý (giây) Mask-RCNN Resnet50 96.13% 0.50s Mask-RCNN Resnet101 95.92% 0.52s Mask-RCNN InceptionResnet V2 98.85% 0.59s Kết quả ▪ Ví dụ kết quả từ Cropper Ảnh đầu vào Kết quả Mask-RCNN CCCD được chuẩn hóa Kết quả ▪ Kết quả so sánh của mô hình Text Detector Phương pháp Precision (%) Recall (%) F1-score (%) Thời gian xử lý (giây) Phương pháp dùng xử lý 0.886 0.890 0.888 0.027s ảnh EAST detector ...
Nội dung trích xuất từ tài liệu:
Bài giảng Ứng dụng nhận dạng tiếng Việt trong trích xuất thông tin từ căn cước công dân - Trịnh Tấn Đạt Ứng Dụng Nhận Dạng Tiếng Việt Trong Trích Xuất Thông Tin Từ Căn Cước Công Dân Trịnh Tấn Đạt Nội dung 1. Giới thiệu 2. Mô hình đề xuất 3. Thực nghiệm và kết quả 4. Sản phẩm 5. Kết luận Giới thiệu ❖ Khó khăn và thách thức: ▪ Hệ thống nhận dạng ký tự Việt ngữ trong hình ảnh hiệu suất chưa cao. • Nhiễu • Ảnh bị mờ • Ảnh bị ảnh hưởng bởi ánh sáng/bóng tối • Độ phân giải thấp • Mất mát thông tin Mô hình đề xuất Input image Cropper Text Detector Text Recognizer Results Số: 079060 Ngày, tháng, năm sinh: 26/04/1996 Giới tính: Nam Quốc tịch: Việt Nam … Mô hình đề xuất ❖Cropper: Xác định vị trí của CCCD trong ảnh đầu vào có nền và chuẩn hóa ảnh CCCD về góc nhìn ở phía trước (front-view hay top-down view) ▪ Mô hình Mask R-CNN để phân đoạn ảnh CCCD và tìm biên của CCCD. ▪ Dựa vào biên của đối tượng, chúng tôi xác định 4 đỉnh của CCCD và áp dụng Perspective Transform để chuẩn hóa CCCD về góc nhìn trực diện. Kết quả của Mask-RCNN cho việc chuẩn hóa ảnh CCCD Mô hình đề xuất ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD ▪ Hướng tiếp cận 1: dùng các kỹ thuật xử lý ảnh ▪ Hướng tiếp cận 2: dùng EAST detector Mô hình đề xuất Convert to grayscale image ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD Gaussian smoothing Black- hata operator Dùng các kỹ thuật xử lý ảnh Magnitude of gradient by x- direction Closing operator Otsu thresholdin g Find Using connected heuristic components information Extract text lines Mô hình đề xuất ❖Text Detector: trích xuất các vùng thông tin trong ảnh CCCD Dùng EAST detector Kết quả của EAST detector Kết quả khi hậu xử lý Mô hình đề xuất “Giới tính: Nam” Predicted sequence Transcription ❖ Text Recognition Layer ▪ Mạng tích chập hồi quy (CRNN) kết hợp Per-frame predictions (joint CTC-Attention) CTC. ▪ Mạng CRNN kết hợp cơ chế Attention. Deep bidirectional LSTM ▪ Kết hợp giữa mạng tích chập (CNN), Recurrent Layers mạng hồi quy (LSTM) và cơ chế Attention kết hợp CTC Feature sequence (CNN+LSTM+CTC+Attention) trong một mô hình đầu cuối (end-to-end). Convolutional Layers Convolutional feature maps Input (text lines) Mô hình đề xuất Thực nghiệm và kết quả ❖Dữ liệu ▪ 120 ảnh CCCD (ảnh thật) thu thập được chỉ được dùng trong quá trình kiểm tra ▪ Để huấn luyện mô hình đề xuất, chúng tôi sử dụng kỹ thuật tạo dữ liệu giả (synthetic data và augmentation data). ▪ 1150 ảnh CCCD với nền được dùng để huấn luyện mô hình Mask- RCNN. ▪ Các dữ liệu ảnh CCCD giả chứa đựng 73090 dòng văn bản chứa đựng các thông tin cơ bản của CCCD như: số CCCD, họ tên, ngày tháng năm sinh, quê quán. o 70044 mẫu như tập huấn luyện o 3046 mẫu được dùng như tập kiểm thử (valid data). o 1065 dòng thông tin (từ ảnh thật) để đánh giá mô hình nhận dạng Thực nghiệm và kết quả Dữ liệu giả để huấn luyện mô hình nhận dạng CRNN. Kết quả ▪ Kết quả so sánh của mô hình Cropper The Cropper Độ chính xác (%) Thời gian xử lý (giây) Mask-RCNN Resnet50 96.13% 0.50s Mask-RCNN Resnet101 95.92% 0.52s Mask-RCNN InceptionResnet V2 98.85% 0.59s Kết quả ▪ Ví dụ kết quả từ Cropper Ảnh đầu vào Kết quả Mask-RCNN CCCD được chuẩn hóa Kết quả ▪ Kết quả so sánh của mô hình Text Detector Phương pháp Precision (%) Recall (%) F1-score (%) Thời gian xử lý (giây) Phương pháp dùng xử lý 0.886 0.890 0.888 0.027s ảnh EAST detector ...
Tìm kiếm theo từ khóa liên quan:
Nhận dạng tiếng Việt Trích xuất thông tin Căn cước công dân Hệ thống nhận dạng ký tự Việt ngữ Mô hình Cropper Mô hình Text Detector Kỹ thuật xử lý ảnh Mạng tích chập hồi quyGợi ý tài liệu liên quan:
-
44 trang 294 0 0
-
Giáo trình Khai thác phần mềm ứng dụng
247 trang 111 0 0 -
65 trang 87 3 0
-
51 trang 79 0 0
-
393 trang 47 0 0
-
Xây dựng hệ thống nhận dạng lỗi tự động của tấm pin năng lượng mặt trời
3 trang 40 0 0 -
Bài giảng Xử lý ảnh: Chương 6 - Ths. Trần Thúy Hà
38 trang 40 0 0 -
3 trang 39 0 0
-
24 trang 33 0 0
-
Bài giảng Xử lý ảnh: Chương 3 - Ths. Trần Thúy Hà
65 trang 33 0 0