Xây dựng mô hình kiểm tra đối chiếu dữ liệu sử dụng nhận dạng ký tự quang học
Số trang: 10
Loại file: pdf
Dung lượng: 1,017.40 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong nghiên cứu này, tác giả đề xuất mô hình cho phép trích xuất tự động thông tin từ văn bằng, chứng chỉ sử dụng kỹ thuật nhận dạng ký tự quang học để đối chiếu dữ liệu. Bài viết đề xuất ứng dụng mô hình vào các hệ thống đối chiếu dữ liệu và đưa ra một số khuyến nghị cho các nghiên cứu tương tự trong tương lai.
Nội dung trích xuất từ tài liệu:
Xây dựng mô hình kiểm tra đối chiếu dữ liệu sử dụng nhận dạng ký tự quang học XÂY DỰNG MÔ HÌNH KIỂM TRA ĐỐI CHIẾU DỮ LIỆU SỬ DỤNG NHẬN DẠNG KÝ TỰ QUANG HỌC Nguyễn Bá Duy, Đinh Thành Nhân và Nguyễn Trung Kiên Trường Đại học Kỹ thuật - Công nghệ Cần Thơ Email: nbduy@ctuet.edu.vnThông tin chung: TÓM TẮTNgày nhận bài: 03.12.2023 Kiểm tra và đối chiếu thông tin trên văn bằng, chứng chỉNgày nhận bài sửa:19.02.2024 trước khi công khai là một nhiệm vụ quan trọng, trong đó việc đốiNgày duyệt đăng:20.02.2024 chiếu thông tin từ bản scan của văn bằng, chứng chỉ với thông tin lưu trữ trong cơ sở dữ liệu là một giải pháp đơn giản hiệu quả.Từ khóa: Trong nghiên cứu này, tác giả đề xuất mô hình cho phép tríchThị giác máy tính, trích xuất xuất tự động thông tin từ văn bằng, chứng chỉ sử dụng kỹ thuậtthông tin ảnh, xử lý ảnh. nhận dạng ký tự quang học để đối chiếu dữ liệu. Tác giả thực nghiệm mô hình trên tập dữ liệu gồm 200 chứng chỉ ứng dụng công nghệ thông tin của Trung tâm Ngoại ngữ - Tin học thuộc Trường Đại học Kỹ thuật - Công nghệ Cần Thơ, xây dựng một hệ thống đối chiếu dữ liệu tích hợp vào hệ thống tra cứu chứng chỉ của Trung tâm và kết quả thực nghiệm cho thấy hệ thống có thể số hóa và trích xuất thông tin với độ chính xác 89,72%. Dựa trên kết quả đạt được, tác giả đề xuất ứng dụng mô hình vào các hệ thống đối chiếu dữ liệu và đưa ra một số khuyến nghị cho các nghiên cứu tương tự trong tương lai. 1. ĐẶT VẤN ĐỀ OCR). Nhận dạng ký tự quang học là việc sử dụng công nghệ để phân biệt các ký tự văn Cuộc cách mạng công nghiệp 4.0 và đặt bản in ấn hoặc viết tay trong ảnh kỹ thuật sốbiệt là công cuộc chuyển đổi số đang diễn ra của tài liệu vật lý, như bản scan của tài liệu.mạnh mẽ trên toàn thế giới, do đó ứng dụng Quy trình nhận dạng ký tự quang học cơ bảncông nghệ thông tin nhằm nâng cao hiệu quả bao gồm phân tích văn bản của một tài liệu vàcông tác có vai trò to lớn hơn bao giờ hết. phiên dịch các ký tự thành mã có thể sử dụngTrong đó, việc trích xuất thông tin để so khớpdữ liệu, xác minh dữ liệu văn bằng, chứng chỉ để xử lý dữ liệu. Phương pháp này đã được sử dụng rộng rãi như một hình thức nhập thônglà một trong những ứng dụng quan trọng. tin từ các bản ghi dữ liệu trên giấy và là mộtThực tế, công tác này chưa được quan tâm phương pháp phổ biến trong việc trích xuất dữnhiều, vì thế tác giả đề xuất mô hình kiểm tra, liệu văn bản từ tập tin.đối chiếu dữ liệu trên thông tin văn bằng,chứng chỉ nhằm nâng cao hiệu quả đối chiếu Từ mô hình đề xuất, tác giả xây dựng hệdữ liệu đã lưu trữ với thông tin được ghi trên thống tích hợp vào trang tra cứu thông tinvăn bằng, chứng chỉ. Mô hình thực hiện so chứng chỉ ứng dụng công nghệ thông tin củakhớp, xác minh tài liệu bằng nhận dạng ký tự Trung tâm Ngoại ngữ - Tin học thuộcquang học (Optical Character Recognition - trường Đại học Kỹ thuật - Công nghệ Cần TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ CẦN THƠ - SỐ 01 THÁNG 02/2024 3Thơ để đánh giá hiệu quả mô hình mang lại. bản đúng vị trí chuẩn, chuyển sang ảnh xámHệ thống tích hợp thực hiện trích xuất thông từ ảnh đầu vào. Sau đó xác định các từ, cáctin từ tập tin hình ảnh chứng chỉ ứng dụng dòng và các ký tự trong ảnh, so sánh danhcông nghệ thông tin đã chọn để so khớp với mục các ký tự tương đồng nhất với các ký tựthông tin đã được lưu trữ trên cơ sở dữ liệu đã xác định, sử dụng kết hợp từ điển và cácvà thực hiện cảnh báo cho người dùng tại cấu trúc ngữ pháp để nhận dạng đúng các kýcác trường dữ liệu bị sai trước khi công khai tự, cuối cùng hiển thị nội dung văn bản trongthông tin. hộp văn bản của website. 2. PHƯƠNG PHÁP NGHIÊN CỨU Bài báo trích xuất và xác định văn bản Trong những năm gần đây, thị giác máy dựa trên OCR do Anshul Arora và cộng sựtính đã có một số thành tựu trong lĩnh vực (2021) đã giới thiệu quy trình và các kỹ thuậtnhận dạng chữ viết in. Có rất nhiều hệ thống để trích xuất văn bản từ ảnh, quy trình gồm 3áp dụng thị giác máy tính để trích xuất thông bước: Bước 1- Tiền xử lý (chỉnh lại văn bảntin và đạt được nhiều thành tựu. đúng vị trí chuẩn, loại bỏ nhòe, chuyển thành ảnh nhị phân, xóa các dòng đóng khung). Nhã và cộng sự (2022) xây dựng hệ thống Bước 2- Nhận dạng văn bản (đề xuất sử dụngeYKC, là phần mềm xác minh danh tính của phương pháp đối sánh mẫu, nhận dạngkhách hàng dựa vào hình chụp giấy tờ tùy ...
Nội dung trích xuất từ tài liệu:
Xây dựng mô hình kiểm tra đối chiếu dữ liệu sử dụng nhận dạng ký tự quang học XÂY DỰNG MÔ HÌNH KIỂM TRA ĐỐI CHIẾU DỮ LIỆU SỬ DỤNG NHẬN DẠNG KÝ TỰ QUANG HỌC Nguyễn Bá Duy, Đinh Thành Nhân và Nguyễn Trung Kiên Trường Đại học Kỹ thuật - Công nghệ Cần Thơ Email: nbduy@ctuet.edu.vnThông tin chung: TÓM TẮTNgày nhận bài: 03.12.2023 Kiểm tra và đối chiếu thông tin trên văn bằng, chứng chỉNgày nhận bài sửa:19.02.2024 trước khi công khai là một nhiệm vụ quan trọng, trong đó việc đốiNgày duyệt đăng:20.02.2024 chiếu thông tin từ bản scan của văn bằng, chứng chỉ với thông tin lưu trữ trong cơ sở dữ liệu là một giải pháp đơn giản hiệu quả.Từ khóa: Trong nghiên cứu này, tác giả đề xuất mô hình cho phép tríchThị giác máy tính, trích xuất xuất tự động thông tin từ văn bằng, chứng chỉ sử dụng kỹ thuậtthông tin ảnh, xử lý ảnh. nhận dạng ký tự quang học để đối chiếu dữ liệu. Tác giả thực nghiệm mô hình trên tập dữ liệu gồm 200 chứng chỉ ứng dụng công nghệ thông tin của Trung tâm Ngoại ngữ - Tin học thuộc Trường Đại học Kỹ thuật - Công nghệ Cần Thơ, xây dựng một hệ thống đối chiếu dữ liệu tích hợp vào hệ thống tra cứu chứng chỉ của Trung tâm và kết quả thực nghiệm cho thấy hệ thống có thể số hóa và trích xuất thông tin với độ chính xác 89,72%. Dựa trên kết quả đạt được, tác giả đề xuất ứng dụng mô hình vào các hệ thống đối chiếu dữ liệu và đưa ra một số khuyến nghị cho các nghiên cứu tương tự trong tương lai. 1. ĐẶT VẤN ĐỀ OCR). Nhận dạng ký tự quang học là việc sử dụng công nghệ để phân biệt các ký tự văn Cuộc cách mạng công nghiệp 4.0 và đặt bản in ấn hoặc viết tay trong ảnh kỹ thuật sốbiệt là công cuộc chuyển đổi số đang diễn ra của tài liệu vật lý, như bản scan của tài liệu.mạnh mẽ trên toàn thế giới, do đó ứng dụng Quy trình nhận dạng ký tự quang học cơ bảncông nghệ thông tin nhằm nâng cao hiệu quả bao gồm phân tích văn bản của một tài liệu vàcông tác có vai trò to lớn hơn bao giờ hết. phiên dịch các ký tự thành mã có thể sử dụngTrong đó, việc trích xuất thông tin để so khớpdữ liệu, xác minh dữ liệu văn bằng, chứng chỉ để xử lý dữ liệu. Phương pháp này đã được sử dụng rộng rãi như một hình thức nhập thônglà một trong những ứng dụng quan trọng. tin từ các bản ghi dữ liệu trên giấy và là mộtThực tế, công tác này chưa được quan tâm phương pháp phổ biến trong việc trích xuất dữnhiều, vì thế tác giả đề xuất mô hình kiểm tra, liệu văn bản từ tập tin.đối chiếu dữ liệu trên thông tin văn bằng,chứng chỉ nhằm nâng cao hiệu quả đối chiếu Từ mô hình đề xuất, tác giả xây dựng hệdữ liệu đã lưu trữ với thông tin được ghi trên thống tích hợp vào trang tra cứu thông tinvăn bằng, chứng chỉ. Mô hình thực hiện so chứng chỉ ứng dụng công nghệ thông tin củakhớp, xác minh tài liệu bằng nhận dạng ký tự Trung tâm Ngoại ngữ - Tin học thuộcquang học (Optical Character Recognition - trường Đại học Kỹ thuật - Công nghệ Cần TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ CẦN THƠ - SỐ 01 THÁNG 02/2024 3Thơ để đánh giá hiệu quả mô hình mang lại. bản đúng vị trí chuẩn, chuyển sang ảnh xámHệ thống tích hợp thực hiện trích xuất thông từ ảnh đầu vào. Sau đó xác định các từ, cáctin từ tập tin hình ảnh chứng chỉ ứng dụng dòng và các ký tự trong ảnh, so sánh danhcông nghệ thông tin đã chọn để so khớp với mục các ký tự tương đồng nhất với các ký tựthông tin đã được lưu trữ trên cơ sở dữ liệu đã xác định, sử dụng kết hợp từ điển và cácvà thực hiện cảnh báo cho người dùng tại cấu trúc ngữ pháp để nhận dạng đúng các kýcác trường dữ liệu bị sai trước khi công khai tự, cuối cùng hiển thị nội dung văn bản trongthông tin. hộp văn bản của website. 2. PHƯƠNG PHÁP NGHIÊN CỨU Bài báo trích xuất và xác định văn bản Trong những năm gần đây, thị giác máy dựa trên OCR do Anshul Arora và cộng sựtính đã có một số thành tựu trong lĩnh vực (2021) đã giới thiệu quy trình và các kỹ thuậtnhận dạng chữ viết in. Có rất nhiều hệ thống để trích xuất văn bản từ ảnh, quy trình gồm 3áp dụng thị giác máy tính để trích xuất thông bước: Bước 1- Tiền xử lý (chỉnh lại văn bảntin và đạt được nhiều thành tựu. đúng vị trí chuẩn, loại bỏ nhòe, chuyển thành ảnh nhị phân, xóa các dòng đóng khung). Nhã và cộng sự (2022) xây dựng hệ thống Bước 2- Nhận dạng văn bản (đề xuất sử dụngeYKC, là phần mềm xác minh danh tính của phương pháp đối sánh mẫu, nhận dạngkhách hàng dựa vào hình chụp giấy tờ tùy ...
Tìm kiếm theo từ khóa liên quan:
Thị giác máy tính Trích xuất thông tin ảnh Xử lý ảnh Mô hình kiểm tra đối chiếu dữ liệu Nhận dạng ký tự quang họcTài liệu liên quan:
-
Phương pháp truyền dữ liệu giữa hai điện thoại thông minh qua môi trường ánh sáng nhìn thấy
6 trang 340 0 0 -
Đồ án: Kỹ thuật xử lý ảnh sử dụng biến đổi Wavelet
41 trang 220 0 0 -
Xây dựng công cụ nhận dạng khuôn mặt theo thời gian thực hiện trên nền hệ điều hành mã nguồn mỡ
7 trang 214 0 0 -
Đồ án tốt nghiệp: Ứng dụng xử lý ảnh trong hệ thống phân loại sản phẩm
123 trang 205 0 0 -
Bài giảng Học sâu và ứng dụng - Bài 7: Một số ứng dụng học sâu trong thị giác máy (Phần 1)
64 trang 199 0 0 -
Đề cương chi tiết môn học Kỹ thuật đồ họa và xử lý ảnh
5 trang 180 1 0 -
Giáo trình Thị giác máy tính và ứng dụng: Phần 2
92 trang 179 0 0 -
Đồ án tốt nghiệp: Ứng dụng camera 3D trong việc phân loại sản phẩm theo hình dạng và kích thước
83 trang 116 0 0 -
578 trang 105 0 0
-
Phương pháp Xử lý ảnh bằng kỹ thuật số: Phần 1
92 trang 102 0 0