Danh mục

Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh

Số trang: 67      Loại file: pdf      Dung lượng: 5.55 MB      Lượt xem: 14      Lượt tải: 0    
Jamona

Xem trước 7 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục tiêu của đề tài "Nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh" là tìm hiểu phương thức trích xuất thông tin từ hình ảnh để sinh ra ký tự, văn bản số thông qua việc nhận dạng ký tự quang học (OCR) cho tiếng Ba Na. Ở bước sau trích xuất, đề xuất kỹ thuật huấn luyện mô hình ngôn ngữ để sửa sai lỗi chính tả kí tự trên văn bản được sinh ra.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu nhận dạng chữ ba na trên văn bản hình ảnh UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀINHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ BÌNH DƯƠNG – 2021 UỶ BAN NHÂN DÂN TỈNH BÌNH DƯƠNG TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT ÔN THIỆN TÀINHẬN DẠNG CHỮ BA NA TRÊN VĂN BẢN HÌNH ẢNH CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8480104 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS. QUẢN THÀNH THƠ BÌNH DƯƠNG – 2021 LỜI CAM ĐOAN Tôi xin cam đoan đề tài “Nghiên cứu Nhận Dạng Chữ Ba Na Trên Văn BảnHình Ảnh” là một công trình nghiên cứu độc lập dưới sự hướng dẫn của giáo viênhướng dẫn: PGS.TS. Quản Thành Thơ. Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi camđoan toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hoặc sửdụng để nhận bằng cấp ở nơi khác. Đề tài, nội dung báo cáo là sản phẩm mà tôi đã nỗ lực nghiên cứu trong quá trìnhhọc tập tại trường. Các số liệu, kết quả trình bày trong báo cáo là hoàn toàn trung thực,em xin chịu hoàn toàn trách nhiệm, kỷ luật của nhà trường đề ra nếu như có vấn đề xảyra. Học viên thực hiện Luận văn ÔN THIỆN TÀI i LỜI CẢM ƠN Lời đầu tiên, tôi xin cảm ơn Ban Giám hiệu trường Đại học Thủ Dầu Một, Bộphận Đào tạo Sau đại học, Giảng viên tham gia giảng dạy đã giúp đỡ, tạo mọi điều kiệncho tôi nghiên cứu trong suốt quá trình học tập và thực hiện đề tài luận văn tốt nghiệp. Tôi xin được cảm ơn đến Thầy PGS.TS. Quản Thành Thơ đã cung cấp tài liệu,giúp đỡ , hướng dẫn và tạo điều kiện thuận lợi trong quá trình nghiên cứu, thực hiện đềtài. Cuối cùng tôi xin chân thành cảm ơn đến Quý Thầy cô trong Hội đồng bảo vệluận văn thạc sĩ đã góp ý để tôi hoàn thành tốt hơn luận văn này. Trân trọng cảm ơn! Học viên thực hiện Luận văn ÔN THIỆN TÀI ii TÓM TẮT Ngày nay, bảo tồn và phát huy tiếng nói, chữ viết các dân tộc thiểu số là cấp thiếtđể giữ gìn bản sắc văn hóa, thực hiện quyền bình đẳng giữa các dân tộc. Nhưng các cácloại sách báo, tư liệu về tiếng nói, chữ viết của các dân tộc thiểu số lại không nhiều,hoặc có thì lại được in trên giấy truyền thống. Do đó, qua thời gian văn bản in giấytruyền thống đó không còn chất lượng tốt, cập nhật, sửa chữa, và trao đổi cũng gập nhiềukhó khăn. Từ đó, nảy sinh vấn đề làm cách nào để khôi phục lại những thông tin củasách báo dưới dạng văn bản số để có thể cập nhật, tái bản hay để có thể lưu trữ lâu dàihơn. Việc khôi phục lại những thông tin được lưu trữ dưới dạng hình ảnh, điển hình từcuốn từ điển la tinh tiếng Ba Na mang đến tầm quan trọng đối với tiếng Ba Na khi cóthể lưu giữ và bảo tồn chúng dưới dạng văn bản số. Tuy nhiên việc chuyển đổi nàykhông phải lúc nào cũng luôn mang đến sự chính xác tuyệt đối, điều đó dẫn đến xuấthiện những lỗi sai chính tả trong văn bản số làm cho kết quả không đạt như mong muốn. Mục đích của nghiên cứu này là thực hiện hậu xử lý cho quá trình trên nhằm cảitiến chất lượng cho văn bản số đầu ra từ bước chuyển đổi. Trong phạm vi của luận án,tôi thực hiện các cách tiếp cận sau: • Thực hiện chuyển đổi thông tin từ hình ảnh sang văn bản số dưới định dạngphù hợp gồm mục từ và thân từ như cuốn từ điển gốc. • Xây dựng bộ sửa lỗi dựa trên mô hình ngôn ngữ mức kí tự nhằm sửa lỗi chính tảcho tiếng Ba Na. Mở rộng thêm với những phương thức nhằm tăng cường khả năng sửalỗi cho mô hình. • Đề xuất chiến lược cho mô hình ngôn ngữ trong việc đánh giá kí tự nguyênâm trên lỗi sai nhằm phù hợp với thực tế bài toán. Bên cạnh đó, dùng các kĩ thuật nghiệmsuy (heuristic) để bổ trợ cho việc sửa lỗi nhằm đem lại kết quả tốt nhất. Kết quả thực nghiệm cho thấy mô hình đề xuất mang tính ứng dụng cao khi giúpcải thiện chất lượng cho kết quả thu được từ việc chuyển đổi hình ảnh sang văn bản trêncuốn từ điển Tiếng Ba Na. Sau cùng luận văn đưa ra hướng mở rộng cho đề tài khi cóthể phát triển mô hình này nhằm đạt kết quả tốt hơn hoặc sử dụng vào những nghiên cứukhác liên quan đến sửa lỗi chính tả tiếng Ba Na. iii MỤC LỤCLỜI CAM ĐOAN ......................................................................... ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: