Nhận dạng tiếng Việt trên hệ điều hành android
Số trang: 13
Loại file: pdf
Dung lượng: 763.35 KB
Lượt xem: 27
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo "Nhận dạng tiếng Việt trên hệ điều hành android" giới thiệu một phương pháp nhận dạng tiếng Việt từ ảnh chụp trên điện thoại di động sử dụng hệ điều hành Android. Phương pháp này sử dụng thư viện Tesseract của Google, xây dựng bộ dữ liệu hoàn chỉnh hơn so với gói dữ liệu sẵn có của Tesseract, cùng với thuật toán xử lí lỗi trên đoạn văn bản sau khi nhận dạng. Kết quả nhận dạng cho kết quả tương đối cao với độ chính xác 93%.
Nội dung trích xuất từ tài liệu:
Nhận dạng tiếng Việt trên hệ điều hành android KỈ YẾU HỘI NGHỊ SINH VIÊN NGHIÊN CỨU KHOA HỌC NĂM HỌC 2013-2014 NHẬN DẠNG TIẾNG VIỆT TRÊN HỆ ĐIỀU HÀNH ANDROID Phạm Thúy Nga, Lớp K60B, Khoa Công nghệ Thông tin GVHD: ThS. Nguyễn Minh Quang Tóm tắt: Công nghệ nhận dạng kí tự quang học (Optical Character Recognition - OCR) là một công nghệ được ứng dụng rộng rãi trong các phần mềm desktop và mobile, nhằm trích xuất văn bản từ ảnh scan hoặc ảnh chụp qua camera. Tại Việt Nam, đã có nhiều hướng nghiên cứu ứng dụng OCR trong các bài toán nhận dạng chữ in tiếng Việt từ file ảnh có sẵn trên máy tính, file PDF hoặc ảnh scan. Tuy nhiên hiện nay hầu như chưa có nghiên cứu nào tập trung vào việc nhận dạng tiếng Việt trên nền tảng di động. Trong bài báo này chúng tôi giới thiệu một phương pháp nhận dạng tiếng Việt từ ảnh chụp trên điện thoại di động sử dụng hệ điều hành Android. Phương pháp này sử dụng thư viện Tesseract của Google, xây dựng bộ dữ liệu hoàn chỉnh hơn so với gói dữ liệu sẵn có của Tesseract, cùng với thuật toán xử lí lỗi trên đoạn văn bản sau khi nhận dạng. Kết quả nhận dạng cho kết quả tương đối cao với độ chính xác 93%. Từ khóa: Nhận dạng kí tự quang học, nhận dạng tiếng Việt, OCR, Tesseract. I. MỞ ĐẦU Nhận dạng kí tự quang học là một công nghệ hữu ích để chuyển các ảnh chụp văn bản, ảnh quét, tập tin PDF sang dạng số, phục vụ cho việc số hóa tài liệu, lƣu trữ, xử lí văn bản, tìm kiếm… và nhiều ứng dụng khác [2]. Trƣớc đây, OCR đƣợc phát triển dành riêng cho máy in, máy quét để nhận dạng văn bản, phổ biến nhất là tự động chuyển văn bản scan thành tài liệu lƣu trên máy tính. Cùng với sự phát triển của các thiết bị cầm tay, nhiều nghiên cứu bắt đầu hƣớng đến việc áp dụng OCR trên hệ điều hành di động, do lợi thế to lớn của những thiết bị di động, nhƣ sự nhỏ gọn, tiện lợi, có thể mang đi mọi lúc mọi nơi và đƣợc trang bị nhiều chức năng không kém các máy tính thông thƣờng. Đối với tiếng Việt, việc nghiên cứu OCR trên di động có thể mang lại nhiều lợi ích to lớn cả về nghiên cứu lẫn ứng dụng. Nhận dạng tiếng Việt thành công có thể phục vụ cho việc số hóa thủ tục hành chính, ví dụ lƣu trữ thông tin thông qua ảnh chụp chứng minh thƣ, biển số xe…, phục vụ công tác quốc phòng – an ninh; về mặt dân sự, nghiên cứu này hỗ trợ cho việc xây dựng những ứng dụng dịch thuật, đọc văn bản cho ngƣời khiếm thị, tìm kiếm thông tin… từ những văn bản linh động hơn nhiều so với văn bản quét, nhƣ business card, tựa đề sách báo, biển quảng cáo, hóa đơn, v.v… Hiện nay, trên thế giới đã có nhiều nghiên cứu cũng nhƣ ứng dụng OCR để nhận dạng chữ in ở nhiều ngôn ngữ khác nhau trên hệ điều hành di động. Nhìn chung, vấn đề nhận dạng kí tự Latinh gần nhƣ đã đƣợc giải quyết [1], [2]. Hƣớng nghiên cứu trong những năm gần đây tập trung vào nhận dạng các ngôn ngữ có kí tự tựa Latinh nhƣng thêm dấu hoặc kí tự đặc biệt, nhƣ tiếng Pháp, tiếng Nga… và ngôn ngữ tƣợng hình. Một nghiên cứu của Hasnat tại Bangladesh đã cho ra đời ứng dụng hoàn chỉnh dựa trên mã nguồn mở Tesseract để nhận dạng tiếng Bangla, một ngôn ngữ có nguồn gốc tiếng Phạn, thuộc nhóm tƣợng hình [3]. Mới đây nhất, Google đã cho ra đời ứng dụng Google Goggles [4] trên cả Android và iOS, một ứng dụng mạnh mẽ cho phép ngƣời sử dụng tìm kiếm trên web bằng 171 KỈ YẾU HỘI NGHỊ SINH VIÊN NGHIÊN CỨU KHOA HỌC NĂM HỌC 2013-2014 ảnh chụp trên điện thoại di động, bằng nhiều ngôn ngữ khác nhau chủ yếu có nguồn gốc tiếng Latinh. \par. Tại Việt Nam, nhiều dự án nhận dạng tiếng Việt in đã đƣợc áp dụng vào thực tế, nhƣ phần mềm VnDOCR 4.0, có thể nhận dạng trực tiếp tài liệu, sách báo đƣợc quét qua máy quét, không cần thông qua tập tin ảnh trung gian với tỉ lệ nhận dạng tới 99% [5], dự án VietOCR, là một phần mềm trên máy tính có phiên bản trên Java và .NET, đƣợc phát triển dựa trên thƣ viện mã nguồn mở Tesseract [6]. Tuy nhiên hiện nay hầu nhƣ chƣa có bất cứ nghiên cứu nào về nhận dạng tiếng Việt từ ảnh trên hệ điều hành di động. Một số ứng dụng trên Android nhƣ VietScanner cho kết quả không cao, chỉ hỗ trợ ảnh quét, ngay cả ứng dụng Goggles cũng chỉ nhận dạng đƣợc tiếng Việt không dấu, mặc dù đây là một hƣớng nghiên cứu mới mẻ và nhiều tiềm năng. Bài báo này tập trung nghiên cứu nhận dạng tiếng Việt in từ ảnh trên điện thoại di động sử dụng hệ điều hành Android, một nền tảng mã nguồn mở đang thống lĩnh thị trƣờng di động hiện nay. Việc nhận dạng trên thiết bị di động gặp nhiều khó khăn. Thứ nhất, ảnh chụp trên camera của điện thoại hoàn toàn khác với tập tin ảnh quét vốn là những văn bản có chất lƣợng cao, rõ ràng, có phông chữ xác định và ngay hàng thẳng lối. Ảnh chụp từ camera thƣờng có chất lƣợng thấp, ảnh dễ bị mờ, méo, nghiêng, chứa vết hoặc thuộc các phông chữ không xác định [8]. Có thể giải quyết việc này bằng cách tiền xử lí ảnh trƣớc khi đƣa vào nhận dạng, quá trình này thƣờng mất nhiều thời gian và công sức. Thứ hai, đó là lựa chọn công cụ hợp lí để phát triển. Trên thế giới có rất nhiều công cụ mang lại kết quả tốt, nhƣ ABBYY Mobile OCR Engine, tuy nhiên giá thành còn cao và chƣa có hỗ trợ tiếng Việt. Trong số các thƣ viện miễn phí, Tesseract OCR cho kết quả nhận dạng khá chính xác. Đây vốn là một engine đƣợc hãng HP phát triển trong giai đoạn 1984 – 1994 và nằm trong top 3 chƣơng trình nhận dạng kí tự quang học trong hội nghị thƣờng niên của UNLV [9], sau đó Tesseract đƣợc chuyển thành mã nguồn mở trên Google và đƣợc cung cấp thêm nhiều tính năng, trong đó có thể huấn luyện để nhận dạng nhiều ngôn ngữ khác nhau [10]. Từ phiên bản Tesseract 3.02 trở đi, gói dữ liệu huấn luyện tiếng Việt đã đƣợc cung cấp trên trang chủ của Tesseract, mặc dù vẫn chƣa hoàn thiện. Tuy nhiên, Tesseract cung cấp khả năng huấn luyện tiếng Việt với nhi ...
Nội dung trích xuất từ tài liệu:
Nhận dạng tiếng Việt trên hệ điều hành android KỈ YẾU HỘI NGHỊ SINH VIÊN NGHIÊN CỨU KHOA HỌC NĂM HỌC 2013-2014 NHẬN DẠNG TIẾNG VIỆT TRÊN HỆ ĐIỀU HÀNH ANDROID Phạm Thúy Nga, Lớp K60B, Khoa Công nghệ Thông tin GVHD: ThS. Nguyễn Minh Quang Tóm tắt: Công nghệ nhận dạng kí tự quang học (Optical Character Recognition - OCR) là một công nghệ được ứng dụng rộng rãi trong các phần mềm desktop và mobile, nhằm trích xuất văn bản từ ảnh scan hoặc ảnh chụp qua camera. Tại Việt Nam, đã có nhiều hướng nghiên cứu ứng dụng OCR trong các bài toán nhận dạng chữ in tiếng Việt từ file ảnh có sẵn trên máy tính, file PDF hoặc ảnh scan. Tuy nhiên hiện nay hầu như chưa có nghiên cứu nào tập trung vào việc nhận dạng tiếng Việt trên nền tảng di động. Trong bài báo này chúng tôi giới thiệu một phương pháp nhận dạng tiếng Việt từ ảnh chụp trên điện thoại di động sử dụng hệ điều hành Android. Phương pháp này sử dụng thư viện Tesseract của Google, xây dựng bộ dữ liệu hoàn chỉnh hơn so với gói dữ liệu sẵn có của Tesseract, cùng với thuật toán xử lí lỗi trên đoạn văn bản sau khi nhận dạng. Kết quả nhận dạng cho kết quả tương đối cao với độ chính xác 93%. Từ khóa: Nhận dạng kí tự quang học, nhận dạng tiếng Việt, OCR, Tesseract. I. MỞ ĐẦU Nhận dạng kí tự quang học là một công nghệ hữu ích để chuyển các ảnh chụp văn bản, ảnh quét, tập tin PDF sang dạng số, phục vụ cho việc số hóa tài liệu, lƣu trữ, xử lí văn bản, tìm kiếm… và nhiều ứng dụng khác [2]. Trƣớc đây, OCR đƣợc phát triển dành riêng cho máy in, máy quét để nhận dạng văn bản, phổ biến nhất là tự động chuyển văn bản scan thành tài liệu lƣu trên máy tính. Cùng với sự phát triển của các thiết bị cầm tay, nhiều nghiên cứu bắt đầu hƣớng đến việc áp dụng OCR trên hệ điều hành di động, do lợi thế to lớn của những thiết bị di động, nhƣ sự nhỏ gọn, tiện lợi, có thể mang đi mọi lúc mọi nơi và đƣợc trang bị nhiều chức năng không kém các máy tính thông thƣờng. Đối với tiếng Việt, việc nghiên cứu OCR trên di động có thể mang lại nhiều lợi ích to lớn cả về nghiên cứu lẫn ứng dụng. Nhận dạng tiếng Việt thành công có thể phục vụ cho việc số hóa thủ tục hành chính, ví dụ lƣu trữ thông tin thông qua ảnh chụp chứng minh thƣ, biển số xe…, phục vụ công tác quốc phòng – an ninh; về mặt dân sự, nghiên cứu này hỗ trợ cho việc xây dựng những ứng dụng dịch thuật, đọc văn bản cho ngƣời khiếm thị, tìm kiếm thông tin… từ những văn bản linh động hơn nhiều so với văn bản quét, nhƣ business card, tựa đề sách báo, biển quảng cáo, hóa đơn, v.v… Hiện nay, trên thế giới đã có nhiều nghiên cứu cũng nhƣ ứng dụng OCR để nhận dạng chữ in ở nhiều ngôn ngữ khác nhau trên hệ điều hành di động. Nhìn chung, vấn đề nhận dạng kí tự Latinh gần nhƣ đã đƣợc giải quyết [1], [2]. Hƣớng nghiên cứu trong những năm gần đây tập trung vào nhận dạng các ngôn ngữ có kí tự tựa Latinh nhƣng thêm dấu hoặc kí tự đặc biệt, nhƣ tiếng Pháp, tiếng Nga… và ngôn ngữ tƣợng hình. Một nghiên cứu của Hasnat tại Bangladesh đã cho ra đời ứng dụng hoàn chỉnh dựa trên mã nguồn mở Tesseract để nhận dạng tiếng Bangla, một ngôn ngữ có nguồn gốc tiếng Phạn, thuộc nhóm tƣợng hình [3]. Mới đây nhất, Google đã cho ra đời ứng dụng Google Goggles [4] trên cả Android và iOS, một ứng dụng mạnh mẽ cho phép ngƣời sử dụng tìm kiếm trên web bằng 171 KỈ YẾU HỘI NGHỊ SINH VIÊN NGHIÊN CỨU KHOA HỌC NĂM HỌC 2013-2014 ảnh chụp trên điện thoại di động, bằng nhiều ngôn ngữ khác nhau chủ yếu có nguồn gốc tiếng Latinh. \par. Tại Việt Nam, nhiều dự án nhận dạng tiếng Việt in đã đƣợc áp dụng vào thực tế, nhƣ phần mềm VnDOCR 4.0, có thể nhận dạng trực tiếp tài liệu, sách báo đƣợc quét qua máy quét, không cần thông qua tập tin ảnh trung gian với tỉ lệ nhận dạng tới 99% [5], dự án VietOCR, là một phần mềm trên máy tính có phiên bản trên Java và .NET, đƣợc phát triển dựa trên thƣ viện mã nguồn mở Tesseract [6]. Tuy nhiên hiện nay hầu nhƣ chƣa có bất cứ nghiên cứu nào về nhận dạng tiếng Việt từ ảnh trên hệ điều hành di động. Một số ứng dụng trên Android nhƣ VietScanner cho kết quả không cao, chỉ hỗ trợ ảnh quét, ngay cả ứng dụng Goggles cũng chỉ nhận dạng đƣợc tiếng Việt không dấu, mặc dù đây là một hƣớng nghiên cứu mới mẻ và nhiều tiềm năng. Bài báo này tập trung nghiên cứu nhận dạng tiếng Việt in từ ảnh trên điện thoại di động sử dụng hệ điều hành Android, một nền tảng mã nguồn mở đang thống lĩnh thị trƣờng di động hiện nay. Việc nhận dạng trên thiết bị di động gặp nhiều khó khăn. Thứ nhất, ảnh chụp trên camera của điện thoại hoàn toàn khác với tập tin ảnh quét vốn là những văn bản có chất lƣợng cao, rõ ràng, có phông chữ xác định và ngay hàng thẳng lối. Ảnh chụp từ camera thƣờng có chất lƣợng thấp, ảnh dễ bị mờ, méo, nghiêng, chứa vết hoặc thuộc các phông chữ không xác định [8]. Có thể giải quyết việc này bằng cách tiền xử lí ảnh trƣớc khi đƣa vào nhận dạng, quá trình này thƣờng mất nhiều thời gian và công sức. Thứ hai, đó là lựa chọn công cụ hợp lí để phát triển. Trên thế giới có rất nhiều công cụ mang lại kết quả tốt, nhƣ ABBYY Mobile OCR Engine, tuy nhiên giá thành còn cao và chƣa có hỗ trợ tiếng Việt. Trong số các thƣ viện miễn phí, Tesseract OCR cho kết quả nhận dạng khá chính xác. Đây vốn là một engine đƣợc hãng HP phát triển trong giai đoạn 1984 – 1994 và nằm trong top 3 chƣơng trình nhận dạng kí tự quang học trong hội nghị thƣờng niên của UNLV [9], sau đó Tesseract đƣợc chuyển thành mã nguồn mở trên Google và đƣợc cung cấp thêm nhiều tính năng, trong đó có thể huấn luyện để nhận dạng nhiều ngôn ngữ khác nhau [10]. Từ phiên bản Tesseract 3.02 trở đi, gói dữ liệu huấn luyện tiếng Việt đã đƣợc cung cấp trên trang chủ của Tesseract, mặc dù vẫn chƣa hoàn thiện. Tuy nhiên, Tesseract cung cấp khả năng huấn luyện tiếng Việt với nhi ...
Tìm kiếm theo từ khóa liên quan:
Bài viết nghiên cứu khoa học Nghiên cứu khoa học sinh viên Nhận dạng tiếng Việt Hệ điều hành android Nhận dạng kí tự quang học Nhận dạng tiếng ViệtGợi ý tài liệu liên quan:
-
9 trang 575 5 0
-
Phương pháp truyền dữ liệu giữa hai điện thoại thông minh qua môi trường ánh sáng nhìn thấy
6 trang 310 0 0 -
44 trang 289 0 0
-
3 trang 282 0 0
-
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 261 0 0 -
Thiết kế một số trò chơi học tập nhằm phát triển vốn từ tiếng Anh cho trẻ 5 - 6 tuổi
9 trang 245 2 0 -
Bài thảo luận nhóm: Tìm hiểu và phân tích kiến trúc, chức năng và hoạt động của hệ điều hành Android
39 trang 215 0 0 -
6 trang 190 0 0
-
19 trang 167 0 0
-
Báo cáo đồ án tốt nghiệp: Xây dựng ứng dụng và website bán hàng
91 trang 166 0 0