![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Một cách tiếp cận sử dụng mô hình n-gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt
Số trang: 12
Loại file: pdf
Dung lượng: 280.86 KB
Lượt xem: 12
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết trình bày những kết quả nghiên cứu trong việc nâng cao độ chính xác của nhận dạng văn bản tiếng Việt. Kết quả của nhận dạng văn bản từ hình ảnh thường không đạt được độ chính xác tuyệt đối, nhất là đối với các tài liệu có chất lượng hình ảnh đầu vào thấp.
Nội dung trích xuất từ tài liệu:
Một cách tiếp cận sử dụng mô hình n-gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt Nghiên cứu khoa học công nghệ MỘT CÁCH TIẾP CẬN SỬ DỤNG MÔ HÌNH N-GRAM TRONG VIỆC TỰ ĐỘNG PHÁT HIỆN VÀ SỬA LỖI NHẬN DẠNG VĂN BẢNTIẾNG VIỆT Nguyễn Chí Thành1*, Thái Trung Kiên1, Hoàng Đình Thắng1, Nguyễn Thị Lan Phượng2 Tóm tắt: Trong bài báo này, chúng tôi trình bày những kết quả nghiên cứu trong việc nâng cao độ chính xác của nhận dạng văn bản tiếng Việt. Kết quả của nhận dạng văn bản từ hình ảnh thường không đạt được độ chính xác tuyệt đối, nhất là đối với các tài liệu có chất lượng hình ảnh đầu vào thấp. Do đó, việc tự động phát hiện và sửa lỗi nhận dạng văn bản là cần thiết, giúp giảm công sức hiệu đính của người dùng. Trong nghiên cứu này, chúng tôi đề xuất một thuật toán phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt dựa trên mô hình n-gram. Kết quả thử nghiệm cho thấy việc áp dụng thuật toán này giúp nâng cao độ chính xác của nhận dạng. Từ khóa: Nhận dạng văn bản, Mô hình ngôn ngữ. 1. ĐẶT VẤN ĐỀ 1.1. Giới thiệu Nhận dạng văn bản trong tiếng Anh thường được nhắc đến với cái tên nhận dạng ký tự quang học (optical character recognition) và được viết tắt là OCR. Đây là lĩnh vực được ứng dụng rộng rãi trong việc số hóa các văn bản, tài liệu cũng như việc hỗ trợ nhập liệu tự động các nguồn dữ liệu in trên giấy như hộ chiếu, giấy chứng minh thư, hóa đơn, báo cáo tài chính, danh thiếp… Các nghiên cứu về nhận dạng văn bản tiếng Anh cũng như tiếng Việt đã đạt được nhiều kết quả tốt, có độ chính xác cao đối với những nguồn ảnh văn bản rõ ràng. Tuy nhiên, với các văn bản, tài liệu do đã cũ hoặc do quá trình bảo quản không tốt bị mờ chữ, mất chữ thì độ chính xác của quá trình nhận dạng văn bản bị giảm đi đáng kể. Một số phần mềm có tính năng tự sửa lỗi nhận dạng, tuy nhiên, chủ yếu sửa lỗi ở mức ký tự, sửa lỗi chính tả dựa vào từ điển, không có khả năng sửa lỗi ở mức từ, ở mức ngữ cảnh. Do đó, khi gặp những tài liệu có nguồn ảnh đầu vào không tốt thì công sức bỏ ra để hiệu chỉnh lại văn bản kết quả là khá lớn, nhiều khi còn tương đương với công đánh lại toàn bộ văn bản. Trong lĩnh vực nghiên cứu nhận dạng văn bản tiếng Anh, các kĩ thuật sửa lỗi cho nhận dạng sử dụng các kĩ thuật thống kê, các kĩ thuật xử lý ngôn ngữ tự nhiên được nghiên cứu từ lâu và đã đưa đến những kết quả sửa lỗi tốt, nâng cao đáng kể độ chính xác của nhận dạng văn bản, nhất là đối với các nguồn ảnh đầu vào có chất lượng không tốt. Tuy nhiên, với việc nhận dạng văn bản tiếng Việt thì các công trình nghiên cứu về phương pháp sửa lỗi sau khi nhận dạng còn khá mới mẻ, chưa có những nghiên cứu về việc sử dụng các kĩ thuật xử lý ngôn ngữ tự nhiên vào việc nâng cao tính chính xác của nhận dạng văn bản. Bài toán phát hiện và sửa lỗi văn bản không chỉ quan trọng trong quá trình nhận dạng văn bản từ hình ảnh mà nó còn đóng vai trò quan trọng trong nhiều ứng dụng khác như các giao diện nhập bằng viết tay cho phép người sử dụng viết chữ làm đầu vào cho máy tính, các thiết bị tổng hợp giọng nói (text-to-speech) và nhận Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 33 Công nghệ thông tin dạng giọng nói (speech-to-text). Các ứng dụng khác cũng có thể sử dụng phát hiện và sửa lỗi văn bản để tăng chất lượng kết quả như các hệ thống soạn thảo văn bản, soạn thảo code, biên tập có trợ giúp của máy tính, dịch máy, học ngoại ngữ, tương tác cơ sở dữ liệu, cũng như các ứng dụng có đầu vào hoặc đầu ra là tiếng nói. 1.2. Các nghiên cứu liên quan Đã có một số phương pháp được đề xuất để giải quyết bài toán phát hiện và sửa lỗi chính tả tiếng Việt. Ở bài báo [1], các tác giả sử dụng luật cấu tạo âm tiết tiếng Việt hai thành phần để phát hiện lỗi chính tả. Một phương pháp phát hiện và sửa lỗi tiếng Việt sử dụng mô hình bi-gram đã được đề xuất trong [2]. Mô hình n-gram cũng được sử dụng để kiểm lỗi cách dùng từ và cụm từ tiếng Việt trong công bố [3], tuy nhiên, nghiên cứu này không đề xuất phương pháp sửa các lỗi chính tả phát hiện được. Bài báo [4] mô tả một phương pháp sử dụng một mô hình n-gram được xây dựng từ một kho ngữ liệu có kích thước lớn để phát hiện các lỗi chính tả khi đánh máy. Trong các nghiên cứu về phát hiện và sửa lỗi tiếng Việt, chỉ có một phương pháp có liên quan tới phát hiện và sửa lỗi nhận dạng văn bản (OCR – optical character recognition), trong nghiên cứu này, việc phát hiện lỗi tiếng Việt dựa vào xác suất unigram và bộ đếm sự xuất hiện đồng thời của các âm tiết [5]. Đối với nhận dạng văn bản tiếng Anh, đã có nhiều phương pháp được đề xuất để đưa ra danh sách các từ thay thế cho từ bị sai. Tương ứng với một từ lỗi thuật toán sẽ đưa ra một danh sách các ứng cử viên để thay thế cho từ đó. Một số thuật toán sửa lỗi dựa trên từ điển đã được đề xuất. Một trong số đó là thuật toán đối sánh chuỗi đánh trọng số các từ trong văn bản sử dụng độ đo khoảng cách. Ứng cử viên sửa lỗi với khoảng cách ngắn nhất với từ lỗi sẽ được chọn [6]. Thuật toán khác sử dụng thuộc tính cú pháp của ngôn ngữ và mô hình n-gram để tiến hành quá trình sinh ra các ứng cử viên sửa lỗi và chọn ra ứng cử viên tốt nhất. [7] đề xuất một phương pháp sửa lỗi sau OCR dựa trên học mẫu, trong đó đầu tiên một danh sách các ứng cử viên sửa lỗi được sinh ra từ một từ điển, sau đó ứng cử viên phù hợp nhất sẽ được lựa chọn dựa trên các đặc tính về từ vựng và ngữ pháp xung quanh từ lỗi. Các kĩ thuật sửa lỗi dựa trên từ điển là khá hợp lý và thành công. Tuy nhiên, chúng không thể sửa những lỗi dựa trên ngữ cảnh, ví dụ như sửa những lỗi dựa trên vị trí ngữ pháp của chúng trong câu. Các kĩ thuật sửa lỗi dựa trên ngữ cảnh thực hiện phát hiện lỗi và sửa lỗi dựa trên ngữ cảnh ngữ pháp và ngữ nghĩa. Nó có thể giải quyết vấn đề sửa lỗi từ thực như ở câu “Học sin ...
Nội dung trích xuất từ tài liệu:
Một cách tiếp cận sử dụng mô hình n-gram trong việc tự động phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt Nghiên cứu khoa học công nghệ MỘT CÁCH TIẾP CẬN SỬ DỤNG MÔ HÌNH N-GRAM TRONG VIỆC TỰ ĐỘNG PHÁT HIỆN VÀ SỬA LỖI NHẬN DẠNG VĂN BẢNTIẾNG VIỆT Nguyễn Chí Thành1*, Thái Trung Kiên1, Hoàng Đình Thắng1, Nguyễn Thị Lan Phượng2 Tóm tắt: Trong bài báo này, chúng tôi trình bày những kết quả nghiên cứu trong việc nâng cao độ chính xác của nhận dạng văn bản tiếng Việt. Kết quả của nhận dạng văn bản từ hình ảnh thường không đạt được độ chính xác tuyệt đối, nhất là đối với các tài liệu có chất lượng hình ảnh đầu vào thấp. Do đó, việc tự động phát hiện và sửa lỗi nhận dạng văn bản là cần thiết, giúp giảm công sức hiệu đính của người dùng. Trong nghiên cứu này, chúng tôi đề xuất một thuật toán phát hiện và sửa lỗi nhận dạng văn bản tiếng Việt dựa trên mô hình n-gram. Kết quả thử nghiệm cho thấy việc áp dụng thuật toán này giúp nâng cao độ chính xác của nhận dạng. Từ khóa: Nhận dạng văn bản, Mô hình ngôn ngữ. 1. ĐẶT VẤN ĐỀ 1.1. Giới thiệu Nhận dạng văn bản trong tiếng Anh thường được nhắc đến với cái tên nhận dạng ký tự quang học (optical character recognition) và được viết tắt là OCR. Đây là lĩnh vực được ứng dụng rộng rãi trong việc số hóa các văn bản, tài liệu cũng như việc hỗ trợ nhập liệu tự động các nguồn dữ liệu in trên giấy như hộ chiếu, giấy chứng minh thư, hóa đơn, báo cáo tài chính, danh thiếp… Các nghiên cứu về nhận dạng văn bản tiếng Anh cũng như tiếng Việt đã đạt được nhiều kết quả tốt, có độ chính xác cao đối với những nguồn ảnh văn bản rõ ràng. Tuy nhiên, với các văn bản, tài liệu do đã cũ hoặc do quá trình bảo quản không tốt bị mờ chữ, mất chữ thì độ chính xác của quá trình nhận dạng văn bản bị giảm đi đáng kể. Một số phần mềm có tính năng tự sửa lỗi nhận dạng, tuy nhiên, chủ yếu sửa lỗi ở mức ký tự, sửa lỗi chính tả dựa vào từ điển, không có khả năng sửa lỗi ở mức từ, ở mức ngữ cảnh. Do đó, khi gặp những tài liệu có nguồn ảnh đầu vào không tốt thì công sức bỏ ra để hiệu chỉnh lại văn bản kết quả là khá lớn, nhiều khi còn tương đương với công đánh lại toàn bộ văn bản. Trong lĩnh vực nghiên cứu nhận dạng văn bản tiếng Anh, các kĩ thuật sửa lỗi cho nhận dạng sử dụng các kĩ thuật thống kê, các kĩ thuật xử lý ngôn ngữ tự nhiên được nghiên cứu từ lâu và đã đưa đến những kết quả sửa lỗi tốt, nâng cao đáng kể độ chính xác của nhận dạng văn bản, nhất là đối với các nguồn ảnh đầu vào có chất lượng không tốt. Tuy nhiên, với việc nhận dạng văn bản tiếng Việt thì các công trình nghiên cứu về phương pháp sửa lỗi sau khi nhận dạng còn khá mới mẻ, chưa có những nghiên cứu về việc sử dụng các kĩ thuật xử lý ngôn ngữ tự nhiên vào việc nâng cao tính chính xác của nhận dạng văn bản. Bài toán phát hiện và sửa lỗi văn bản không chỉ quan trọng trong quá trình nhận dạng văn bản từ hình ảnh mà nó còn đóng vai trò quan trọng trong nhiều ứng dụng khác như các giao diện nhập bằng viết tay cho phép người sử dụng viết chữ làm đầu vào cho máy tính, các thiết bị tổng hợp giọng nói (text-to-speech) và nhận Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 33 Công nghệ thông tin dạng giọng nói (speech-to-text). Các ứng dụng khác cũng có thể sử dụng phát hiện và sửa lỗi văn bản để tăng chất lượng kết quả như các hệ thống soạn thảo văn bản, soạn thảo code, biên tập có trợ giúp của máy tính, dịch máy, học ngoại ngữ, tương tác cơ sở dữ liệu, cũng như các ứng dụng có đầu vào hoặc đầu ra là tiếng nói. 1.2. Các nghiên cứu liên quan Đã có một số phương pháp được đề xuất để giải quyết bài toán phát hiện và sửa lỗi chính tả tiếng Việt. Ở bài báo [1], các tác giả sử dụng luật cấu tạo âm tiết tiếng Việt hai thành phần để phát hiện lỗi chính tả. Một phương pháp phát hiện và sửa lỗi tiếng Việt sử dụng mô hình bi-gram đã được đề xuất trong [2]. Mô hình n-gram cũng được sử dụng để kiểm lỗi cách dùng từ và cụm từ tiếng Việt trong công bố [3], tuy nhiên, nghiên cứu này không đề xuất phương pháp sửa các lỗi chính tả phát hiện được. Bài báo [4] mô tả một phương pháp sử dụng một mô hình n-gram được xây dựng từ một kho ngữ liệu có kích thước lớn để phát hiện các lỗi chính tả khi đánh máy. Trong các nghiên cứu về phát hiện và sửa lỗi tiếng Việt, chỉ có một phương pháp có liên quan tới phát hiện và sửa lỗi nhận dạng văn bản (OCR – optical character recognition), trong nghiên cứu này, việc phát hiện lỗi tiếng Việt dựa vào xác suất unigram và bộ đếm sự xuất hiện đồng thời của các âm tiết [5]. Đối với nhận dạng văn bản tiếng Anh, đã có nhiều phương pháp được đề xuất để đưa ra danh sách các từ thay thế cho từ bị sai. Tương ứng với một từ lỗi thuật toán sẽ đưa ra một danh sách các ứng cử viên để thay thế cho từ đó. Một số thuật toán sửa lỗi dựa trên từ điển đã được đề xuất. Một trong số đó là thuật toán đối sánh chuỗi đánh trọng số các từ trong văn bản sử dụng độ đo khoảng cách. Ứng cử viên sửa lỗi với khoảng cách ngắn nhất với từ lỗi sẽ được chọn [6]. Thuật toán khác sử dụng thuộc tính cú pháp của ngôn ngữ và mô hình n-gram để tiến hành quá trình sinh ra các ứng cử viên sửa lỗi và chọn ra ứng cử viên tốt nhất. [7] đề xuất một phương pháp sửa lỗi sau OCR dựa trên học mẫu, trong đó đầu tiên một danh sách các ứng cử viên sửa lỗi được sinh ra từ một từ điển, sau đó ứng cử viên phù hợp nhất sẽ được lựa chọn dựa trên các đặc tính về từ vựng và ngữ pháp xung quanh từ lỗi. Các kĩ thuật sửa lỗi dựa trên từ điển là khá hợp lý và thành công. Tuy nhiên, chúng không thể sửa những lỗi dựa trên ngữ cảnh, ví dụ như sửa những lỗi dựa trên vị trí ngữ pháp của chúng trong câu. Các kĩ thuật sửa lỗi dựa trên ngữ cảnh thực hiện phát hiện lỗi và sửa lỗi dựa trên ngữ cảnh ngữ pháp và ngữ nghĩa. Nó có thể giải quyết vấn đề sửa lỗi từ thực như ở câu “Học sin ...
Tìm kiếm theo từ khóa liên quan:
Nhận dạng văn bản Mô hình ngôn ngữ Mô hình n-gram Sửa lỗi nhận dạng văn bản tiếng Việt Thuật toán phát hiện lỗi nhận dạng văn bảnTài liệu liên quan:
-
Áp dụng ChatGPT vào học tập của sinh viên hiện nay
5 trang 42 1 0 -
Xây dựng quy trình và thuật toán để phân loại tài liệu TBT
12 trang 35 0 0 -
Nhận dạng tiếng Việt nói sử dụng bộ công cụ Kaldi
9 trang 22 0 0 -
Báo cáo khoa học: Advances in Discriminative Parsing
8 trang 21 0 0 -
Báo cáo khoa học: Parsing and Subcategorization Data
6 trang 21 0 0 -
Nâng cao chất lượng nhận dạng tiếng nói tiếng Việt sử dụng mô hình ngôn ngữ Transformer-XL
3 trang 21 0 0 -
Programming Teaching- kỹ thuật lập trình
68 trang 18 0 0 -
ChatGPT sẽ là tác nhân chính thúc đẩy đổi mới giáo dục đại học trong thời đại 4.0
9 trang 18 0 0 -
Báo cáo khoa học: Guided Parsing of Range Concatenation Languages
8 trang 18 0 0 -
Báo cáo khoa học: A THREE-LEVEL MODEL FOR PLAN EXPLORATION
8 trang 18 0 0