Đồ án Tốt nghiệp Cử nhân CNTT: Nhận dạng ký tự viết tay
Số trang: 73
Loại file: docx
Dung lượng: 1.60 MB
Lượt xem: 24
Lượt tải: 0
Xem trước 8 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Đồ án Tốt nghiệp Cử nhân CNTT với đề tài "Nhận dạng ký tự viết tay" có mục tiêu đặt ra là giải quyết các yêu cầu sau về nhận dạng được các ký tự từ ảnh đầu vào, trích chọn được các đặc trưng của ảnh, tiến hành nhận dạng với thuật toán Markov ẩn.
Nội dung trích xuất từ tài liệu:
Đồ án Tốt nghiệp Cử nhân CNTT: Nhận dạng ký tự viết tay Lời Mở Đầu Nhận dạng là bài toán xuất hiện cách đây khá lâu và vẫn luôn thu hút được nhiều sự quan tâm, nghiên cứu. Đặc biệt là trong vài thập niên gần đây, do sự thúc đẩy của quá trình tin học hoá trong mọi lĩnh vực, bài toán nhận dạng không còn dừng lại ở mức độ nghiên cứu nữa mà nó trở thành một lĩnh vực để áp dụng vào thực tế. Các bài toán nhận dạng đang được ứng dụng trong thực tế hiện nay tập trung vào nhận dạng mẫu, nhận dạng tiếng nói và nhận dạng chữ. Trong số này, nhận dạng chữ là bài toán được quan tâm rất nhiều và cũng đã đạt được nhiều thành tựu rực rỡ. Các ứng dụng có ý nghĩa thực tế lớn có thể kể đến như: nhận dạng chữ in dùng trong quá trình sao lưu sách báo trong thư viện, nhận dạng chữ viết tay dùng trong việc phân loại thư ở bưu điện, thanh toán tiền trong nhà băng và lập thư viện sách cho người mù (ứng dụng này có nghĩa: scan sách bình thường, sau đó cho máy tính nhận dạng và trả về dạng tài liệu mà người mù có thể đọc được). Xuất phát từ yêu cầu thực tế, đang rất cần có nhưng nghiên cứu về vấn đề này. Chính vì vậy tôi đã chọn đề tài nhận dạng ký tự viết tay làm đ ồ án tốt nghiệp với mong muốn phần nào áp dụng vào bài toán thực tế. Bài toán đã đặt ra phải giải quyết được những yêu cầu sau: Nhận dạng được các ký tự từ ảnh đầu vào Trích chọn được các đặc trưng của ảnh Tiến hành nhận dạng với thuật toán Markov ẩn Với nhưng yêu cầu đã đặt ra ở trên, cấu trúc của khóa luận s ẽ bao g ồm những nội dung sau đây: Chương 1: Giới thiệu đề tài Giới thiệu về bài toán nhận dạng chữ viết tay, tình hình nghiên cứu trong và ngoài nước, quy trình chung để giải quyết bài toán và các phương pháp điển hình trong việc huấn luyện nh ận dạng, phạm vi của đề tài. Chương 2: Cơ sở lý thuyết về tiền xử lý ảnh ký tự và trích chọn đặc trưng Trình bày lý thuyết về lọc nhiễu, nhị phân hóa, chuẩn hóa kích thước, trích chọn đặc trưng ảnh ký tự. Chương 3: CƠ SỞ LÝ THUYẾT VỀ MARKOV ẨN Trình bày các khái niệm cơ bản, thuật toán của mô hình Markov Chương 4: ỨNG DỤNG MÔ HÌNH MARKOV ẨN TRONG NHẬN DẠNG CHỮ VIẾT TAY Giới thiệu về thuật toán nhận dạng. Các bước cài đặt thuật toán. Những khó khăn và giải pháp khắc phục. Chương 5: CÀI ĐẶT CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ KẾT QUẢ Trình bày môi trường cài đặt, giao diện chương trình, một số class chính của chương trình. Đanh giá kêt quả và đưa ra hướng ́ ́ phát triển trong tương lại. Phụ luc: Danh mục hình vẽ, bảng biểu và tài liệu tham khảo. ̣ Đồ an này không tránh khỏi sự thiếu sót do hạn ch ế về th ời ́ gian cũng như kiến thức. Em rất mong nhận được sự đóng góp ý kiến của thầy hướng dẫn và các bạn để đạt kết quả tốt hơn. CHƯƠNG I : GIỚI THIỆU ĐỀ TÀI I.1 Giới thiệu về nhận dạng chữ viết tay Nhận dạng chữ in: đã được giải quyết gần như trọn vẹn (sản ph ẩm FineReader 9.0 của hãng ABBYY có thể nhận dạng chữ in theo 192 ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu chứa hình ảnh, bảng và văn bản với độ chính xác trên 98%). Nhận dạng chữ viết tay: vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu. Bài toàn này chưa thể giải quyết trọn vẹn được vì nó hoàn toàn phụ thuộc vào người viết và sự biến đổi quá đa dạng trong cách vi ết và trạng thái sức khỏe, tinh thần của từng người viết. I.1.1 Các giai đoạn phát triển Giai đoạn 1: (1900 – 1980) - Nhận dạng chữ được biết đến từ năm 1900, khi nhà khoa học người Nga Tyuring phát triển một phương tiện trợ giúp cho những người mù. - Các sản phẩm nhận dạng chữ thương mại có từ những năm1950, khi máy tính lần đầu tiên được giới thiệu tính năng mới v ề nh ập và l ưu trữ dữ liệu hai chiều bằng cây bút viết trên một tấm bảng cảm ứng .Công nghệ mới này cho phép các nhà nghiên cứu làm vi ệc trên các bài toán nhận dạng chữ viết tay on-line. - Mô hình nhận dạng chữ viết được đề xuất từ năm 1951 do phát minh của M. Sheppard được gọi là GISMO, một robot đọc-viết. - Năm 1954, máy nhận dạng chữ đầu tiên đã được phát tri ển b ởi J. Rainbow dùng để đọc chữ in hoa nhưng rất chậm. - Năm 1967 ,Công ty IBM đã thương mại hóa hệ thống nh ận d ạng chữ. Giai đoạn 2: (1980 – 1990) - Với sự phát triển của các thiết bị phần cứng máy tính và các thi ết bị thu thu nhận dữ liệu, các phương pháp luận nh ận dạng đã được phát triển trong giai đoạn trước đã có được môi trường lý t ưởng đ ể tri ển khai các ứng dụng nhận dạng chữ. - Các hướng tiếp cận theo cấu trúc và đối sánh được áp dụng trong nhiều hệ thống nhận dạng chữ. - Trong giai đoạn này, các hướng nghiên cứu chỉ tập trung vào các kỹ thuật nhận dạng hình dáng chứ chưa áp dụng cho thông tin ngữ nghĩa. Điều này dẫn đến sự hạn chế về hiệu suất nhận dạng, không hiệu quả trong nhiều ứng dụng thực tế. Giai đoạn 3: (Từ 1990 đến nay) - Các hệ thống nhận dạng thời gian thực được chú trọng trong giai đoạn này. - Các kỹ thuật nhận dạng kết hợp với các ph ương pháp luận trong lĩnh vực học máy (Machine Learning) được áp dụng rất hiệu quả. - Một số công cụ học máy hiệu quả như mạng nơ ron, mô hình Markov ẩn, SVM (Support Vector Machines) và xử lý ngôn ngữ tự nhiên... I.1.2 Tình hình nghiên cứu trong nước: ...
Nội dung trích xuất từ tài liệu:
Đồ án Tốt nghiệp Cử nhân CNTT: Nhận dạng ký tự viết tay Lời Mở Đầu Nhận dạng là bài toán xuất hiện cách đây khá lâu và vẫn luôn thu hút được nhiều sự quan tâm, nghiên cứu. Đặc biệt là trong vài thập niên gần đây, do sự thúc đẩy của quá trình tin học hoá trong mọi lĩnh vực, bài toán nhận dạng không còn dừng lại ở mức độ nghiên cứu nữa mà nó trở thành một lĩnh vực để áp dụng vào thực tế. Các bài toán nhận dạng đang được ứng dụng trong thực tế hiện nay tập trung vào nhận dạng mẫu, nhận dạng tiếng nói và nhận dạng chữ. Trong số này, nhận dạng chữ là bài toán được quan tâm rất nhiều và cũng đã đạt được nhiều thành tựu rực rỡ. Các ứng dụng có ý nghĩa thực tế lớn có thể kể đến như: nhận dạng chữ in dùng trong quá trình sao lưu sách báo trong thư viện, nhận dạng chữ viết tay dùng trong việc phân loại thư ở bưu điện, thanh toán tiền trong nhà băng và lập thư viện sách cho người mù (ứng dụng này có nghĩa: scan sách bình thường, sau đó cho máy tính nhận dạng và trả về dạng tài liệu mà người mù có thể đọc được). Xuất phát từ yêu cầu thực tế, đang rất cần có nhưng nghiên cứu về vấn đề này. Chính vì vậy tôi đã chọn đề tài nhận dạng ký tự viết tay làm đ ồ án tốt nghiệp với mong muốn phần nào áp dụng vào bài toán thực tế. Bài toán đã đặt ra phải giải quyết được những yêu cầu sau: Nhận dạng được các ký tự từ ảnh đầu vào Trích chọn được các đặc trưng của ảnh Tiến hành nhận dạng với thuật toán Markov ẩn Với nhưng yêu cầu đã đặt ra ở trên, cấu trúc của khóa luận s ẽ bao g ồm những nội dung sau đây: Chương 1: Giới thiệu đề tài Giới thiệu về bài toán nhận dạng chữ viết tay, tình hình nghiên cứu trong và ngoài nước, quy trình chung để giải quyết bài toán và các phương pháp điển hình trong việc huấn luyện nh ận dạng, phạm vi của đề tài. Chương 2: Cơ sở lý thuyết về tiền xử lý ảnh ký tự và trích chọn đặc trưng Trình bày lý thuyết về lọc nhiễu, nhị phân hóa, chuẩn hóa kích thước, trích chọn đặc trưng ảnh ký tự. Chương 3: CƠ SỞ LÝ THUYẾT VỀ MARKOV ẨN Trình bày các khái niệm cơ bản, thuật toán của mô hình Markov Chương 4: ỨNG DỤNG MÔ HÌNH MARKOV ẨN TRONG NHẬN DẠNG CHỮ VIẾT TAY Giới thiệu về thuật toán nhận dạng. Các bước cài đặt thuật toán. Những khó khăn và giải pháp khắc phục. Chương 5: CÀI ĐẶT CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ KẾT QUẢ Trình bày môi trường cài đặt, giao diện chương trình, một số class chính của chương trình. Đanh giá kêt quả và đưa ra hướng ́ ́ phát triển trong tương lại. Phụ luc: Danh mục hình vẽ, bảng biểu và tài liệu tham khảo. ̣ Đồ an này không tránh khỏi sự thiếu sót do hạn ch ế về th ời ́ gian cũng như kiến thức. Em rất mong nhận được sự đóng góp ý kiến của thầy hướng dẫn và các bạn để đạt kết quả tốt hơn. CHƯƠNG I : GIỚI THIỆU ĐỀ TÀI I.1 Giới thiệu về nhận dạng chữ viết tay Nhận dạng chữ in: đã được giải quyết gần như trọn vẹn (sản ph ẩm FineReader 9.0 của hãng ABBYY có thể nhận dạng chữ in theo 192 ngôn ngữ khác nhau, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 của Viện Công nghệ Thông tin Hà Nội có thể nhận dạng được các tài liệu chứa hình ảnh, bảng và văn bản với độ chính xác trên 98%). Nhận dạng chữ viết tay: vẫn còn là vấn đề thách thức lớn đối với các nhà nghiên cứu. Bài toàn này chưa thể giải quyết trọn vẹn được vì nó hoàn toàn phụ thuộc vào người viết và sự biến đổi quá đa dạng trong cách vi ết và trạng thái sức khỏe, tinh thần của từng người viết. I.1.1 Các giai đoạn phát triển Giai đoạn 1: (1900 – 1980) - Nhận dạng chữ được biết đến từ năm 1900, khi nhà khoa học người Nga Tyuring phát triển một phương tiện trợ giúp cho những người mù. - Các sản phẩm nhận dạng chữ thương mại có từ những năm1950, khi máy tính lần đầu tiên được giới thiệu tính năng mới v ề nh ập và l ưu trữ dữ liệu hai chiều bằng cây bút viết trên một tấm bảng cảm ứng .Công nghệ mới này cho phép các nhà nghiên cứu làm vi ệc trên các bài toán nhận dạng chữ viết tay on-line. - Mô hình nhận dạng chữ viết được đề xuất từ năm 1951 do phát minh của M. Sheppard được gọi là GISMO, một robot đọc-viết. - Năm 1954, máy nhận dạng chữ đầu tiên đã được phát tri ển b ởi J. Rainbow dùng để đọc chữ in hoa nhưng rất chậm. - Năm 1967 ,Công ty IBM đã thương mại hóa hệ thống nh ận d ạng chữ. Giai đoạn 2: (1980 – 1990) - Với sự phát triển của các thiết bị phần cứng máy tính và các thi ết bị thu thu nhận dữ liệu, các phương pháp luận nh ận dạng đã được phát triển trong giai đoạn trước đã có được môi trường lý t ưởng đ ể tri ển khai các ứng dụng nhận dạng chữ. - Các hướng tiếp cận theo cấu trúc và đối sánh được áp dụng trong nhiều hệ thống nhận dạng chữ. - Trong giai đoạn này, các hướng nghiên cứu chỉ tập trung vào các kỹ thuật nhận dạng hình dáng chứ chưa áp dụng cho thông tin ngữ nghĩa. Điều này dẫn đến sự hạn chế về hiệu suất nhận dạng, không hiệu quả trong nhiều ứng dụng thực tế. Giai đoạn 3: (Từ 1990 đến nay) - Các hệ thống nhận dạng thời gian thực được chú trọng trong giai đoạn này. - Các kỹ thuật nhận dạng kết hợp với các ph ương pháp luận trong lĩnh vực học máy (Machine Learning) được áp dụng rất hiệu quả. - Một số công cụ học máy hiệu quả như mạng nơ ron, mô hình Markov ẩn, SVM (Support Vector Machines) và xử lý ngôn ngữ tự nhiên... I.1.2 Tình hình nghiên cứu trong nước: ...
Tìm kiếm theo từ khóa liên quan:
Đồ án Tốt nghiệp Công nghệ thông tin Nhận dạng ký tự viết tay Nhận dạng ký tự quang học Luận văn nhận dạng chữ viết tay Thuật toán Markov ẩn Nhận dạng ký tự đầu vàoGợi ý tài liệu liên quan:
-
Tóm tắt Đồ án tốt nghiệp Công nghệ thông tin: Lập trình game với ứng dụng Unity
16 trang 458 0 0 -
Tóm tắt Đồ án tốt nghiệp Công nghệ thông tin: Xây dựng game 2D trên Unity
21 trang 334 1 0 -
24 trang 294 0 0
-
64 trang 202 0 0
-
83 trang 194 0 0
-
81 trang 177 0 0
-
Đồ án tốt nghiệp Công nghệ thông tin: Xây dựng ứng dụng quản lý bàn ăn trên thiết bị di động Android
73 trang 174 0 0 -
20 trang 166 1 0
-
Đồ án tốt nghiệp Công nghệ thông tin: Xây dựng ứng dụng chat trong Android với Firebase
81 trang 162 0 0 -
76 trang 156 0 0