LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT
Số trang: 55
Loại file: pdf
Dung lượng: 1.59 MB
Lượt xem: 6
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Nhận dạng chữ in nói chung và nhận dạng chữ in tiếng Việt nói riêng đã và đang là những bài toán thu hút nhiều sự quan tâm và nghiên cứu. Bài toán nhận dạng chữ in tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạn ảnh, nhận dạng kí tự và hậu xử lý. Trong luận văn này tôi tập trung chủ yếu vào giai đoạn Phân đoạn ảnh, nhằm đưa ra những cải tiến để đẩy nhanh tốc độ xử lý. Đồng thời chúng tôi cũng sử dụng môdul nhận dạng để xây dựng thành một hệ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆTKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆTKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tinCán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2009Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế HânLời cảm ơn Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Anh Cường, ngườiđã không chỉ hướng dẫn em tận tình trong suốt năm học và thời gian làm luận văn.Mà còn là người đã khơi dậy trong em lòng yêu nghề, yêu Công Nghệ Thông Tin.Đồng thời Thầy cũng là người giúp em nhìn thấy con đường đi của riêng mình. Mộtlần nữa xin được nói lời cảm ơn với Thầy. Em xin bày tỏ lòng biết ơn tới các thầy, cô giáo trong Khoa Công nghệ thôngtin - Trường Đại học Công nghệ - ĐHQGHN. Các thầy cô đã dạy bảo, chỉ dẫnchúng em và luôn tạo điều kiện tốt nhất cho chúng em học tập trong suốt quá trìnhhọc đại học đặc biệt là trong thời gian làm khoá luận tốt nghiệp. Tôi xin cảm ơn các bạn sinh viên lớp K50CB trường Đại học Công nghệ vàcác bạn trong lớp KHMT, đã giúp đỡ tôi trong suốt quá trình học tập. Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảmyêu thương. Hà Nội, ngày 22 tháng 5 năm 2009 Bùi Thế Hân iNghiên cứu nhận dạng chữ in tiếng việt Bùi Thế HânTóm tắt Nhận dạng chữ in nói chung và nhận dạng chữ in tiếng Việt nói riêng đã vàđang là những bài toán thu hút nhiều sự quan tâm và nghiên cứu. Bài toán nhận dạng chữ in tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạnảnh, nhận dạng kí tự và hậu xử lý. Trong luận văn này tôi tập trung chủ yếu vào giaiđoạn Phân đoạn ảnh, nhằm đưa ra những cải tiến để đẩy nhanh tốc độ xử lý. Đồngthời chúng tôi cũng sử dụng môdul nhận dạng để xây dựng thành một hệ thống hoànchỉnh. Với bài toán nhận dạng chữ tiếng Việt có sự khó khăn do hệ thống dấu tiếngViệt làm số kí tự cần nhận dạng tăng lên rất nhiều, đồng thời làm tăng khả nănggiao nhau giữa các dòng, các ký tự. Để giải quyết vấn đề đó, trong khóa luận nàychúng tôi sử dụng phương pháp tách dòng dựa vào khoảng trắng, thành phần liênthông. Trong phần thực nghiệm của luận văn, chúng tôi cũng thực nghiệm các vănbản với nhiều cỡ chữ và font chữ khác nhau. Kết quả của việc phân đoạn ảnh vànhận dạng là tương đối tốt, có thể chấp nhận được. Từ khóa: Xác định góc nghiêng văn bản, Tách dòng văn bản, Thành phần liênthông, Biểu đồ Histogram, Mạng Neural, Nhận dạng kí tự quang học, trích trọn đặctrưng. iiNghiên cứu nhận dạng chữ in tiếng việt Bùi Thế HânMỤC LỤCChương 1 Giới thiệu................................................ 1 1.1 Đặt vấn đề ...............................................................................................................1 1.2 Nội dung nghiên cứu của khóa luận ..........................................................................3 1.3 Cấu trúc khóa luận....................................................................................................3Chương 2 Cơ sở lý thuyết cho phân đoạn ảnh .... 5 2.1 Khái niệm ảnh số ......................................................................................................5 2.2 Nhị phân hóa ............................................................................................................6 2.3 Biểu đồ sắc thái của hình ảnh (Histogram) ................................................................8 2.4 Thành phần liên thông ..............................................................................................8 2.4.1 Khái niệm điểm lân cận .....................................................................................9 2.4.2 Thành phần liên thông: Liên thông bốn và liên thông tám ..................................9Chương 3 Phân đoạn ảnh cho nhận dạng văn bản.................................................................................. 11 3.1 Tiền xử lý ảnh ........................................................................................................ 11 3.1.1 Nhị phân hóa ................................................................................................... 11 3.1.2 Lọc nhiễu ........................................................................................................ 11 3.1.3 Xoay lại ảnh .................................................................................................... 12 3.2 Tách đoạn............................................................................................................... 14 3.3 Tách dòng .............................................................................................................. 14 3.3.1 Tách dòng dựa vào các đường kẻ ngang........................................................... 14 3.3.2 Tách dòng dựa vào thành phần liên thông ........................................................ 15 3.3.3 Tách dòng dựa vào khoảng trắng giữa các dòng ............................................... 16 3.4 Tách từ ................................................................................................................... 17 3.4 Tách ký tự ...................................................................................... ...
Nội dung trích xuất từ tài liệu:
LUẬN VĂN: NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆT ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆTKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tin HÀ NỘI - 2009 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Bùi Thế Hân NGHIÊN CỨU VỀ NHẬN DẠNG CHỮ IN TIẾNG VIỆTKHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUYNgành: Công nghệ thông tinCán bộ hướng dẫn: TS. Lê Anh Cường HÀ NỘI - 2009Nghiên cứu nhận dạng chữ in tiếng việt Bùi Thế HânLời cảm ơn Lời đầu tiên em xin bày tỏ lòng biết ơn sâu sắc tới TS. Lê Anh Cường, ngườiđã không chỉ hướng dẫn em tận tình trong suốt năm học và thời gian làm luận văn.Mà còn là người đã khơi dậy trong em lòng yêu nghề, yêu Công Nghệ Thông Tin.Đồng thời Thầy cũng là người giúp em nhìn thấy con đường đi của riêng mình. Mộtlần nữa xin được nói lời cảm ơn với Thầy. Em xin bày tỏ lòng biết ơn tới các thầy, cô giáo trong Khoa Công nghệ thôngtin - Trường Đại học Công nghệ - ĐHQGHN. Các thầy cô đã dạy bảo, chỉ dẫnchúng em và luôn tạo điều kiện tốt nhất cho chúng em học tập trong suốt quá trìnhhọc đại học đặc biệt là trong thời gian làm khoá luận tốt nghiệp. Tôi xin cảm ơn các bạn sinh viên lớp K50CB trường Đại học Công nghệ vàcác bạn trong lớp KHMT, đã giúp đỡ tôi trong suốt quá trình học tập. Cuối cùng con xin gửi tới bố mẹ và toàn thể gia đình lòng biết ơn và tình cảmyêu thương. Hà Nội, ngày 22 tháng 5 năm 2009 Bùi Thế Hân iNghiên cứu nhận dạng chữ in tiếng việt Bùi Thế HânTóm tắt Nhận dạng chữ in nói chung và nhận dạng chữ in tiếng Việt nói riêng đã vàđang là những bài toán thu hút nhiều sự quan tâm và nghiên cứu. Bài toán nhận dạng chữ in tiếng Việt gồm ba công đoạn chủ yếu: Phân đoạnảnh, nhận dạng kí tự và hậu xử lý. Trong luận văn này tôi tập trung chủ yếu vào giaiđoạn Phân đoạn ảnh, nhằm đưa ra những cải tiến để đẩy nhanh tốc độ xử lý. Đồngthời chúng tôi cũng sử dụng môdul nhận dạng để xây dựng thành một hệ thống hoànchỉnh. Với bài toán nhận dạng chữ tiếng Việt có sự khó khăn do hệ thống dấu tiếngViệt làm số kí tự cần nhận dạng tăng lên rất nhiều, đồng thời làm tăng khả nănggiao nhau giữa các dòng, các ký tự. Để giải quyết vấn đề đó, trong khóa luận nàychúng tôi sử dụng phương pháp tách dòng dựa vào khoảng trắng, thành phần liênthông. Trong phần thực nghiệm của luận văn, chúng tôi cũng thực nghiệm các vănbản với nhiều cỡ chữ và font chữ khác nhau. Kết quả của việc phân đoạn ảnh vànhận dạng là tương đối tốt, có thể chấp nhận được. Từ khóa: Xác định góc nghiêng văn bản, Tách dòng văn bản, Thành phần liênthông, Biểu đồ Histogram, Mạng Neural, Nhận dạng kí tự quang học, trích trọn đặctrưng. iiNghiên cứu nhận dạng chữ in tiếng việt Bùi Thế HânMỤC LỤCChương 1 Giới thiệu................................................ 1 1.1 Đặt vấn đề ...............................................................................................................1 1.2 Nội dung nghiên cứu của khóa luận ..........................................................................3 1.3 Cấu trúc khóa luận....................................................................................................3Chương 2 Cơ sở lý thuyết cho phân đoạn ảnh .... 5 2.1 Khái niệm ảnh số ......................................................................................................5 2.2 Nhị phân hóa ............................................................................................................6 2.3 Biểu đồ sắc thái của hình ảnh (Histogram) ................................................................8 2.4 Thành phần liên thông ..............................................................................................8 2.4.1 Khái niệm điểm lân cận .....................................................................................9 2.4.2 Thành phần liên thông: Liên thông bốn và liên thông tám ..................................9Chương 3 Phân đoạn ảnh cho nhận dạng văn bản.................................................................................. 11 3.1 Tiền xử lý ảnh ........................................................................................................ 11 3.1.1 Nhị phân hóa ................................................................................................... 11 3.1.2 Lọc nhiễu ........................................................................................................ 11 3.1.3 Xoay lại ảnh .................................................................................................... 12 3.2 Tách đoạn............................................................................................................... 14 3.3 Tách dòng .............................................................................................................. 14 3.3.1 Tách dòng dựa vào các đường kẻ ngang........................................................... 14 3.3.2 Tách dòng dựa vào thành phần liên thông ........................................................ 15 3.3.3 Tách dòng dựa vào khoảng trắng giữa các dòng ............................................... 16 3.4 Tách từ ................................................................................................................... 17 3.4 Tách ký tự ...................................................................................... ...
Tìm kiếm theo từ khóa liên quan:
luận văn công nghệ thông tin nhận dạng tiếng Việt Xác định góc nghiêng văn bản Tách dòng văn bản Thành phần liên thông Biểu đồ Histogram Mạng Neural Nhận dạng kí tự quang học trích trọn đặc trưngGợi ý tài liệu liên quan:
-
52 trang 411 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 291 0 0 -
44 trang 289 0 0
-
Thảo luận đề tài: Mối quan hệ giữa đầu tư theo chiều rộng và đầu tư theo chiều sâu
98 trang 287 0 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 286 0 0 -
74 trang 276 0 0
-
96 trang 275 0 0
-
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 265 1 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 261 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 251 0 0