![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Luận văn Thạc sĩ Khoa học máy tính: Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản
Số trang: 67
Loại file: pdf
Dung lượng: 12.43 MB
Lượt xem: 10
Lượt tải: 0
Xem trước 7 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận văn của tôi sẽ được trình bày theo 5 chương. Chương đầu tiên đã giới thiệu, đặt vấn đề và mô tả bài toán cũng như phương pháp thực hiện. Chương 2 sẽ liệt kê các nghiên cứu liên quan. Chương 3 sẽ mô tả các phương pháp tác giả đã xây dựng để giải quyết bài toán đặt ra. Chương 4 sẽ trình bày kết quả thực nghiệm tôi đạt được sau khi áp dụng phương pháp đề xuất đã trình bày trong chương 3. Chương cuối cùng sẽ tổng kết và thảo luận lại các kết quả tôi đạt được khi nghiên cứu luận văn này.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nguyễn Hoàng AnhPhát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản LUẬN VĂN THẠC SĨ Ngành: Khoa học máy tính Hà Nội - 2021 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nguyễn Hoàng AnhPhát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản LUẬN VĂN THẠC SĨ Ngành: Khoa học máy tính Giảng viên hướng dẫn: TS. Nguyễn Thị Ngọc Diệp Hà Nội - 2021Tóm tắt Số hóa đang là xu hướng của thế giới. Một ví dụ rõ nhất thể hiện cho xu hướngsố hóa là việc sử dụng các định dạng văn bản số như ảnh văn bản đang dần thaythế cho các định dạng văn bản vật lý nhờ sự tiện dụng và an toàn của chúng. Đikèm với sự bùng nổ của công nghệ thông tin, lượng văn bản cần xử lý là rất lớn vàkhông thể giải quyết bằng phương pháp thủ công mà cần các phương pháp tríchxuất thông tin tự động. Trên văn bản có nhiều dạng biểu diễn thông tin mà bảng làmột trong những dạng chứa nhiều thông tin và phổ biến nhất. Trong bảng, các dữliệu thường được tổ chức theo hàng cột rất đặc trưng. Vì vậy, để trích xuất thôngtin trong bảng, bước đầu tiên cần xác định và tách được bảng ra khỏi văn bản.Đồng thời, bảng có cấu trúc rất đa dạng nên việc sử dụng các thuật toán xử lý ảnhtruyền thống để phát hiện là rất khó khăn. Tận dụng sức mạnh của học sâu, trên thế giới đã có nhiều nghiên cứu ứng dụngcác mô hình học sâu để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảngtrong ảnh văn bản. Trong đó, phát hiện bảng là nhiệm vụ tìm vị trí và tách đượcbảng ra khỏi văn bản còn nhận dạng cấu trúc là nhiệm vụ xác định cấu trúc biểudiễn dữ liệu trong bảng. Mặc dù đã có nhiều nghiên cứu liên quan nhưng cácnghiên cứu đã công bố chưa tập trung vào dạng dữ liệu ảnh văn bản thu được từviệc chụp các văn bản vật lý bằng các thiết bị ghi hình. Trong thực thế, lượng dữliệu ảnh chụp văn bản là rất lớn vì chụp ảnh là một trong những cách nhanh nhấtđể số hóa văn bản. Vì vậy, trong khóa luận này, tôi sẽ ứng dụng công nghệ học sâuđể giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng trên ảnh chụp văn bản. Để giải quyết bài toán đặt ra, tôi đã phát triển các phương pháp phát hiện vànhận dạng cấu trúc bảng dựa trên các mô hình học sâu. Phương pháp phát hiệnbảng sẽ bao gồm các mô hình học sâu được huấn luyện để phát hiện vị trí củabảng trong ảnh văn bản và một bước hậu xử lý để làm phẳng bảng. Mục đích củaphương pháp là tách được từng bảng ra khỏi ảnh văn bản ban đầu. Sau đó, các ảnhbảng này được đưa vào phương pháp nhận dạng cấu trúc bảng. Phương pháp nhậndạng cấu trúc sẽ sử dụng các mô hình học sâu được huấn luyện để nhận dạng cấu itrúc của bảng thông qua việc phát hiện các ô trong bảng. Để huấn luyện các môhình học sâu đề xuất, tôi đã xây dựng một phương pháp tự động tạo ảnh mô phỏngảnh chụp văn bản do các bộ dữ liệu sẵn có về ảnh chụp văn bản là rất ít. Phươngpháp này sử dụng các tính toán để mô phỏng và thêm các hiệu ứng chỉ xuất hiệnkhi chụp văn bản (biến dạng 3D và bóng) lên các ảnh văn bản chuyển đổi từ cácđịnh dạng số (PDF, Word...). Sử dụng phương pháp này, tôi đã xây đựng được bộdữ liệu bao gồm 22000 ảnh mô phỏng ảnh chụp văn bản (được gán nhãn vị tríbảng) và 42028 ảnh bảng (được gán nhãn vị trí các ô trong bảng). Ngoài ra, đểđánh giá độ chính xác của các phương pháp phát hiện và nhận dạng cấu trúc bảng,tôi đã gán nhãn thủ công một bộ dữ liệu thực tế gồm 100 ảnh chụp văn bản và 100ảnh bảng. Kết quả cuối cùng tôi đạt được khá tốt và cao hơn các nghiên cứu liênquan đã công bố khi đánh giá trên bộ dữ liệu thực tế đã gán nhãn. Cụ thể, phươngpháp phát hiện bảng của tôi cho kết quả IoU điểm ảnh lên đến 0.96 và chỉ số F1 là0.83 (khi xét các bảng dự đoán có IoU > 0.9 được tính là chính xác). Với phươngpháp làm phẳng bảng, nghiên cứu của tôi cho tỉ lệ cắt và làm phẳng bảng thànhcông lên đến 95%. Với phương pháp nhận dạng cấu trúc bảng thông qua phát hiệncác ô trong bảng, mô hình của tôi cho chỉ số F1 khi phát hiện các ô là 0.76. iiLời cảm ơn Tôi xin cảm ơn sâu sắc đến TS. Nguyễn Thị Ngọc Diệp đã tiếp nhận, hướngdẫn, tận tình chỉ bảo cũng như đốc thúc tôi hoàn thành nghiên cứu trong suốt thờigian làm luận văn. Tôi xin gửi lời cảm ơn đến các giảng viên dạy các lớp cao học của trường Đạihọc Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt kiến thức cho tôi trongsuốt 2 năm tôi làm học viên cao học tại trường. Và cuối cùng, tôi xin gửi lời cảm ơn sâu sắc nhất đến bố mẹ - những người đãl ...
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Phát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nguyễn Hoàng AnhPhát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản LUẬN VĂN THẠC SĨ Ngành: Khoa học máy tính Hà Nội - 2021 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI Nguyễn Hoàng AnhPhát triển mô hình học sâu cho bài toán phát hiện bảng và nhận dạng cấu trúc của bảng trong ảnh văn bản LUẬN VĂN THẠC SĨ Ngành: Khoa học máy tính Giảng viên hướng dẫn: TS. Nguyễn Thị Ngọc Diệp Hà Nội - 2021Tóm tắt Số hóa đang là xu hướng của thế giới. Một ví dụ rõ nhất thể hiện cho xu hướngsố hóa là việc sử dụng các định dạng văn bản số như ảnh văn bản đang dần thaythế cho các định dạng văn bản vật lý nhờ sự tiện dụng và an toàn của chúng. Đikèm với sự bùng nổ của công nghệ thông tin, lượng văn bản cần xử lý là rất lớn vàkhông thể giải quyết bằng phương pháp thủ công mà cần các phương pháp tríchxuất thông tin tự động. Trên văn bản có nhiều dạng biểu diễn thông tin mà bảng làmột trong những dạng chứa nhiều thông tin và phổ biến nhất. Trong bảng, các dữliệu thường được tổ chức theo hàng cột rất đặc trưng. Vì vậy, để trích xuất thôngtin trong bảng, bước đầu tiên cần xác định và tách được bảng ra khỏi văn bản.Đồng thời, bảng có cấu trúc rất đa dạng nên việc sử dụng các thuật toán xử lý ảnhtruyền thống để phát hiện là rất khó khăn. Tận dụng sức mạnh của học sâu, trên thế giới đã có nhiều nghiên cứu ứng dụngcác mô hình học sâu để giải quyết bài toán phát hiện và nhận dạng cấu trúc bảngtrong ảnh văn bản. Trong đó, phát hiện bảng là nhiệm vụ tìm vị trí và tách đượcbảng ra khỏi văn bản còn nhận dạng cấu trúc là nhiệm vụ xác định cấu trúc biểudiễn dữ liệu trong bảng. Mặc dù đã có nhiều nghiên cứu liên quan nhưng cácnghiên cứu đã công bố chưa tập trung vào dạng dữ liệu ảnh văn bản thu được từviệc chụp các văn bản vật lý bằng các thiết bị ghi hình. Trong thực thế, lượng dữliệu ảnh chụp văn bản là rất lớn vì chụp ảnh là một trong những cách nhanh nhấtđể số hóa văn bản. Vì vậy, trong khóa luận này, tôi sẽ ứng dụng công nghệ học sâuđể giải quyết bài toán phát hiện và nhận dạng cấu trúc bảng trên ảnh chụp văn bản. Để giải quyết bài toán đặt ra, tôi đã phát triển các phương pháp phát hiện vànhận dạng cấu trúc bảng dựa trên các mô hình học sâu. Phương pháp phát hiệnbảng sẽ bao gồm các mô hình học sâu được huấn luyện để phát hiện vị trí củabảng trong ảnh văn bản và một bước hậu xử lý để làm phẳng bảng. Mục đích củaphương pháp là tách được từng bảng ra khỏi ảnh văn bản ban đầu. Sau đó, các ảnhbảng này được đưa vào phương pháp nhận dạng cấu trúc bảng. Phương pháp nhậndạng cấu trúc sẽ sử dụng các mô hình học sâu được huấn luyện để nhận dạng cấu itrúc của bảng thông qua việc phát hiện các ô trong bảng. Để huấn luyện các môhình học sâu đề xuất, tôi đã xây dựng một phương pháp tự động tạo ảnh mô phỏngảnh chụp văn bản do các bộ dữ liệu sẵn có về ảnh chụp văn bản là rất ít. Phươngpháp này sử dụng các tính toán để mô phỏng và thêm các hiệu ứng chỉ xuất hiệnkhi chụp văn bản (biến dạng 3D và bóng) lên các ảnh văn bản chuyển đổi từ cácđịnh dạng số (PDF, Word...). Sử dụng phương pháp này, tôi đã xây đựng được bộdữ liệu bao gồm 22000 ảnh mô phỏng ảnh chụp văn bản (được gán nhãn vị tríbảng) và 42028 ảnh bảng (được gán nhãn vị trí các ô trong bảng). Ngoài ra, đểđánh giá độ chính xác của các phương pháp phát hiện và nhận dạng cấu trúc bảng,tôi đã gán nhãn thủ công một bộ dữ liệu thực tế gồm 100 ảnh chụp văn bản và 100ảnh bảng. Kết quả cuối cùng tôi đạt được khá tốt và cao hơn các nghiên cứu liênquan đã công bố khi đánh giá trên bộ dữ liệu thực tế đã gán nhãn. Cụ thể, phươngpháp phát hiện bảng của tôi cho kết quả IoU điểm ảnh lên đến 0.96 và chỉ số F1 là0.83 (khi xét các bảng dự đoán có IoU > 0.9 được tính là chính xác). Với phươngpháp làm phẳng bảng, nghiên cứu của tôi cho tỉ lệ cắt và làm phẳng bảng thànhcông lên đến 95%. Với phương pháp nhận dạng cấu trúc bảng thông qua phát hiệncác ô trong bảng, mô hình của tôi cho chỉ số F1 khi phát hiện các ô là 0.76. iiLời cảm ơn Tôi xin cảm ơn sâu sắc đến TS. Nguyễn Thị Ngọc Diệp đã tiếp nhận, hướngdẫn, tận tình chỉ bảo cũng như đốc thúc tôi hoàn thành nghiên cứu trong suốt thờigian làm luận văn. Tôi xin gửi lời cảm ơn đến các giảng viên dạy các lớp cao học của trường Đạihọc Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt kiến thức cho tôi trongsuốt 2 năm tôi làm học viên cao học tại trường. Và cuối cùng, tôi xin gửi lời cảm ơn sâu sắc nhất đến bố mẹ - những người đãl ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Luận văn Thạc sĩ Khoa học máy tính Khoa học máy tính Phát triển mô hình học sâu Bài toán phát hiện bảngTài liệu liên quan:
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 490 1 0 -
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 384 6 0 -
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 369 5 0 -
97 trang 338 0 0
-
97 trang 323 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 305 0 0 -
155 trang 300 0 0
-
64 trang 273 0 0
-
26 trang 272 0 0
-
115 trang 270 0 0