Nội dung luận án gồm 4 chương chính:chương 1 giới thiệu, phân tích một số phương pháp liên quan trong phát hiện và nhận dạng công thức; chương 2 đề xuất mô hình lại cho phép kết hợp giữa kỹ thuật trích chọn đặc trưng thủ công và trích chọn dặc trưng tự dùng du trên các mô hình học sâu tiên tiến; chương 3 đề xuất phương pháp tích hợp để tiếp tục nâng cao độ chính xác trong phát hiện công thức; chương 4 đề xuất phương pháp kết hợp giữa phát hiền và nhận dạng công thức toán học dựa trên các mô hình học sâu tiên tiến.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Khoa học máy tính: Nghiên cứu nâng cao hiệu quả phát hiện công thức toán học trong ảnh văn bản BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI BÙI HẢI PHONGNGHIÊN CỨU NÂNG CAO HIỆU QUẢ PHÁT HIỆNCÔNG THỨC TOÁN HỌC TRONG ẢNH VĂN BẢN Ngành: Khoa học máy tính Mã số: 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội −2021 Công trình này được hoàn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1. PGS.TS. Hoàng Mạnh Thắng 2. PGS.TS. Lê Thị Lan Phản biện 1: Phản biện 2: Phản biện 3: Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội: Vào hồi giờ , ngày tháng năm 2021Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam GIỚI THIỆUĐộng lực nghiên cứu Hiện nay, tài liệu khoa học đóng vai trò quan trọng đối với cộng đồng nghiên cứu. Côngthức toán học là một thành phần rất quan trọng trong các tài liệu khoa học. Qua thời gian,số lượng tài liệu khoa học được công bố ngày càng tăng. Các tài liệu khoa học được định dạngdưới hai dạng chính: PDF và ảnh. Gần đây, các tài liệu được xuất bản với định dạng PDF,tuy vậy, vẫn còn một số lượng lớn các tài liệu ở dạng ảnh. Để có thể số hóa các tài liệu này,các kỹ thuật xử lý ảnh cần được áp dụng. Các bước chính để số hóa tài liệu ảnh bao gồm:phân tích cấu trúc trang tài liệu, nhận dạng ký tự, so khớp, tìm kiếm nội dung tài liệu [2].Việc số hóa các tài liệu văn bản kí tự được coi là bài toán đã được giải quyết với độ chính xáccao. Tuy vậy, việc số hóa các tài liệu khoa học có nhiều thách thức và đang thu hút sự chú ýcủa các nhà khoa học. Đặc biệt, phát hiện và nhận dạng công thức toán học là bài toán phứctạp. Từ những yêu cầu trên, luận án nghiên cứu phương pháp nâng cao độ chính xác trongphát hiện và nhận dạng công thức toán học trong tài liệu định dạng ảnh.Giới thiệu bài toán phát hiện và nhận dạng công thức toán học trongtài liệu định dạng ảnh Công thức toán học đã được sử dụng từ lâu trong cuộc sống của con người. Công thứctoán học có thể được định nghĩa là sự kết hợp chặt chẽ, hữu hạn các ký hiệu toán học theongữ cảnh [5]. Các luật kết hợp các ký hiệu toán học phụ thuộc vào những ngữ cảnh nhất định.Công thức toán học thường chứa các biến, phép toán, hàm, các ký hiệu đặc biệt (dấu ngoặc,dấu chấm). Các thành phần của công thức toán học được kết hợp dựa trên các thứ tự và tuântheo ngữ pháp nhất định. Trong tài liệu, công thức toán học được chia thành hai loại: côngthức độc lập và công thức nội tuyến. Công thức độc lập xuất hiện trên một dòng văn bảnriêng biệt trong khi đó, công thức nội tuyến xuất hiện trên cùng một dòng với kí tự văn bảnthông thường. Phát hiện công thức độc lập đã thu được nhiều kết quả tích cực, tuy vậy, pháthiện công thức nội tuyến vẫn là một thách thức và đang tiếp tục được nghiên cứu rộng rãi. Phát hiện công thức hướng tới xác định vị trí công thức trong tài liệu khoa học. Trongkhi đó, nhận dạng công thức toán học nhằm chuyển đổi công thức từ định dạng ảnh sang địnhdạng chuỗi ký tự và biểu diễn chuỗi ký tự dưới một định dạng nhất định (trong luận án này,kết quả nhận dạng được biểu diễn dưới dạng Latex). Hình 1 minh họa quá trình phát hiệnvà nhận dạng công thức trong tài liệu ảnh. Kết quả phát hiện và nhận dạng công thức có mốiquan hệ chặt chẽ. Việc phát hiện chính xác công thức giúp nhận dạng công thức chính xác.Ngược lại, các lỗi trong quá trình phát hiện công thức có thể gây ra lỗi trong quá trình nhậndạng. Phạm vi nghiên cứu của luận án như sau: 1Hình 1 Ví dụ minh họa phát hiện (a) và nhận dạng (b) công thức toán học trong tài liệudạng ảnh. Công thức độc lập và công thức nội tuyến được đánh dấu bằng các hình chữ nhậtmàu đỏ và xanh. Kết quả nhận dạng công thức và biểu diễn bằng Latex (c). (1) Trên thực tế, công thức toán học rất đa dạng và được sử dụng trong nhiều lĩnh vựckhoa học khác nhau, luận án nghiên cứu phương pháp phát hiện và nhận dạng công thức toánhọc (không phải là công thức vật lý, hóa học) trong tài liệu khoa học. Trong các tài liệu này,công thức thường được biểu diễn dưới một số định dạng như chữ in đậm, in nghiêng. Kíchthước của công thức nằm trong các đoạn văn bản, không vượt quá lề của tài liệu. Các côngthức không nằm trong các thành phần khác của tài liệu như bảng, hình vẽ. (2) Độ chính xác của phát hiện và nhận dạng công thức phụ thuộc nhiều vào chất lượngtài liệu ảnh đầu vào. Luận án này đi sâu nghiên cứu phương pháp phát hiện và nhận dạngcông thức trong tài liệu in, thẳng (không nghiêng, cong) có độ phân giải cao. (3) Luận án phát hiện các công thức trong tài liệu khoa học và biểu diễn các công thứcđược phát hiện bằng các hình chữ nhật bao quanh công thức. Sau đó, các công thức đượcnhận dạng và biểu diễn nhờ định dạng Latex [4]. Những khó khăn, thách thức chính trong việc nhận dạng công thức toán học như sau: (1) Cho tới nay, hàng trăm kí tự toán học được sử dụng trong công thức toán học. Việcnhận dạng chính xác một số lượng lớn các kí tự toán học là một thách thức lớn. Một số kí tựcó thể chứa một hoặc nhiều thành phần (ví dụ các kí tự ’i’, ‘j’, ‘=’). Trong khi đó, một số kí √tự toán học phức tạp có thể chứa các kí tự khác (ví dụ a ). (2) Một số kí tự toán học cóvai trò khác nhau tùy theo ngữ cảnh. (3) Một số kí tự toán học có thể được biểu diễn mộtcách tường minh hoặc có thể hiểu ngầm tùy theo các kí tự đi kèm. (4) Cũng như ngôn ngữ tựnhiên, kí hiệu toán học rất đa dạng và có tính chất địa phươn ...