Danh mục

Luận văn Thạc sĩ Khoa học máy tính: Nhận dạng đối tượng đồ hoạ trong ảnh văn bản sử dụng mạng nơ ron tích chập

Số trang: 62      Loại file: pdf      Dung lượng: 11.05 MB      Lượt xem: 9      Lượt tải: 0    
Jamona

Phí tải xuống: 62,000 VND Tải xuống file đầy đủ (62 trang) 0
Xem trước 7 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục tiêu của luận văn "Nhận dạng đối tượng đồ hoạ trong ảnh văn bản sử dụng mạng nơ ron tích chập" này đó là sử dụng bộ dữ liệu chỉ bao gồm vị trí các hộp giới hạn và một bộ dữ liệu dùng để phân loại các đối tượng đồ họa với số lượng ảnh mỗi lớp là hạn chế; Từ đó đề xuất phương pháp nhận dạng đối tượng đồ họa trong ảnh văn bản.
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Nhận dạng đối tượng đồ hoạ trong ảnh văn bản sử dụng mạng nơ ron tích chập ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ Nguyπn Tußn AnhNHäN DÑNG »I T◊—NG « H≈A TRONG ÉNH VãN BÉN S€ D÷NG MÑNG Nà RON TÍCH CHäP LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tính HÀ NÀI - 2021 ÑI H≈C QU»C GIA HÀ NÀI TR◊ÕNG ÑI H≈C CÔNG NGHõ Nguyπn Tußn Anh NHäN DÑNG »I T◊—NG « H≈A TRONG ÉNH VãN BÉN S€ D÷NG MÑNG Nà RON TÍCH CHäP LUäN VãN THÑC Sû Ngành: Khoa hÂc máy tínhCán bÎ h˜Óng d®n: TS. Nguyπn Th‡ NgÂc Diªp HÀ NÀI - 2021 TÓM TçT Chuy∫n Íi sË và sË hóa v´n b£n ã em l§i nh˙ng lÒi ích vô cùng to lÓn chocác doanh nghiªp là c≠t gi£m chi phí v™n hành, và t´ng hiªu qu£ làm viªc, các quy∏t ‡nh bây giÌ ˜Òc ˜a ra nhanh chóng và chính xác hÏn nhÌ các hª thËng báo cáothông suËt k‡p thÌi. Íi l§i, sË l˜Òng các v´n b£n báo cáo c¶n ph£i gi£i quy∏t và l˜utr˙ ngày mÎt lÓn d®n ∏n bài toán tìm ki∏m ngày mÎt ph˘c t§p. Nhu c¶u giÌ âykhông còn chø d¯ng l§i  viªc tìm ki∏m t¯ nÎi dung v´n b£n mà còn c¶n tìm ki∏m các Ëi t˜Òng Á hÂa nh˜ b£ng bi∫u, Á th‡. Các hª thËng tìm ki∏m Á hÂa muËn ho§t Îng hiªu qu£ thì c¶n có b˜Óc nh™n d§ng và phát hiªn các Ëi t˜Òng này. a ph¶ncác ph˜Ïng pháp và mô hình nh™n diªn Ëi t˜Òng Á hÂa trong £nh v´n b£n hiªn nay ang ˜Òc hußn luyªn trên mÎt bÎ d˙ liªu có ı hai ph¶n là v‡ trí và tên nhãn cıa Ëi t˜Òng Á hÂa. Công s˘c và thÌi gian ∫ gán nhãn cho các bÎ d˙ liªu này là rßtlÓn. Do v™y trong lu™n v´n này chúng tôi ∑ xußt mÎt ph˜Ïng pháp có th∫ t™n dˆngbÎ d˙ liªu không ¶y ı v∑ tên nhãn cıa các lÓp ∫ nh™n d§ng các Ëi t˜Òng Á hÂa.Nh˙ng óng góp chính cıa lu™n v´n bao gÁm. – ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng nÏ ron tích ch™p YOLO cho bài toán ‡nh v‡ Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu chø bao gÁm các v‡ trí cıa hÎp giÓi h§n. – ∑ xußt ph˜Ïng pháp s˚ dˆng m§ng hÂc sâu t¸ giám sát DINO cho b˜Óc trích xußt thuÎc tính hình £nh dùng trong bài toán phân lo§i các lÓp Ëi t˜Òng Á hÂa vÓi bÎ d˙ liªu có sË l˜Òng £nh mÈi lÓp h§n ch∏. – Xây d¸ng và phát tri∫n hª thËng tìm ki∏m và truy xußt các Ëi t˜Òng Á hÂa trong £nh v´n b£n.Ph˜Ïng pháp nh™n d§ng các Ëi t˜Òng Á hÂa trong £nh v´n b£n ˜Òc trình bày tronglu™n v´n ã ˜Òc th˚ nghiªm và §t k∏t qu£ xßp xø 74% trên các bÎ d˙ liªu ki∫m th˚và ánh giá. Áp dˆng các ph˜Ïng pháp trên vào ∫ xây d¸ng nên hª thËng tìm ki∏mvà truy xußt các v´n b£n t¯ các Ëi t˜Òng Á hÂa §t ˜Òc k∏t qu£ Î hÁi t˜ng §t93,3%.T¯ khóa: nh™n d§ng Ëi t˜Òng, phân lo§i hình £nh, Ëi t˜Òng Á hÂa 1 ABSTRACT Digital transformation and digitization of documents have greatly benefited busi-nesses as they can cut operating costs and increase working efficiency. Decisions arenow made quickly and accurately through timely and transparent reporting systems.In turn, the number of report documents that need to be processed and stored in-creases, leading to an increasingly complex search problem. The need now is not justto search from the textual content but also to look for graphic objects such as tablesand graphs. For visual search systems to work effectively, there is a need to recognizeand detect these objects. Most of the methods and models for recognizing graphicobjects in-text images are currently being trained on a dataset with two parts, the lo-cation and the label name of the graphical object. The effort to label these datasets isnot tiny, and the time spent is also considerable. Therefore, in this thesis, we proposea method that can use the incomplete data set of label names of classes to identifygraphic objects. The main contributions of the thesis include. – We propose using a convolutional neural network (YOLO) to locate graphic objects with a dataset that includes only the bounding box’s locations. – We propose a method to use a self-supervised deep learning network (DINO) for the feature extraction step used to classify graphic objects with a dataset with a limited number of images per class. – Building and developing a system for searching and retrieving graphic objects in text images.The method of recognizing graphic objects in text images presented in this thesis hasbeen tested and achieved approximately 74% results on test and evaluation datasets.Applying the above methods to build a system for searching and retrieving documentsfrom graphic objects also achieved the top 3 recall results of 93.3%.Keywords: object recognition, image classification, graphic object 2 LÕI CÉM ÃNLÌi ¶u tiên cho tôi xin ˜Òc g˚i lÌi c£m Ïn chân thành và sâu s≠c nhßt tÓi ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: