Thông tin tài liệu:
Bài viết đề xuất một phương pháp sinh ảnh nội soi đại tràng có chứa các polyp sử dụng mạng sinh dữ liệu có điều kiện (CGAN) nhằm tăng số lượng mẫu huấn luyện cho hệ thống học sâu. Đề xuất sử dụng ảnh nhị phân thể hiện hình dạng polyp kết hợp với ảnh lọc cạnh của ảnh nội soi đại tràng bình thường làm điều kiện cho việc sinh ảnh nội soi có chứa polyp.
Nội dung trích xuất từ tài liệu:
Tăng cường dữ liệu huấn luyện cho hệ thống học sâu phân vùng các polyp trên ảnh nội soi đại tràng sử dụng mạng sinh dữ liệu có điều kiệnNghiên cứu khoa học công nghệ TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN CHO HỆ THỐNG HỌC SÂU PHÂN VÙNG CÁC POLYP TRÊN ẢNH NỘI SOI ĐẠI TRÀNG SỬ DỤNG MẠNG SINH DỮ LIỆU CÓ ĐIỀU KIỆN Lê Thị Thu Hồng1*, Nguyễn Chí Thành1, Phạm Thu Hương1, Nguyễn Sinh Huy1, Nguyễn Văn Đức2, Nguyễn Thành Trung2 Tóm tắt: Một trong những trở ngại chính của các hệ thống học sâu phân tích ảnh y tế nói chung và tự động phân vùng các polyp trên ảnh nội soi đại tràng hỗ trợ các bác sỹ trong trong quá trình nội soi nói riêng là sự thiếu hụt dữ liệu ảnh dùng để huấn luyện đã được gán nhãn bởi các chuyên gia y tế. Trong bài báo này, chúng tôi đề xuất một phương pháp sinh ảnh nội soi đại tràng có chứa các polyp sử dụng mạng sinh dữ liệu có điều kiện (CGAN) nhằm tăng số lượng mẫu huấn luyện cho hệ thống học sâu. Chúng tôi đề xuất sử dụng ảnh nhị phân thể hiện hình dạng polyp kết hợp với ảnh lọc cạnh của ảnh nội soi đại tràng bình thường làm điều kiện cho việc sinh ảnh nội soi có chứa polyp. Theo cách này, chúng tôi có thể tạo ra nhiều ảnh chứa polyp khác nhau trong khi vẫn duy trì nội dung tổng thể của ảnh nội soi. Phần thực nghiệm của chúng tôi cho thấy rằng, ảnh polyp tổng hợp được tạo ra không chỉ giống ảnh thực mà còn giúp nâng cao hiệu suất của hệ thống học sâu phát hiện và phân vùng các polyp trên ảnh nội soi.Từ khóa: Mạng sinh dữ liệu; Tăng cường dữ liệu; Học chuyển giao; Phân vùng polyp. 1. GIỚI THIỆU Ung thư đại trực tràng (CRC) là nguyên nhân phổ biến thứ ba gây tử vong liên quan đếnung thư trên thế giới cho cả nam và nữ, với 551.269 ca tử vong (chiếm 5,8% tổng số ca tửvong do ung thư) trên toàn thế giới vào năm 2018 [1]. CRC thường phát sinh từ các polyptăng trưởng bất thường bên trong đại tràng, nội soi đại tràng là thủ thuật phổ biến để pháthiện các polyp từ đó sàng lọc, phát hiện sớm CRC. Trong thủ thuật nội soi, một ống dài linhhoạt (colonoscope) đầu có gắn máy quay phim nhỏ và đèn soi ở được đưa vào quét bộ đạitràng thu hình ảnh của niêm mạc đại tràng và hình ảnh này được phóng đại trên màn hìnhmàu có độ nét cao, cho phép các bác sĩ xem xét bên trong của toàn bộ đại tràng. Chất lượngthủ thuật nội soi đại tràng phụ thuộc vào tay nghề, kinh nghiệm và sự tập trung của các bácsĩ nội soi, các nghiên cứu gần đây đã chỉ ra rằng 22% đến 28% polyp của bệnh nhân trongquá trình nội soi [2]. Các ứng dụng tự động phân vùng polyp trên ảnh nội soi sẽ hỗ trợ cácbác sĩ nội soi cải thiện độ chính xác và giảm thiểu việc bỏ sót polyp trong quá trình nội soi.Hiện tại có các nghiên cứu sử dụng các mô hình học sâu cho tác vụ phân vùng polyp trênảnh nội soi. Tuy nhiên, trở ngại chính trong việc sử dụng học sâu cho tác vụ này là không đủdữ liệu nội soi được gán nhãn là các ảnh nhị phân thể hiện hình dạng của polyp (polyp mask)chính xác dùng để huấn luyện các mô hình học sâu, do đó cần có các phương pháp tăng sốlượng mẫu dữ liệu học có gán nhãn cho huấn luyện mô hình học sâu từ đó nâng cao hiệunăng của mô hình. Thông thường, các kỹ thuật tăng cường dữ liệu (data augmentation) đơngiản như xoay (rotating) và lật (flipting), phóng to thu nhỏ (scaling), thay đổi độ sáng, làmmờ (blurring), thay đổi độ tương phản các ảnh gốc thường được sử dụng để tăng số lượngmẫu học cho các mô hình học sâu. Tuy nhiên, do các polyp trên ảnh nội soi có sự biên thiênvề hình dạng, tỷ lệ và màu sắc rất lớn nên việc áp dụng các kỹ thuật tăng cường ảnh đơn giảnchỉ có hiệu quả hạn chế đối với hiệu năng hệ thống vì không thay đổi được các đặc điểm củacác polyp và sự cân bằng của nó với nền. Mạng sinh dữ liệu đối nghịch (GAN- Generative Adversarial Networks) [3] là mô hìnhmạng nơ ron có khả năng tạo các ảnh tổng hợp bằng cách sử dụng sự cạnh tranh của haimạng nơ-ron: Bộ sinh (Generator) dùng để sinh ảnh và Bộ phân biệt (Discriminator) đểTạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 447 Toán học – Công nghệ thông tinphân biệt ảnh thật là các ảnh trong bộ dữ liệu thực và ảnh giả là ảnh do bộ Generator tạora. GAN là một phương pháp có hiệu quả để tăng cường dữ liệu cho các hệ thống học sâu.Mạng sinh dữ liệu có điều kiện [4] (CGAN- Conditional GAN) là một dạng GAN trong đócó kiểm soát Generator sinh ảnh theo điều kiện đầu vào nhất định. Trong nghiên cứu này,chúng tôi sử dụng mô hình Pix2Pix [5] là một mạng CGAN để sinh ảnh nội soi đại tràngcó chứa polyp nhằm tăng số lượng mẫu huấn luyện từ đó tăng hiệu năng của hệ thốngphân vùng polyp trên ảnh nội soi. Ngoài ra, để tạo ra ảnh nội soi có chứa polyp với polypvà nền hài hòa tự nhiên, chúng tôi đề xuất kết hợp lọc cạnh của ảnh nội soi đại tràng bìnhthường và ảnh nhị phân thể hiện hình dạng polyp (polyp mask) tạ ...