Xây dựng công cụ chuyển đổi dữ liệu y sinh
Số trang: 11
Loại file: pdf
Dung lượng: 868.18 KB
Lượt xem: 7
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục tiêu của bài báo "Xây dựng công cụ chuyển đổi dữ liệu y sinh" là xây dựng công cụ phần mềm dùng để chuyển đổi dữ liệu từ văn bản không có cấu trúc về dạng dữ liệu có cấu trúc. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Xây dựng công cụ chuyển đổi dữ liệu y sinhKỷ yếu Hội thảo khoa học Khoa Công nghệ thông tin, năm 2024 XÂY DỰNG CÔNG CỤ CHUYỂN ĐỔI DỮ LIỆU Y SINH Huỳnh Hữu Nghĩa1, *, Lê Nguyễn Thảo Nguyên1, Dương Ngọc Hương Trà1, Nguyễn Mai Quỳnh Giao1 Trường Đại học Công thương Thành phố Hồ Chí Minh 1 * Email: nghiahh@huit.edu.vn Ngày nhận bài: 11/05/2024; Ngày chấp nhận đăng: 20/05/2024 TÓM TẮT Những nhà nghiên cứu y sinh học thường xuyên nghiên cứu dữ liệu lâm sàng và dữliệu biểu hiện của Gen được cung cấp từ các phòng thí nghiệm để tìm hiểu những biểu hiệnbất thường của Gen trên nhóm bệnh nhân ung thư và không ung thư; tìm các mẫu bệnh nhânbị xơ gan và ung thư gan nguyên phát hay không; tìm các thông tin về sự sống còn, sự sốngcòn không bệnh và tái phát nhằm xây dựng và kiểm định mô hình tiên lượng bệnh. Nhànghiên cứu gặp nhiều khó khăn trong việc đọc các tài liệu để tìm kiếm thông tin do dữ liệulớn, lưu trữ dưới dạng văn bản không có cấu trúc và không thể sử dụng các công cụ phầnmềm hỗ trợ. Vì vậy cần có sự biến đổi dữ liệu về dạng có cấu trúc và có thể tính toán thốngkê được. Mục tiêu của bài báo là xây dựng công cụ phần mềm dùng để chuyển đổi dữ liệu từvăn bản không có cấu trúc về dạng dữ liệu có cấu trúc.Từ khóa: Công cụ chuyển đổi dữ liệu y sinh, xử lý dữ liệu y sinh, phân tích dữ liệu y sinh. 1. MỞ ĐẦU Ngày nay, chứng kiến rõ được sự thay đổi vượt bậc của công nghệ số trong cuộccách mạng công nghiệp lần thứ tư, đặc biệt là lĩnh vực y sinh. Các nguồn thông tin phongphú đa dạng từ các phòng thí nghiệm, bệnh viện, trường học, các nghiên cứu lâm sàng v..v…[1] [2]Các thông tin này thường được thể hiện dưới dạng văn bản và đóng một vai trò quantrọng vì chứa các kết quả nghiên cứu, báo cáo lâm sàng, hoặc mô tả chi tiết đặc biệt là nhữngvăn bản chứa thông tin về “biểu hiện gen của nhóm người mắc bệnh ung thư và nhóm ngườikhông mắc bệnh ung thư”. [3] Tuy nhiên, dữ liệu văn bản y sinh thường tồn tại dưới dạngkhông cấu trúc, gây ra một loạt các thách thức trong việc hiểu biết và sử dụng thông tin chứatrong đó. [1] [4] Một trong những thách thức lớn nhất là việc xử lý, chuyển đổi dữ liệukhông cấu trúc thành dữ liệu có cấu trúc, để nhà nghiên cứu dễ dàng phân tích và tổng hợp.Đặc biệt, với dữ liệu y sinh, việc này trở nên phức tạp hơn do số lượng lớn và tính đa dạngcủa các thông tin chưa được tổ chức hoặc phân loại một cách hợp lý chứa trong các tài liệu.Điều này gây ra khó khăn cho các y bác sĩ và các nghiên cứu sinh trong việc nghiên cứu,phân tích sự khác biệt về những chỉ số biểu hiện Gen giữa 2 nhóm người. Những Gen có chỉsố biểu hiện cao hoặc thấp hơn bình thường chính là dấu hiệu của bệnh mà họ muốn nghiêncứu. 21Huỳnh Hữu Nghĩa và CS Hình 1. Website của National Center for Biotechnology Information - NCBI [5] Dữ liệu y sinh thường chứa các kết quả từ các phòng thí nghiệm, liên quan đến biểuhiện gen trên bệnh nhân, bao gồm cả những người mắc bệnh ung thư và không ung thư. Đâylà một nguồn thông tin quý giá, nhưng để có thể sử dụng tối đa, dữ liệu này cần được tổ chứcvà chuyển đổi thành dạng có cấu trúc. [3] Hiện nay, dữ liệu y sinh thường được công bố quanhiều nguồn, bao gồm các trang web chính thống được quản lý bởi các tổ chức y tế vànghiên cứu, cùng với các công bố khoa học trong các tạp chí uy tín. Trong bài báo này,nhóm tác giả sử dụng dữ liệu được cung cấp bởi Quốc Viện Y học Hoa Kỳ (NationalInstitutes of Health - NIH) thông qua Trung tâm Thông tin Y học Quốc gia (I). Hình 2. Dữ liệu sinh học được lấy từ website NCBI Tuy nhiên, với dữ liệu ở dạng không có cấu trúc (Hình 2), việc tìm kiếm và phân tíchcác biểu hiện gen đặc biệt giữa các nhóm bệnh nhân trở nên vô cùng phức tạp và mất thờigian. Ước tình mỗi người có từ 20.000 đến 25.000 Gen [6]. Phân tích Gen giữa hai nhómngười bệnh thì những chỉ số mà họ phải nghiên cứu lên đến hàng trăm ngàn, và việc thốngkê, tính toán cũng như xử lý số liệu là việc cần phải mất rất nhiều thời gian và công sức. Mộtvấn đề lớn khi xử lý dữ liệu văn bản không cấu trúc là khả năng phân tích và tóm tắt cácthông tin quan trọng một cách tự động và hiệu quả. Với một lượng lớn thông tin được chứatrong các báo cáo và tài liệu y sinh, việc thực hiện thủ công để trích xuất và phân loại thông 22tin có thể trở nên không khả thi và tốn kém. Điều này không chỉ là một quá trình tốn thờigian mà còn dễ dàng dẫn đến các sai sót và không chính xác trong quá trình xử lý. Đặc biệt,việc xử lý dữ liệu văn bản y sinh đòi hỏi sự hiểu biết sâu rộng về lĩnh vực y sinh và genomhọc, cùng với kỹ năng về xử lý ngôn ngữ tự nhiên và máy học. Để giải quyết vấn đề này, cần phải phát triển các công cụ và phương pháp tự động đểchuyển đổi dữ liệu văn bản không cấu trúc thành dữ liệu có cấu trúc. [7] Công cụ này có thểsử dụng các kỹ thuật tiên tiến của máy học và xử lý ngôn ngữ tự nhiên để tự động nhận dạng,trích xuất và phân loại các thông tin quan trọng từ các tài liệu y sinh. Việc tự động hóa quátrình chuyển đổi dữ liệu từ không cấu trúc sang có cấu trúc giúp giảm thiểu thời gian và chiphí cho các nhà nghiên cứu. Thay vì phải tiêu tốn nhiều ngày hoặc thậm chí tháng để thựchiện thủ công, các công cụ tự động có thể hoàn thành công việc này một cách nhanh chóngvà hiệu quả hơn. Giúp các nhà nghiên cứu dễ dàng truy cập và sử dụng các công cụ phân tíchthống kê để tìm kiếm và phát hiện ra các mẫu và xu hướng quan trọng. Từ đó đưa ra nhữngphát hiện mới về ...
Nội dung trích xuất từ tài liệu:
Xây dựng công cụ chuyển đổi dữ liệu y sinhKỷ yếu Hội thảo khoa học Khoa Công nghệ thông tin, năm 2024 XÂY DỰNG CÔNG CỤ CHUYỂN ĐỔI DỮ LIỆU Y SINH Huỳnh Hữu Nghĩa1, *, Lê Nguyễn Thảo Nguyên1, Dương Ngọc Hương Trà1, Nguyễn Mai Quỳnh Giao1 Trường Đại học Công thương Thành phố Hồ Chí Minh 1 * Email: nghiahh@huit.edu.vn Ngày nhận bài: 11/05/2024; Ngày chấp nhận đăng: 20/05/2024 TÓM TẮT Những nhà nghiên cứu y sinh học thường xuyên nghiên cứu dữ liệu lâm sàng và dữliệu biểu hiện của Gen được cung cấp từ các phòng thí nghiệm để tìm hiểu những biểu hiệnbất thường của Gen trên nhóm bệnh nhân ung thư và không ung thư; tìm các mẫu bệnh nhânbị xơ gan và ung thư gan nguyên phát hay không; tìm các thông tin về sự sống còn, sự sốngcòn không bệnh và tái phát nhằm xây dựng và kiểm định mô hình tiên lượng bệnh. Nhànghiên cứu gặp nhiều khó khăn trong việc đọc các tài liệu để tìm kiếm thông tin do dữ liệulớn, lưu trữ dưới dạng văn bản không có cấu trúc và không thể sử dụng các công cụ phầnmềm hỗ trợ. Vì vậy cần có sự biến đổi dữ liệu về dạng có cấu trúc và có thể tính toán thốngkê được. Mục tiêu của bài báo là xây dựng công cụ phần mềm dùng để chuyển đổi dữ liệu từvăn bản không có cấu trúc về dạng dữ liệu có cấu trúc.Từ khóa: Công cụ chuyển đổi dữ liệu y sinh, xử lý dữ liệu y sinh, phân tích dữ liệu y sinh. 1. MỞ ĐẦU Ngày nay, chứng kiến rõ được sự thay đổi vượt bậc của công nghệ số trong cuộccách mạng công nghiệp lần thứ tư, đặc biệt là lĩnh vực y sinh. Các nguồn thông tin phongphú đa dạng từ các phòng thí nghiệm, bệnh viện, trường học, các nghiên cứu lâm sàng v..v…[1] [2]Các thông tin này thường được thể hiện dưới dạng văn bản và đóng một vai trò quantrọng vì chứa các kết quả nghiên cứu, báo cáo lâm sàng, hoặc mô tả chi tiết đặc biệt là nhữngvăn bản chứa thông tin về “biểu hiện gen của nhóm người mắc bệnh ung thư và nhóm ngườikhông mắc bệnh ung thư”. [3] Tuy nhiên, dữ liệu văn bản y sinh thường tồn tại dưới dạngkhông cấu trúc, gây ra một loạt các thách thức trong việc hiểu biết và sử dụng thông tin chứatrong đó. [1] [4] Một trong những thách thức lớn nhất là việc xử lý, chuyển đổi dữ liệukhông cấu trúc thành dữ liệu có cấu trúc, để nhà nghiên cứu dễ dàng phân tích và tổng hợp.Đặc biệt, với dữ liệu y sinh, việc này trở nên phức tạp hơn do số lượng lớn và tính đa dạngcủa các thông tin chưa được tổ chức hoặc phân loại một cách hợp lý chứa trong các tài liệu.Điều này gây ra khó khăn cho các y bác sĩ và các nghiên cứu sinh trong việc nghiên cứu,phân tích sự khác biệt về những chỉ số biểu hiện Gen giữa 2 nhóm người. Những Gen có chỉsố biểu hiện cao hoặc thấp hơn bình thường chính là dấu hiệu của bệnh mà họ muốn nghiêncứu. 21Huỳnh Hữu Nghĩa và CS Hình 1. Website của National Center for Biotechnology Information - NCBI [5] Dữ liệu y sinh thường chứa các kết quả từ các phòng thí nghiệm, liên quan đến biểuhiện gen trên bệnh nhân, bao gồm cả những người mắc bệnh ung thư và không ung thư. Đâylà một nguồn thông tin quý giá, nhưng để có thể sử dụng tối đa, dữ liệu này cần được tổ chứcvà chuyển đổi thành dạng có cấu trúc. [3] Hiện nay, dữ liệu y sinh thường được công bố quanhiều nguồn, bao gồm các trang web chính thống được quản lý bởi các tổ chức y tế vànghiên cứu, cùng với các công bố khoa học trong các tạp chí uy tín. Trong bài báo này,nhóm tác giả sử dụng dữ liệu được cung cấp bởi Quốc Viện Y học Hoa Kỳ (NationalInstitutes of Health - NIH) thông qua Trung tâm Thông tin Y học Quốc gia (I). Hình 2. Dữ liệu sinh học được lấy từ website NCBI Tuy nhiên, với dữ liệu ở dạng không có cấu trúc (Hình 2), việc tìm kiếm và phân tíchcác biểu hiện gen đặc biệt giữa các nhóm bệnh nhân trở nên vô cùng phức tạp và mất thờigian. Ước tình mỗi người có từ 20.000 đến 25.000 Gen [6]. Phân tích Gen giữa hai nhómngười bệnh thì những chỉ số mà họ phải nghiên cứu lên đến hàng trăm ngàn, và việc thốngkê, tính toán cũng như xử lý số liệu là việc cần phải mất rất nhiều thời gian và công sức. Mộtvấn đề lớn khi xử lý dữ liệu văn bản không cấu trúc là khả năng phân tích và tóm tắt cácthông tin quan trọng một cách tự động và hiệu quả. Với một lượng lớn thông tin được chứatrong các báo cáo và tài liệu y sinh, việc thực hiện thủ công để trích xuất và phân loại thông 22tin có thể trở nên không khả thi và tốn kém. Điều này không chỉ là một quá trình tốn thờigian mà còn dễ dàng dẫn đến các sai sót và không chính xác trong quá trình xử lý. Đặc biệt,việc xử lý dữ liệu văn bản y sinh đòi hỏi sự hiểu biết sâu rộng về lĩnh vực y sinh và genomhọc, cùng với kỹ năng về xử lý ngôn ngữ tự nhiên và máy học. Để giải quyết vấn đề này, cần phải phát triển các công cụ và phương pháp tự động đểchuyển đổi dữ liệu văn bản không cấu trúc thành dữ liệu có cấu trúc. [7] Công cụ này có thểsử dụng các kỹ thuật tiên tiến của máy học và xử lý ngôn ngữ tự nhiên để tự động nhận dạng,trích xuất và phân loại các thông tin quan trọng từ các tài liệu y sinh. Việc tự động hóa quátrình chuyển đổi dữ liệu từ không cấu trúc sang có cấu trúc giúp giảm thiểu thời gian và chiphí cho các nhà nghiên cứu. Thay vì phải tiêu tốn nhiều ngày hoặc thậm chí tháng để thựchiện thủ công, các công cụ tự động có thể hoàn thành công việc này một cách nhanh chóngvà hiệu quả hơn. Giúp các nhà nghiên cứu dễ dàng truy cập và sử dụng các công cụ phân tíchthống kê để tìm kiếm và phát hiện ra các mẫu và xu hướng quan trọng. Từ đó đưa ra nhữngphát hiện mới về ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu Hội thảo khoa học Công nghệ thông tin Xây dựng công cụ chuyển đổi dữ liệu y sinh Dữ liệu y sinh Xử lý dữ liệu y sinh Phân tích dữ liệu y sinhGợi ý tài liệu liên quan:
-
52 trang 430 1 0
-
Yếu tố nhận diện người thứ ba ngay tình trong giao dịch dân sự
11 trang 318 0 0 -
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 314 0 0 -
74 trang 300 0 0
-
96 trang 293 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 289 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 281 0 0 -
197 trang 275 0 0
-
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 275 0 0 -
Cách tính nhanh giá trị riêng của ma trận vuông cấp 2 và cấp 3
4 trang 273 0 0