Danh mục

Đánh giá và thử nghiệm thuật toán lắp ráp dữ liệu hệ gen tin sinh học

Số trang: 10      Loại file: pdf      Dung lượng: 665.62 KB      Lượt xem: 8      Lượt tải: 0    
Jamona

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (10 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết trình bày các kết quả thu được trong quá trình lắp ráp hệ gen từ thực nghiệm với dữ liệu giả lập và dữ liệu thực tế. Đồng thời tiến hành đánh giá, so sánh trên cơ sở các thông số được tạo bởi thuật toán DASR với phần mềm lắp ráp thông dụng hiện nay là Velvet và SPAdes.
Nội dung trích xuất từ tài liệu:
Đánh giá và thử nghiệm thuật toán lắp ráp dữ liệu hệ gen tin sinh họcTẠP CHÍ KHOA HỌC − SỐ 18/2017 81 ĐÁNH GIÁ V- THỬ THỬ NGHIỆ NGHIỆM THUẬ THUẬT TOÁN LẮ LẮP RÁP DỮ LIỆ LIỆU HỆ HỆ GEN TRONG TIN SINH HỌ HỌC Nguyễn Văn Long Trường Đại học Tây Bắc Tóm tắ tắt: Trong bài báo này, tác giả trình bày các kết quả thu ñược trong quá trình lắp ráp hệ gen từ thực nghiệm với dữ liệu giả lập và dữ liệu thực tế. Đồng thời tiến hành ñánh giá, so sánh trên cơ sở các thông số ñược tạo bởi thuật toán DASR với phần mềm lắp ráp thông dụng hiện nay là Velvet và SPAdes. Từ khóa: khóa Bộ gen, kết cấu, DASR. Nhận bài ngày 10.6.2017; gửi phản biện, chỉnh sửa và duyệt ñăng ngày 10.9.2017 Liên hệ tác giả: Nguyễn Văn Long; Email: thanhlong868@gmail.com1. MỞ ĐẦU Trong bài báo này, với mục ñích ñánh kết quả lắp ráp của phần mềm DASR, tác giảthực hiện lắp ráp hệ gen bằng dữ liệu giả lập và dữ liệu giải trình tự NGS (Next GenerationSequencing) [1] với nhiều k-mer khác nhau. Dữ liệu giải trình tự thực tế ñược cung cấp bởiphòng Tin Sinh học, Viện Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệViệt Nam. Ngoài ra, ñể kiểm chứng rõ hơn hiệu quả lắp ráp của DASR, tác giả tiến hành so sánhkết quả lắp ráp của DASR với hai phần mềm Velvet [2] và SPAdes [3], hai trong số nhữngphần mềm ñược sử dụng phổ biến nhất trong các nghiên cứu về lắp ráp hệ gen. Quy trìnhso sánh ñược thực hiện như sau: Từ kết quả lắp ráp dữ liệu thực tế với nhiều k-mer khácnhau, tác giả lựa chọn thông số kmer tối ưu dựa trên các thông số kích thước hệ gen, sốlượng contig, contig lớn nhất, chỉ số N50 và số lượng trình tự sử dụng cũng như là chấtlượng mapping. Sau khi có ñược k-mer tối ưu, hai phần mềm Velvet và SPAdes ñược sửdụng ñể lắp ráp hệ gen với k-mer tối ưu ñã trọn. Cuối cùng là thống kê và so sánh kết quảlắp ráp của hai phần mềm với DASR82 TRƯỜNG ĐẠI HỌC THỦ ĐÔ H NỘI2. NỘI DUNG NGHIÊN CỨU2.1. Dữ liệu giả lập (simulated)2.1.1. Thông tin dữ liệu Dữ liệu ñược giả lập dựa trên 1 hệ gen tham chiếu có kích thước hệ gen là 3.860 MBvà tỷ lệ GC là 38,94% (ñược cung cấp bởi Tin sinh học) bằng phần mềm wgsim () vớiñiểm chất lượng 30, ñộ dài ñoạn trình tự là 150bp, kích thước ñoạn chèn (insert size) là250. Thông tin chi tiết về dữ liệu giải lập ñược trình bày chi tiết ở Bảng 1. Bảng 1. Thông tin dữ liệu giả lập Dữ liệu giả lập Số ñoạn trình tự Độ dài (nt) Tỷ lệ GC (%) simulated_1.fastq 3.999.641 150 39 simulated_2.fastq 3.999.641 150 392.1.2. Kết quả lắp ráp Quy trình lắp ráp ñược thực hiện với nhiều k-mer khác nhau từ 31 ñến 91, các thôngsố của các bản lắp ráp ñược thông kê sử dụng phần mềm QUAST (Quality AssessmentTool) [4]. Dựa vào các thông số như tổng kích thước hệ gen lắp ráp, số lượng contig thuñược, chỉ số N50, tỷ lệ % GC và số lượng ñoạn trình tự ñược sử dụng trong quá trình lắpñể lựa chọn ra bản lắp ráp có chất lượng tốt nhất. Trong nghiên cứu này chúng tôi sử dụngcác tiêu chí như sau: − Kích thước hệ gen càng gần với kích thước hệ gen tham chiếu thì càng tốt (trongthử nghiệm này kích thước hệ gen tham chiếu là 3.86 MB) − Số lượng contig thu ñược càng ít thì càng tốt. − Độ dài contig thu ñược càng lớn càng tốt. − Chỉ số N50, N75 càng lớn càng tốt. − Tỷ lệ % GC càng gần với hệ gen tham chiếu càng tốt (38,94%). − Số lượng ñoạn trình tự ánh xạ ngược lại (remapping) hay số lượng ñoạn trình tựñược sử dụng ñể lắp ráp hệ gen càng nhiều càng tốt. Dựa vào những tiêu chí trên và thống kê số liệu kết quả lắp ráp ở Bảng 2, chúng tôinhận thấy rằng hệ gen lắp ráp với K61 cho kết quả lắp ráp tốt nhất với kích thước hệ genlắp ráp thu ñược là khoảng 3,91 MB, contig dài nhất là 88.125 bp, tỷ lệ % GC là 38,94%.Các con số này khá tương ñồng với các hệ gen lắp ráp K71, K81, K91 và hệ gen thamchiếu. Tuy nhiên, ở K61 có chỉ N50 lớn hơn tất cả các hệ gen lắp ráp còn lại. Chính vì lýdo ñó, chúng tôi kết luận rằng ñối với dữ liệu giả lập trong thí nghiệm này, k-mer 61 làk-mer tối ưu nhất (Bảng 2).TẠP CHÍ KHOA HỌC − SỐ 18/2017 83 Bảng 2. Kết quả lắp ráp sử dụng dữ liệu giả lập với nhiều k-mer khác nhau Indexes K31 K41 K51 K61 K71 K81 K91# contigs (…) 86 1845 1131 ...

Tài liệu được xem nhiều:

Tài liệu liên quan: