Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệu nêu lên một số ngân hàng dữ liệu trình tự, cơ sở dữ liệu cấu trúc PDB, BLAST trong việc tìm kiếm tương đồng.
Nội dung trích xuất từ tài liệu:
Bài giảng Tin sinh học đại cương - Chương 2: Tìm kiếm trình tự tương đồng trên ngân hàng dữ liệuTÀI LIỆU HỌC TẬPTIN SINH HỌC ĐẠI CƯƠNG(Introduction to Bioinformatics)• Trần Văn Lăng, Ứng dụngTin học trong việc giảiquyết một số bài toán củaSinh học phân tử. Nxb.Giáo dục, 2008, 230tr.PGS.TS. Trần Văn LăngEmail: langtv@vast.vnAssoc. Prof. Tran Van Lang, PhD,VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGYAssoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY2NỘI DUNG• Một số ngân hàng dữ liệu trình tự• Cơ sở dữ liệu cấu trúc PDB• BLAST trong việc tìm kiếm tương đồngChương 2:TÌM KIẾM TRÌNH TỰ TƯƠNG ĐỒNGTRÊN NGÂN HÀNG DỮ LIỆUAssoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY3Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY411. Một số ngân hàng dữ liệuMỘT SỐ NGÂN HÀNG DỮ LIỆU TRÌNHTỰ GENE• GenBank• EMBL• DDBJAssoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY5Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY6GenBank• 20/9/2012: có 126.551.501.141 bases, từ135.440.924 sequences.• 15/8/2013: có 154.192.921.011 bases, từ167.295.840 sequences.• 15/8/2014: có 165.722.980.375 bases, từ174.108.750 sequences• GenBank là cơ sở dữ liệu trình tự gen của NIH(National Institutes of Health)• Nhằm tập hợp các trình tự DNA được công bốkèm theo lời chú thích• http://www.ncbi.nlm.nih.gov/genbank/Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY7Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY82• Ví dụ, cần tìm giốnglúa Việt Nam• 15/8/2015: có 199.823.644.287 bases, từ187.066.846 sequences• 15/8/2016: có 217.971.437.647 bases, từ196.120.831 sequences– Vào tranghttp://www.ncbi.nlm.nih.gov– Nhập vào dòng tìmkiếm tương ứng,chẳng hạn “VietnamRice”(Xem ftp://ftp.ncbi.nih.gov/genbank/gbrel.txt)Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY9Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY10• Kết quả đưa ra một danh sách liên quan đến“Vietnam Rice”Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY11Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY123• Chọn “Southern rice black-streaked dwarf virusisolate Son La major capsid protein gene,complete cds”, liên quan đến virus lúaAssoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY13• Để nhận kết quả, chọnnút “Send” ở góc trên bênphải.14• Ban đầu GenBank được xây dựng ở Phòng thínghiệm quốc gia Los Alamos, Hoa Kỳ (LANL Los Alamos National Laboratory).• Chẳng hạn, chọn nhưhình bên để ghi ra file vớiđầy đủ thông tin theoGenBank• Sau đó, vào năm 1990, được đưa về Trung tâmquốc gia Thông tin Công nghệ sinh học (NCBI National Center for Biotechnology Information).• Khi đó, trên defaultdownload folder có tậptin sequence.gbAssoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGYAssoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY15Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY164• Để cung cấp nguồn tài nguyên về các thông tinsinh học phân tử.• Thông qua GenBank, NCBI hỗ trợ và phân phốinhiều cơ sở dữ liệu thông tin sinh học khác nhaucho cộng đồng.GenBank là một bộ phận của InternationalNucleotic Sequence Database CollaborationAssoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY17Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY18Sự hợp tác giữa 3 ngân hàng• The International NucleoticSequence Databases Collaborationphát triển và duy trì sự hợp tác giữaDDBJ, EMBL và GenBank được 22năm nay (2016)Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY19Assoc. Prof. Tran Van Lang, PhD, VIETNAM ACADEMY OF SCIENCE AND TECHNOLOGY205