Thông tin tài liệu:
Việc dò tìm đầu 5´ là một trong những thách thức lớn nhất trong việc dò tìm gene do rất khó xác định chính xác promoter và điểm khởi sự phiên mã (transcriptional start site TSS). Hiện nay, xấp xỉ 17.000 gene người xuất hiện trên Genbank chỉ có khỏang 3000 gene là được ghi chú TSS.
Nội dung trích xuất từ tài liệu:
Phương pháp dò tìm promoter và exon đầu 5 Phương pháp dò tìm promoter và exon đầu 5Việc dò tìm đầu 5´ là một trongnhững thách thức lớn nhất trongviệc dò tìm gene do rất khó xácđịnh chính xác promoter và điểmkhởi sự phiên mã (transcriptionalstart site TSS). Hiện nay, xấp xỉ17.000 gene người xuất hiện trênGenbank chỉ có khỏang 3000gene là được ghi chú TSS. Hầuhết các cDNA lấy từ mRNA đềubị cắt ngắn đầu 5´ do quá trìnhphiên mã ngược không thể tạođược đầu 5´. Gần đây, một cơ sởdữ liệu chuyên biệt cho TSS(Database of TranscriptionalStart Site DBTSS) đã được pháttriển chứa đầu 5´ của khỏang8000 gene người. Đây thực sự làmột nguồn dữ liệu cực kỳ hữudụng cho nghiên cứu promoter.Cũng cần nhắc lại là họat động củapromoter và quá trình khởi sựphiên mã thực sự khá phức tạp. Saukhi chromatin trong khu vực chứapromoter được tái cấu trúc theohướng duỗi thẳng và siêu acetylhóa, phức hợp tiền khởi sự sẽ gắnlên vùng promoter lõi (nằm xấp xỉ100 bp ở hai phía TSS). Quá trìnhphiên mã sau đó sẽ được điều khiểnchủ yếu bởi các yếu tố phiên mãgắn lên vùng lân cận promoter(khỏang 1 kb theo hướng thượngnguồn của TSS) và vùng intron đầutiên.Hiện có nhiều chương trình dùngđể chỉ định TSS và và promoter.Nhưng hầu hết đều không có độchính xác cao, đặc biệt là chúngkhông có khả năng nhận diện cácdấu hiệu dương tính giả. Trongtrường hợp người ta có một vùngkhông gian DNA khá rộng lớn nhưgenome người và việc lập bản đồtrình tự TSS chỉ cần độ phân giảithấp (khỏang xấp xỉ 2kb) đồng thờicác TSS này có liên hệ với CpG thìngười ta có thể kết hợp hai thuộctính CpG và promoter(CpG_promoter) cho quá trình dòtìm. Tuy nhiên với những bản độcần độ phân giải cao (khỏang100bp) cho TSS thì người ta ưutiên chọn dấu hiệu promoter và lõi(Core_promote) để tìm kiếm gene.Chương trình Promoter-Inspectorcho thấy nó có thể ước tính tỷ lệgiữa dương tính thật và dương tínhgiả là 2,3 trong khi chương trìnhTSSW thì tỷ lệ này là 0,6. Mộtchương trình khác, Eponine, có tínhđặc hiệu và độ nhạy như PromoterInspector , nó có khả năng chỉ địnhvị trí TSS bằng cách dò tìm nhữngthuộc tính tinh vi hơn (như là hộpTATA và những đảo CpG gầnnhau). Hơn nữa, nó còn gia tăngtính đặc hiệu trong việc dò tìmnhóm gene đồng điều hòa bằngcách khai thác sự tương quan đặchiệu giữa các điểm gắn yếu tốphiên mã trong một module chứcnăng.Cũnng như hầu hết các chươngtrình chỉ định gene bằng cách dòtìm exon đầu 3´, các chương trìnhdò tìm gene bằng exon đầu 5´ vàpromoter cũng có giới hạn tươngtự, tức là nó chỉ dò được thực chấtcái gọi là vùng mã hóa đầu 5´(5´CDS).Gần đây, một thuật tóan cho phépchỉ định đúng exon đầu 5´ đã đượccông bố đó là FisrtEF (dựa trênQDA- phương pháp phân tích biệtthức bậc hai không tuyến tính-nonlinearal Quadratic DiscriminantAnalysis). Nó phân tách các exonđầu 5´ có CpG liên quan ra khỏicác exon đầu 5´ không liên quanCpG. Nó có thể chỉ định cả utexonđầu 5´ và cả uexon đầu 5´. Hơnnữa, bằng cách tích hợp nhiềuthuộc tính trình tự, nó cho phéptăng độ chính xác khi nhận diệnTSS và promoter.