Danh mục

MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH

Số trang: 23      Loại file: ppt      Dung lượng: 1.64 MB      Lượt xem: 13      Lượt tải: 0    
10.10.2023

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Các thực thể y sinh phổ biến:DNA, RNA, Cell line, Cell type, Gene… Disease (bệnh), Symptom (triệu chứng), Virus,Atom…= Kiểu hình(Phenotype), Gene, Bệnh (Disease) ,Hóa chất (Chemical) Protein,
Nội dung trích xuất từ tài liệu:
MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINHMộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH TRẦN MAI VŨNỘI DUNG Thực thể y sinh Một số kho dữ liệu về y sinh Một số công cụ nhận diện thực thể y sinh Kế hoạch tiếp theo Thực thể y sinh3 Các thực thể y sinh phổ biến:  Protein, DNA, RNA, Cell line, Cell type,  Gene…  Disease (bệnh), Symptom (triệu chứng), Virus, Atom… => Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical) Thách thức4 Thiếu quy ước đặc tên trong sinh học  Sự đa dạng trong thuật ngữ:  Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene  Sử dụng số: Vd: 9-cis retinoic acid  Sử dụng các ký tự và mã: M(2)201  Sự lồng nhau giữa các tên:  Vd: “[leukaemic[T [cell line]] Kit225]”  Sự phối hợp: “B and T cells”  Sự đồng âm  Tính đa nghĩa  Nhiều biến thể của một tên:  Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng  là “-150 CD28RE/AP-1 site”. Phenotype Entity5 Kiểu hình(Phenotype):  Đặc tính ấn định bởi di truyền có thể quan  sát được của một tế bào hoặc sinh vật [1] Tổ hợpcủacácđặcđiểmquansátđượchoặc  nhữngđặcđiểmcủamộtsinhvật:nhưhìnhthái, sự pháttriển,đặctínhsinhhóahoặcsinhlý,vật hậu học (phenology),hành vi,vàcácsản phẩmcủahànhvi(chẳnghạnnhưtổcủamộtcon chim).[2] Ví dụ: 4-5 finger syndactyly  [1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003) [2]. http://en.wikipedia.org/wiki/Phenotype Pubmed6 PubMed Central (Trung tâm lưu trữ báo  điện tử về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ) PubMed cung cấp quyền truy cập miễn phí  tới CSDL Medline. MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm: - 4.800 nhan đề tạp chí về y khoa - 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay.PubmedMeSH MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây. Ví dụ:  21,973 mô tả  Hàng nghìn tham chiếu chéo UMLS UMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt) Hơn 1.5 triệu từ tiếng Anh  nằm trong hơn 60 nhóm và được tổ chức trong 775 nghìn khái niệmMedTag L. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộ MedPost: 6700 câu đã gắn nhãn từ loại  (POSTagger chính xác 97.4%) GENETAG: 15000 câu đã gắn nhãn Gene và  Protein. ABGene: 4000 câu đã gắn nhãn Gene và  Protein GENIA11 Junichi Tsujii (University of Tokyo)  Genia Corpus   44 nhãn thực thể Genia Ontology  Genia Tools   GENIA Sentence Splitter: Tách câu (mô hình ME)  GENIA Tagger: PosTag, NER, Shallow parsing CALBC Corpora CALBC (Collaborative Annotation of a  Large Biomedical Corpus)Challenge task A: Named Entity RecognitionChallenge task B: Concept identificationCALBC Corpora CALBC-SSC-III-Small: 174,999 Medline abstracts,  2,548,900 annotations CALBC-SSC-III-Big: 714,283 Medline abstracts,  10,304,172 annotations 16 nhãn ngữ nghĩa và 133 nhãn con tương ứng UMLSHuman Phenotype Ontology Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man) Gần 10 nghìn từ về kiểu hình trên người  Gần 50 nghìn chú thích về sự di truyền  bệnhMột số Corpora khác B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich F . In Proceedings of the International Joint Workshop on Natural Language Processing inABNER Biomedicine and its Applications (NLPBA), Geneva, Switzerland, pages 104-107. Tác ...

Tài liệu được xem nhiều: