MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINH
Số trang: 23
Loại file: ppt
Dung lượng: 1.64 MB
Lượt xem: 13
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Các thực thể y sinh phổ biến:DNA, RNA, Cell line, Cell type, Gene… Disease (bệnh), Symptom (triệu chứng), Virus,Atom…= Kiểu hình(Phenotype), Gene, Bệnh (Disease) ,Hóa chất (Chemical) Protein,
Nội dung trích xuất từ tài liệu:
MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINHMộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH TRẦN MAI VŨNỘI DUNG Thực thể y sinh Một số kho dữ liệu về y sinh Một số công cụ nhận diện thực thể y sinh Kế hoạch tiếp theo Thực thể y sinh3 Các thực thể y sinh phổ biến: Protein, DNA, RNA, Cell line, Cell type, Gene… Disease (bệnh), Symptom (triệu chứng), Virus, Atom… => Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical) Thách thức4 Thiếu quy ước đặc tên trong sinh học Sự đa dạng trong thuật ngữ: Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene Sử dụng số: Vd: 9-cis retinoic acid Sử dụng các ký tự và mã: M(2)201 Sự lồng nhau giữa các tên: Vd: “[leukaemic[T [cell line]] Kit225]” Sự phối hợp: “B and T cells” Sự đồng âm Tính đa nghĩa Nhiều biến thể của một tên: Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”. Phenotype Entity5 Kiểu hình(Phenotype): Đặc tính ấn định bởi di truyền có thể quan sát được của một tế bào hoặc sinh vật [1] Tổ hợpcủacácđặcđiểmquansátđượchoặc nhữngđặcđiểmcủamộtsinhvật:nhưhìnhthái, sự pháttriển,đặctínhsinhhóahoặcsinhlý,vật hậu học (phenology),hành vi,vàcácsản phẩmcủahànhvi(chẳnghạnnhưtổcủamộtcon chim).[2] Ví dụ: 4-5 finger syndactyly [1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003) [2]. http://en.wikipedia.org/wiki/Phenotype Pubmed6 PubMed Central (Trung tâm lưu trữ báo điện tử về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ) PubMed cung cấp quyền truy cập miễn phí tới CSDL Medline. MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm: - 4.800 nhan đề tạp chí về y khoa - 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay.PubmedMeSH MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây. Ví dụ: 21,973 mô tả Hàng nghìn tham chiếu chéo UMLS UMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt) Hơn 1.5 triệu từ tiếng Anh nằm trong hơn 60 nhóm và được tổ chức trong 775 nghìn khái niệmMedTag L. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộ MedPost: 6700 câu đã gắn nhãn từ loại (POSTagger chính xác 97.4%) GENETAG: 15000 câu đã gắn nhãn Gene và Protein. ABGene: 4000 câu đã gắn nhãn Gene và Protein GENIA11 Junichi Tsujii (University of Tokyo) Genia Corpus 44 nhãn thực thể Genia Ontology Genia Tools GENIA Sentence Splitter: Tách câu (mô hình ME) GENIA Tagger: PosTag, NER, Shallow parsing CALBC Corpora CALBC (Collaborative Annotation of a Large Biomedical Corpus)Challenge task A: Named Entity RecognitionChallenge task B: Concept identificationCALBC Corpora CALBC-SSC-III-Small: 174,999 Medline abstracts, 2,548,900 annotations CALBC-SSC-III-Big: 714,283 Medline abstracts, 10,304,172 annotations 16 nhãn ngữ nghĩa và 133 nhãn con tương ứng UMLSHuman Phenotype Ontology Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man) Gần 10 nghìn từ về kiểu hình trên người Gần 50 nghìn chú thích về sự di truyền bệnhMột số Corpora khác B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich F . In Proceedings of the International Joint Workshop on Natural Language Processing inABNER Biomedicine and its Applications (NLPBA), Geneva, Switzerland, pages 104-107. Tác ...
Nội dung trích xuất từ tài liệu:
MộT Số TÀI NGUYÊN CHO NHẬN DẠNG THỰC THể Y SINHMộT Số TÀI NGUYÊN CHO NHậN DạNG THựC THể Y SINH TRẦN MAI VŨNỘI DUNG Thực thể y sinh Một số kho dữ liệu về y sinh Một số công cụ nhận diện thực thể y sinh Kế hoạch tiếp theo Thực thể y sinh3 Các thực thể y sinh phổ biến: Protein, DNA, RNA, Cell line, Cell type, Gene… Disease (bệnh), Symptom (triệu chứng), Virus, Atom… => Kiểu hình(Phenotype), Gene, Bệnh (Disease) , Hóa chất (Chemical) Thách thức4 Thiếu quy ước đặc tên trong sinh học Sự đa dạng trong thuật ngữ: Dùng từ tiếng Anh: Vd: light, map, complement,…tên gene Sử dụng số: Vd: 9-cis retinoic acid Sử dụng các ký tự và mã: M(2)201 Sự lồng nhau giữa các tên: Vd: “[leukaemic[T [cell line]] Kit225]” Sự phối hợp: “B and T cells” Sự đồng âm Tính đa nghĩa Nhiều biến thể của một tên: Vd: “-150 CD28 response element (CD28RE)/AP-1 site” cũng là “-150 CD28RE/AP-1 site”. Phenotype Entity5 Kiểu hình(Phenotype): Đặc tính ấn định bởi di truyền có thể quan sát được của một tế bào hoặc sinh vật [1] Tổ hợpcủacácđặcđiểmquansátđượchoặc nhữngđặcđiểmcủamộtsinhvật:nhưhìnhthái, sự pháttriển,đặctínhsinhhóahoặcsinhlý,vật hậu học (phenology),hành vi,vàcácsản phẩmcủahànhvi(chẳnghạnnhưtổcủamộtcon chim).[2] Ví dụ: 4-5 finger syndactyly [1]. Strachan, T., Read, A.: Human Molecular Genetics, 3rd edn. Garland Science/Taylor & Francis Group (2003) [2]. http://en.wikipedia.org/wiki/Phenotype Pubmed6 PubMed Central (Trung tâm lưu trữ báo điện tử về y sinh và khoa học đời sống của Viện Y học quốc gia Mỹ) PubMed cung cấp quyền truy cập miễn phí tới CSDL Medline. MEDLINE: là csdl thư mục hàng đầu của thư viện y khoa quốc gia Hoa Kỳ, gồm: - 4.800 nhan đề tạp chí về y khoa - 19 triệu tham chiếu (references) lưu trữ từ đầu thập niên 50’ đến nay.PubmedMeSH MeSH(Medical Subject Heading): Tiêu đề y khoa là tập các từ vựng dùng để phân loại các bài báo trong Medline. Các từ vựng này được mô tả theo cấu trúc cây. Ví dụ: 21,973 mô tả Hàng nghìn tham chiếu chéo UMLS UMLS(Unified Medical Language System): bao gồm các cụm khái niệm y học cùng nghĩa(đồng nghĩa, biến thể của từ, từ trong các ngôn ngữ, từ viết tắt) Hơn 1.5 triệu từ tiếng Anh nằm trong hơn 60 nhóm và được tổ chức trong 775 nghìn khái niệmMedTag L. Smith và cộng sự. MedTag là CSDL kết hợp của 3 bộ MedPost: 6700 câu đã gắn nhãn từ loại (POSTagger chính xác 97.4%) GENETAG: 15000 câu đã gắn nhãn Gene và Protein. ABGene: 4000 câu đã gắn nhãn Gene và Protein GENIA11 Junichi Tsujii (University of Tokyo) Genia Corpus 44 nhãn thực thể Genia Ontology Genia Tools GENIA Sentence Splitter: Tách câu (mô hình ME) GENIA Tagger: PosTag, NER, Shallow parsing CALBC Corpora CALBC (Collaborative Annotation of a Large Biomedical Corpus)Challenge task A: Named Entity RecognitionChallenge task B: Concept identificationCALBC Corpora CALBC-SSC-III-Small: 174,999 Medline abstracts, 2,548,900 annotations CALBC-SSC-III-Big: 714,283 Medline abstracts, 10,304,172 annotations 16 nhãn ngữ nghĩa và 133 nhãn con tương ứng UMLSHuman Phenotype Ontology Là ontology về các kiểu hình trên người, phát triển dựa trên các thông tin từ kho dữ liệu OMIM (Online Mendelian Inheritance in Man) Gần 10 nghìn từ về kiểu hình trên người Gần 50 nghìn chú thích về sự di truyền bệnhMột số Corpora khác B. Settles (2004). Biomedical Named Entity Recognition Using Conditional Random Fields and Rich F . In Proceedings of the International Joint Workshop on Natural Language Processing inABNER Biomedicine and its Applications (NLPBA), Geneva, Switzerland, pages 104-107. Tác ...
Tìm kiếm theo từ khóa liên quan:
thực thể y sinh đa dạng sinh học thế giới sinh vật giới thực vật hệ sinh thái giới khởi sinh nhận dạng thực thể y sinhGợi ý tài liệu liên quan:
-
149 trang 236 0 0
-
14 trang 146 0 0
-
103 trang 102 0 0
-
Bài thuyết trình Tiếp cận hệ sinh thái trong quản lý nghề cá ven bờ
34 trang 81 0 0 -
Tiểu luận 'Tài nguyên thiên nhiên- hiện trạng và giải pháp'
30 trang 79 0 0 -
Giáo trình Hệ sinh thái rừng nhiệt đới: Phần 1
128 trang 69 0 0 -
Thực trạng sử dụng và quản lý đất bãi bồi ven biển tỉnh Bến Tre
12 trang 68 0 0 -
Thực vật dân tộc học: một bài học cho thế hệ tương lai Việt Nam
5 trang 62 1 0 -
362 trang 59 0 0
-
Hệ sinh thái kinh tế số tại Việt Nam
10 trang 59 0 0