Danh mục

Ứng dụng máy học cho định danh loài nấm mối

Số trang: 8      Loại file: pdf      Dung lượng: 964.09 KB      Lượt xem: 15      Lượt tải: 0    
Thư viện của tui

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết giới thiệu mô hình máy học áp dụng cho tập dữ liệu ITS của nấm mối để xác định tên loài và xây dựng cây định danh loài. Mô hình xây dựng cây định danh nấm mối được thực nghiệm bằng các thuật toán XGBoost, Random Forest và phân cụm phân cấp UPGMA.
Nội dung trích xuất từ tài liệu:
Ứng dụng máy học cho định danh loài nấm mốiKỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018DOI: 10.15625/vap.2018.00069 ỨNG DỤNG MÁY HỌC CHO ĐỊNH DANH LOÀI NẤM MỐI Dương Thị Kim Chi1,2, Nguyễn Thị Ngọc Nhi3, Nguyễn Thế Bảo1, Lê Mậu Long4, Phạm Công Xuyên2 1 Khoa Kỹ thuật Công nghệ, Trường Đại học Thủ Dầu Một 2 Trường Đại học Lạc Hồng 3 Khoa Tự nhiên, Trường Đại học Thủ Dầu Một 4 Khoa Công nghệ thông tin, Trường Đại học Nguyễn Tất Thành chidtk@tdmu.edu.vn, nhintn@tdmu.edu.vn, baont@tdmu.edu.vn, lmlong@ntt.edu.vn, pcxuyen@lhu.edu.vnTÓM TẮT: Nấm mối là loài nấm ăn được có giá trị cao về kinh tế cũng như dinh dưỡng. Nấm mối chỉ có theo mùa và thời gian sinhtrưởng ngắn nên việc định danh loài này theo phương pháp dựa vào quan sát hình thái và kinh nghiệm dân gian sẽ có kết quả khôngcao. Hiện nay, việc sử dụng các kỹ thuật di truyền phân tử để xác định loài được ghi nhận là có hiệu quả cao trong việc định loại vàgiám định loài. Bài báo giới thiệu mô hình máy học áp dụng cho tập dữ liệu ITS của nấm mối để xác định tên loài và xây dựng câyđịnh danh loài. Mô hình xây dựng cây định danh nấm mối được thực nghiệm bằng các thuật toán XGBoost, Random Forest và phâncụm phân cấp UPGMA. Kết quả thực nghiệm kiểm chứng mô hình xây dựng với hai trình tự ITS được thu thập từ các mẫu nấm mốiở x An inh, huyện h iáo, tỉnh Bình Dương có kết quả định danh loài trùng khớp với phần mềm dự đoán loài BLAST củaNCBI.Từ khóa: ITS (Internal transcribed spacer), Termite mushroom, Termitomyces, Extreme Gradient Boosting, Random forest,UPGMA - Unweighted pair group with arthmetic means, Machine Learning. I. GIỚI THIỆU Nấm mối có tên khoa học là Termitomyces là loại nấm ăn có hương vị thơm ngon có gi tri dinh dư ng cao.Một số loài nấm mối được sử dụng làm dược liệu như T. robustus, T. striatus với t c dụng chống lão hóa [1]; T. heimiichứa axit béo ergosterol, linoleic tăng cường hệ thống miễn dịch, ngăn ngừa bệnh cao huyết p [2]; C c nghiên cứukh c còn chỉ ra rằng β-D-glucan có trong T. clypeatus có trong có khả năng ức chế tế bào ung thư như [3] kh ng trựckhuẩn Pseudomonas aeruginosa hỗ trợ điều trị bệnh thủy đậu [4]. Với nhiều công dụng như vậy nhưng loài nấm nàychưa thể nuôi trồng [5], đến năm 2013, ở Việt Nam có khoảng 10 loài nấm mối được ghi nhận [6]. Nấm mối chỉ mọc tựnhiên theo mùa, sản lượng c c loại nấm này đang giảm sút [5]. Có rất nhiều yếu tố t c động đến sự phân bố và ph ttriển của nấm mối như: ô nhiễm môi trường, thời tiết thay đổi hay với số lượng tổ mối1 ngày càng giảm do t c độngcủa con người. Để có thể nghiên cứu và bảo tồn loài nấm mối quý hiếm này thì việc định danh loài nấm mối là rất quantrọng, việc x c định chính xác tên loài giúp hiểu rõ c c đặc sinh trưởng cũng như c c nghiên cứu liên quan đã đượccông bố về loài. Phương ph p định danh loài trước đây thường dựa trên các khóa phân loại còn gọi là đặc điểm hình th i củatừng loài, tuy nhiên với c c loài mà mẫu vật thu thập không nguyên vẹn, hay bảo quản không đúng c ch thì rất khóphân định chính x c. Gần đây, việc sử dụng c c DNA để định danh loài đang được p dụng, đoạn DNA thường đượcdùng để phân loại được gọi là DNA mã vạch (DNA barcode) [7] hay còn cách gọi kh c là là trình tự ITS (Internaltranscribed spacer) [5, 9]. Các nhóm gen này thường được sử dụng gen rRNA 18S, 5S và 16S dùng để đ nh gi mốiquan hệ tiến ho giữa c c sinh vật. So với chỉ thị hình th i và chỉ thị ho học, chỉ thị DNA cho độ chính x c cao hơnmà không lệ thuộc vào bất cứ yếu tố kh ch quan nào [8]. C c trình tự về nhận dạng loài thường được sử dụng trình tự ITS [5, 9] là vùng DNA nằm giữa c c gen hay còngọi được sử dụng làm DNA chỉ thị trong nghiên cứu được c c nhà nghiên cứu công bố trên c c ngân hàng gen quốc tế2như NCBI, EMBI, DDBJ, BOLD. Số lượng trình tự ITS nấm mối được công bố ngày càng nhiều và phân t n ở nhiềungân hàng gene nên việc định danh sẽ có những trở ngại nhất định. Việc xây dựng cơ sở dữ liệu nấm mối (TerDB-Termitomyces Database) tập hợp được c c trình tự ITS của loài; đặc trưng kiểu hình; đặc trưng loài mối cộng sinh vớiloại nấm mối tương ứng. Ứng dụng mô hình học m y khai th c thông tin từ TerDB sẽ giúp cho việc định danh loàinhanh và chính x c hơn. Trong bài viết này, chúng tôi đề xuất giải ph p m y học để xây dựng mô hình dự đo n tên loàinấm mối và xây dựng cây phân loại thể hiện sự tương đồng về trình tự của loài. Mô hình phân loại theo c ch tiếp cận của học m y cung cấp c c kiến thức hay kết quả dự đo n nhãn ở đầ ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: