Phương pháp lấy mẫu thuộc tính mới trong rừng ngẫu nhiên cho phân tích dữ liệu SNP
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Phương pháp lấy mẫu thuộc tính mới trong rừng ngẫu nhiên cho phân tích dữ liệu SNPJ. Sci. & Devel. 2015, Vol. 13, No. 2: 301-307 Tạp chí Khoa học và Phát triển 2015, tập 13, số 2: 301-307 www.vnua.edu.vn PHƯƠNG PHÁP LẤY MẪU THUỘC TÍNH MỚI TRONG RỪNG NGẪU NHIÊN CHO PHÂN TÍCH DỮ LIỆU SNP Nguyễn Văn Hoàng*, Phan Thị Thu Hồng, Nguyễn Thanh Tùng, Nguyễn Thị Thủy Khoa Công nghệ thông tin, Học viện Nông nghiệp Việt Nam Email*: nvhoang@vnua.edu.vn Ngày gửi bài: 22.10.2014 Ngày chấp nhận: 20.12.2014 TÓM TẮT Gần đây, các nghiên cứu liên kết mức toàn hệ gen (GWAS) đã đạt được thành công trong việc xác định một sốbiến thể di truyền có ảnh hưởng tương đối lớn tới một số bệnh phức tạp. Hầu hết các GWAS sử dụng các tiếp cậnđơn SNP (đa hình đơn nucleotide) chỉ tập trung vào việc đánh giá sự liên hệ giữa từng SNP riêng biệt với bệnh. Tuynhiên, trên thực tế, các bệnh phức tạp được cho là liên quan tới những nguyên nhân phức tạp bao gồm nhữngtương tác rắc rối giữa nhiều SNPs. Do đó, cần có những cách tiếp cận khác để xác định sự ảnh hưởng của các SNPhoặc những tương tác phức tạp của các SNP tới bệnh. Phương pháp rừng ngẫu nhiên (Random Forest, RF) gầnđây đã được ứng dụng thành công trong GWAS cho việc xác định một số nhân tố di truyền có ảnh hưởng lớn tới mộtsố bệnh phức tạp. Mặc dù RF xử lý tốt trên khía cạnh chính xác dự đoán trên một số tập dữ liệu có kích cỡ trungbình, nhưng mô hình RF truyền thống có nhiều hạn chế trong việc xác định các SNPs có ý nghĩa và xây dựng cácmô hình dự đoán chính xác. Trong bài báo này, chúng tôi đề xuất một phương pháp lấy mẫu hai bước để lựa chọncác đặc trưng có ý nghĩa trong việc huấn luyện mô hình rừng ngẫu nhiên. Phương pháp này cho phép chọn ra mộttập nhỏ các đặc trưng có liên hệ chặt chẽ với biến đích (bệnh), do đó làm giảm số chiều và có thể xử lý tốt trên cáctập dữ liệu có số chiều cao. Chúng tôi cũng tiến hành các thực nghiệm trên hai tập dữ liệu chuẩn SNP ở mức toànbộ hệ gen để làm sáng tỏ hiệu quả của phương pháp đề xuất. Từ khóa: Genome-wide Association Study, học máy, khai phá dữ liệu, rừng ngẫu nhiên A New Feature Sampling Method in Learning Random Forest for SNP Data Analysis ABSTRACT Recently, Genome-wide association studies (GWAS) have been successful in the identification of geneticvariants that have effects in some complex diseases. Most GWA studies used single SNP (single-nucleotidepolymorphism) approaches that mainly focused on assessing the association between each individual SNP and thedisease. However, in fact, complex diseases are thought to involve complex etiologies including complicatedinteractions between many SNPs. Thus, different approaches are necessary to identify SNPs that influence diseaserisk jointly or in complex interactions. Random Forest (RF) method recently has been successfully used in GWAS foridentifying genetic factors that have effects in some complex diseases. In spite of performing well in terms ofprediction accuracy in some data sets with moderate size, RF still suffers from working in GWAS for selectinginformative SNPs and building accurate prediction models. In this paper, we propose a new two-stage samplingmethod in learning random forests. The proposed method allows to select a sub-set of informative SNPs which aremost relevant to disease. Therefore, it reduces the dimensionality and can perform well with high-dimensional datasets. We conducted experiments on two genome-wide SNP data sets to demonstrate the effectiveness of theproposed method. Keywords: Genome-wide Association Study, machine learning, data mining, random forest 3011. ĐẶT VẤN ĐỀ 2. CÁC NGHIÊN CỨU LIÊN QUAN Công nghệ sinh học đã đạt được những bước Trong mục này chúng tôi phân tích cáctiến vượt bậc trong công nghệ giải mã trình tự hướng tiếp cận đã có cho bài toán phân tích dữgen. Giờ đây, toàn bộ hệ gen có thể được giải mã liệu SNP. Hướng tiếp cận đơn giản nhất là kiểmtrình tự dễ dàng và nhanh chóng với chi phí tra tất cả các tổ hợp SNP có thể. Tuy nhiên dothấp (Mardis, 2011). Hệ gen được giải mã trình số lượng tổ hợp là rất lớn nên đòi hỏi giá thànhtự nhanh chóng đã tạo điều kiện cho những tính toán lớn. Tiếp cận kiểm tra tất cả các tổnghiên cứu liên kết mức toàn bộ hệ gen trở nên hợp gồm 2 SNP đã được thực hiện và cho thấy làkhả thi. Thực tế là những nghiên cứu liên kết r ...
Tìm kiếm theo từ khóa liên quan:
Phân tích dữ liệu SNP Genome-wide Association Study Khai phá dữ liệu Rừng ngẫu nhiên Dữ liệu SNP Phương pháp lấy mẫuTài liệu cùng danh mục:
-
Đề cương chi tiết học phần: Khoa học gỗ
9 trang 293 0 0 -
Một số giải pháp phát triển thị trường nội địa các sản phẩm gỗ và lâm sản Việt Nam
50 trang 289 0 0 -
PHƯƠNG PHÁP NGHIÊN CỨU ƯỚC TÍNH TRỮ LƯỢNG CARBON CỦA RỪNG
10 trang 237 0 0 -
Các nhân tố ảnh hưởng đến hiệu quả hoạt động chuỗi cung ứng đồ gỗ vùng Đông Nam Bộ
11 trang 237 0 0 -
Bài giảng Quản lý dự án lâm nghiệp xã hội: Bài 4 - ThS. Nguyễn Quốc Bình
5 trang 222 0 0 -
Quản lý bền vững rừng đặc dụng: Trường hợp nghiên cứu ở vườn quốc gia Cát Tiên
10 trang 204 0 0 -
Giáo trình Công nghệ chế biến hóa học gỗ: Phần 1 - ĐH Lâm Nghiệp
117 trang 196 0 0 -
0 trang 180 0 0
-
Nghiên cứu xây dựng quy trình xử lý ảnh vệ tinh landsat8 trong arcgis
0 trang 176 0 0 -
Báo cáo Ngành cao su Việt Nam - Thực trạng và giải pháp phát triển bền vững
48 trang 157 0 0
Tài liệu mới:
-
Khảo sát tình trạng dinh dưỡng trước mổ ở người bệnh ung thư đại trực tràng
9 trang 21 0 0 -
94 trang 19 0 0
-
Tham vấn Thanh thiếu niên - ĐH Mở Bán công TP Hồ Chí Minh
276 trang 20 0 0 -
Kết hợp luân phiên sóng T và biến thiên nhịp tim trong tiên lượng bệnh nhân suy tim
10 trang 19 0 0 -
Đề thi giữa học kì 1 môn Ngữ văn lớp 9 năm 2024-2025 có đáp án - Trường THCS Nguyễn Trãi, Thanh Khê
14 trang 21 0 0 -
Đánh giá hiệu quả giải pháp phát triển thể chất cho sinh viên Trường Đại học Kiến trúc Hà Nội
8 trang 20 0 0 -
Tỉ lệ và các yếu tố liên quan đoạn chi dưới ở bệnh nhân đái tháo đường có loét chân
11 trang 20 0 0 -
39 trang 19 0 0
-
Đề thi học kì 1 môn Tiếng Anh lớp 6 năm 2024-2025 có đáp án - Trường TH&THCS Quang Trung, Hội An
6 trang 19 1 0 -
Tôm ram lá chanh vừa nhanh vừa dễRất dễ làm, nhanh gọn mà lại ngon. Nhà mình
7 trang 19 0 0