Thông tin tài liệu:
Khai phá dữ liệu hiện đang là lãnh vực nghiên cứu rất phát triển. Cho đến thời điểm hiện nay đã có một số thư viện mã nguốn được hiện thực để đáp ứng cho các bài toán khai phá dữ liệu. Tuy nhiên hầu như chưa có một thư viên mã nguồn mở nào chuyên biệt cho lớp bài toán dự báo. Bài báo sẽ giới thiệu về thư viện mã nguồn mở cho bài toán dự báo với những giải thuật tiên tiến hiện nay như Artificial Neural Network (ANN), Support Vector Regression (SVR), Standard Addictive Model (SAM)....
Nội dung trích xuất từ tài liệu:
THƯ VIỆN MÃ NGUỒN MỞ CHO BÀI TOÁN DỰ BÁO THƯ VIỆN MÃ NGUỒN MỞ CHO BÀI TOÁN DỰ BÁO AN OPEN SOURCE LIBRARY FOR PREDICTION PROBLEMS Dương Ngọc Hiếu, Võ Hoàng Tam, Nguyễn Thành Thi (*) Khoa Khoa học & Kỹ thuật Máy tính, ĐH Bách khoa Tp. Hồ Chí Minh (*) Bộ môn Thông tin Địa lý Ứng dụng, ĐH Nông – Lâm Tp. Hồ Chí Minh {dnhieu, vhtam}@cse.hcmut.edu.vn, nnthi@hcmuaf.edu.vn BÁN TÓM TẮTKhai phá dữ liệu hiện đang là lãnh vực nghiên cứu rất phát triển. Cho đến thời điểm hiện nay đã có một số thưviện mã nguốn được hiện thực để đáp ứng cho các bài toán khai phá dữ liệu. Tuy nhiên hầu như chưa có một thưviên mã nguồn mở nào chuyên biệt cho lớp bài toán dự báo. Bài báo sẽ giới thiệu về thư viện mã nguồn mở chobài toán dự báo với những giải thuật tiên tiến hiện nay như Artificial Neural Network (ANN), Support VectorRegression (SVR), Standard Addictive Model (SAM). ABSTRACTDatamining has recently been an emerging research trend. For the time being, there have been some open sourcelibraries implemented to solve datamining problems. However, there is no library specialized in predictingtechnique. In this paper, we implement an open source library for solving prediction problems using someadvanced algorithm such as: Artificial Neural Network (ANN), Support Vector Regression (SVR), StandardAddictive Model (SAM).1. GIỚI THIỆU regression, perceptron regression, … Các phương pháp dự báo này có những ưu và nhược điểm khác Con người luôn luôn quan tâm đến tương lai. Từ nhau tùy vào vấn đề cần giải quyết. Do đó khi gặpxa xưa các nhà tiên tri luôn giữ một vị trí quan trọng phải một bài toán cụ thể, ta phải dựa vào tính chấttrong cộng đồng. Khi văn minh nhân loại phát triển của bài toán để lựa chọn phương pháp thích hợp.đã làm gia tăng các mối quan hệ phức tạp vốn cótrong cuộc sống. Do đó con người cần có cái nhìn về Ngày nay đã xuất hiện khá nhiều thư viện datatương lai của họ. Ngày nay, tất cả các cơ quan mining mã nguốn mở như Xelopes, Weka, … đã hiệnChính phủ, các tổ chức lợi nhuận, phi lợi nhuận cũng thực nhiều giải thuật khác nhau đáp ứng cho các bàinhư những công ty trong lĩnh vực kinh doanh và các toán data mining. Tuy nhiên hầu như chưa có một thưcá nhân đều có nhu cầu dự báo về sự kiện tương lai viên mã nguồn mở nào chuyên biệt cho lớp bài toánnhằm phục vụ cho công việc của mình: kế hoạch phát dự báo. Bài báo sẽ giới thiệu về thư viện mã nguồntriển công ty, tỉ lệ lợi nhuận trong kinh doanh… mở cho bài toán dự báo với những giải thuật tiên tiến hiện nay như ANN, SVR, SAM. Mặc dù có nhiều kỹ thuật dự báo đã phát triểntrong thế kỷ thứ 19, tuy nhiên dự báo có ảnh hưởng Phần còn lại của bài báo gồm các nội dung sau.mạnh mẽ mới đây chỉ vào lúc công nghệ thông tin Phần 2 trình bày tổng quan về bài toán dự báo. Phầnđang phát triển nhanh chóng. Bởi vì việc mô phỏng 3 điểm qua các giải thuật dự báo đã được hiện thựcnhững phương pháp dự báo rất cần sự hỗ trợ của máy trong thư viện mã nguồn mở. Trong phần 4, chúngtính. Trong quá khứ, nhiều phần mềm được thiết kế tôi mô tả sơ lược kiến trúc của thư viện mã nguốnđặc biệt cho những phương pháp phân tích dự báo mở. Các so sánh thực nghiệm được nêu ra trong phầnkhác nhau. Ngoài ra những phần mềm thống kê vận 5. Phần 6 đúc kết và vạch ra hướng phát triển tronghành trong những máy tính thông thường cũng đã đề tương lai.cập đến nhiều kỹ thuật dự báo. Với sự phát triển củahệ thống máy tính cá nhân, các kỹ thuật dự báo hiện 2. TỔNG QUAN VỀ BÀI TOÁN DỰđại được triển khai thực hiện một cách nhanh chóng BÁOdễ dàng. Trong lãnh vực dự báo, thường được chia ra làm Một trong những kỹ thuật dự báo hiện đại đó là hai hướng:data mining. Có rất nhiều phương pháp data miningsử dụng để dự báo như: neural network, support vetor 2.1. Phương pháp định tính Phương pháp định tính (đôi khi được gọi là + Mô hình nhân quả giả định biến số dự báo cóphương pháp chuyên gia hay phương pháp phân tích thể được giải thích bởi hành vi của những biến sốcơ sở) thường được sử dụng khi những dữ liệu lịch kinh tế khác (biến số độc lập). Ví dụ: doanh số có thểsử không sẵn có hay có nhưng không đầy đủ, hay giải thích phụ thuộc vào chi phí quảng cáo, thu nhậpnhững đối tượn ...