Thuật toán lựa chọn phương pháp tỉ lệ dữ liệu
Số trang: 4
Loại file: pdf
Dung lượng: 492.85 KB
Lượt xem: 17
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Thuật toán lựa chọn phương pháp tỉ lệ dữ liệu đề xuất phương pháp sử dụng giải thuật di truyền (Genetic Algorithm - GA) để lựa chọn phương pháp tỉ lệ cho từng thuộc tính. Với các bạn chuyên ngành Sinh học thì đây là tài liệu hữu ích.
Nội dung trích xuất từ tài liệu:
Thuật toán lựa chọn phương pháp tỉ lệ dữ liệuT¹p chÝ KTKT Má - §Þa chÊt, sè 43/7-2013, tr. 100-103THUẬT TOÁN LỰA CHỌN PHƯƠNG PHÁP TỈ LỆ DỮ LIỆUĐẶNG HỮU NGHỊ, HOÀNG KIM BẢNG, BÙI THỊ VÂN ANHTrường Đại học Mỏ - Địa chấtTóm tắt: Máy tựa vector (Support Vector Machine – SVM) là một kỹ thuật hữu ích cho việcphân loại dữ liệu. Việc tỉ lệ giá trị của các thuộc tính trong tập dữ liệu huấn luyện cũng nhưtập dữ liệu kiểm thử về cùng một phạm vi (gọi tắt là tỉ lệ dữ liệu) trước khi áp dụng SVM làmột bước rất quan trọng. Khi thiếu thông tin người ta thường tỉ lệ giá trị của các thuộc tínhvề cùng một phạm vi với cùng một phương pháp. Có 3 phương pháp tỉ lệ dữ liệu thườngđược sử dụng là: trung bình 0 và độ lệch chuẩn 1, tầm trung 0 và phạm vi 2, hoặc khi ýnghĩa về độ lớn là phi tuyến giá trị của các thuộc tính có thể được tỉ lệ bằng cách lấy logarit(hoặc lấy căn bậc 3) sau đó tiếp tục tỉ lệ kết quả nhận được bằng phương pháp tầm trung 0và phạm vi 2. Trong bài báo này chúng tôi đề xuất phương pháp sử dụng giải thuật ditruyền (Genetic Algorithm - GA) để lựa chọn phương pháp tỉ lệ cho từng thuộc tính. Kết quảthực nghiệm cho thấy trong nhiều trường hợp phương pháp mà chúng tôi đề xuất tốt hơnphương pháp vẫn thường được sử dụng đó là tỉ lệ giá trị của tất cả các thuộc tính theo cùngmột phương pháp.1. Mở đầuSVM là một kỹ thuật mới được sử dụng choviệc phân tích hồi quy và phân loại dữ liệu.Nhằm giảm độ phức tạp tính toán (vì các giá trịkernel được tính bởi tính vô hướng của cácvector đặc trưng) cũng như tăng độ chính xác,khi áp dụng SVM dữ liệu cần phải được tỉ lệ vềkhoảng [-1,1] hoặc [0,1]. Trong [4] các tác giảgiải thích tại sao chúng ta phải tỉ lệ dữ liệu khisử dụng mạng Nơron, điều này cũng tương tựnhư khi chúng ta sử dụng SVM.Một phương pháp tiêu chuẩn để điều chỉnhgiá trị của các thuộc tính là lấy giá trị của mỗithuộc tính trừ đi giá trị trung bình của nó sau đótiếp tục chia giá trị của các thuộc tính cho giá trịđộ lệch chuẩn của thuộc tính đó. Kết quả củaphương pháp này là hầu hết các giá trị của cácthuộc tính sau khi điều chỉnh sẽ nằm trongkhoảng [-1, 1]. Phương pháp trên chỉ áp dụngkhi các giá trị của các thuộc tính được phân bốtheo phân phối chuẩn. Khi không biết đượcchính xác sự phân bố của các giá trị trong cácthuộc tính thì một phương pháp thường được sửdụng là phương pháp trung bình 0 và phạm vi 2(min = -1 và max = 1) [4, 2]. Với các phươngpháp trên thì tất cả các thuộc tính trong tập dữliệu sẽ được tỉ lệ theo cùng một phương pháp.Trong bài báo này chúng tôi đề xuất phương100pháp sử dụng giải thuật di truyền để lựa chọnphương pháp tỉ lệ riêng rẽ cho từng thuộc tính.2. Phương pháp máy tựa VectorViệc sử dụng phương pháp máy tựa vectorSVM trong việc phân loại dữ liệu hiện đangđược áp dụng trong rất nhiều lĩnh vực. Tronglĩnh vực về khoa học trái đất thì phương phápmáy tựa vector được áp dụng cho các bài toánnhư phân loại ảnh viễn thám [6], nhận dạng,phân loại đất v.v…Phương pháp tựa vector ánh xạ các vectorđầu vào x sang không gian đặc trưng có sốchiều cao hoặc vô hạn chiều (z = (x)) sau đóxây dựng một siêu phẳng tối ưu w.z + b = 0 đểphân loại dữ liệu thành hai lớp. Phương phápmáy tựa vector giải quyết bài toán tối ưu sau:11 N(1)min|| w ||2 C i ,22 i 1với các ràng buộc:yi w.xi b 1 i , i 0 , i 1....N , (2)trong đó:Mỗi xi là một vectơ thực m chiều.Ta cần tìm siêu phẳng có lề lớn nhất chiatách các điểm có yi = 1 và các điểm có yi = -1w là một vectơ pháp tuyến của siêu phẳng.Các biến bù i dùng để đo độ sai lệch của xiBằng cách thêm các nhân tử Lagrange ,bài toán trên trở thànhNmaxi 1i1 N i j yi y j k xi , x j , (3)2 i , j 1với các ràng buộc0 i C , i,Nyii 1i0 ,(4)trong đó k(xi, xj) = (xi). (xj) là hàm hạt nhân(kernel function) thực hiện ánh xạ phi tuyến.Một số hàm hạt nhân thường được sử dụng là:Gaussiankernel: || x x || k xi , x j exp i 2 j 22Polynomial kernel:k xi , x j 1 xi .x j dRBF kernel:k xi , x j exp || xi x j || 2 3. Lựa chọn phương pháp tỉ lệ dữ liệu sửdụng giải thuật di truyền3.1. Giải thuật di truyềnGiải thuật di truyền là một kỹ thuật củakhoa học máy tính nhằm tìm kiếm giải phápthích hợp cho các bài toán tối ưu tổ hợp(combinatorial optimization). Giải thuật ditruyền là một phân ngành của giải thuật tiếnhóa vận dụng các nguyên lý của tiến hóa nhưdi truyền, đột biến, chọn lọc tự nhiên, và traođổi chéo. Giải thuật di truyền thực hiện tiếntrình tìm kiếm lời giải tối ưu theo nhiềuhướng bằng cách duy trì một quần thể các lờigiải và thúc đẩy sự hình thành và trao đổithông tin giữa các hướng này. Quần thể trảiqua quá trình tiến hóa, ở mỗi thế hệ phát sinhlời giải tương đối “tốt”, trong khi các lời giảitương đối “xấu” thì bị loại đi. Để phân biệtcác lời giải khác nhau người ta sử dụng hàmmục tiêu. Mỗi cá thể trong một quần thể gọi ...
Nội dung trích xuất từ tài liệu:
Thuật toán lựa chọn phương pháp tỉ lệ dữ liệuT¹p chÝ KTKT Má - §Þa chÊt, sè 43/7-2013, tr. 100-103THUẬT TOÁN LỰA CHỌN PHƯƠNG PHÁP TỈ LỆ DỮ LIỆUĐẶNG HỮU NGHỊ, HOÀNG KIM BẢNG, BÙI THỊ VÂN ANHTrường Đại học Mỏ - Địa chấtTóm tắt: Máy tựa vector (Support Vector Machine – SVM) là một kỹ thuật hữu ích cho việcphân loại dữ liệu. Việc tỉ lệ giá trị của các thuộc tính trong tập dữ liệu huấn luyện cũng nhưtập dữ liệu kiểm thử về cùng một phạm vi (gọi tắt là tỉ lệ dữ liệu) trước khi áp dụng SVM làmột bước rất quan trọng. Khi thiếu thông tin người ta thường tỉ lệ giá trị của các thuộc tínhvề cùng một phạm vi với cùng một phương pháp. Có 3 phương pháp tỉ lệ dữ liệu thườngđược sử dụng là: trung bình 0 và độ lệch chuẩn 1, tầm trung 0 và phạm vi 2, hoặc khi ýnghĩa về độ lớn là phi tuyến giá trị của các thuộc tính có thể được tỉ lệ bằng cách lấy logarit(hoặc lấy căn bậc 3) sau đó tiếp tục tỉ lệ kết quả nhận được bằng phương pháp tầm trung 0và phạm vi 2. Trong bài báo này chúng tôi đề xuất phương pháp sử dụng giải thuật ditruyền (Genetic Algorithm - GA) để lựa chọn phương pháp tỉ lệ cho từng thuộc tính. Kết quảthực nghiệm cho thấy trong nhiều trường hợp phương pháp mà chúng tôi đề xuất tốt hơnphương pháp vẫn thường được sử dụng đó là tỉ lệ giá trị của tất cả các thuộc tính theo cùngmột phương pháp.1. Mở đầuSVM là một kỹ thuật mới được sử dụng choviệc phân tích hồi quy và phân loại dữ liệu.Nhằm giảm độ phức tạp tính toán (vì các giá trịkernel được tính bởi tính vô hướng của cácvector đặc trưng) cũng như tăng độ chính xác,khi áp dụng SVM dữ liệu cần phải được tỉ lệ vềkhoảng [-1,1] hoặc [0,1]. Trong [4] các tác giảgiải thích tại sao chúng ta phải tỉ lệ dữ liệu khisử dụng mạng Nơron, điều này cũng tương tựnhư khi chúng ta sử dụng SVM.Một phương pháp tiêu chuẩn để điều chỉnhgiá trị của các thuộc tính là lấy giá trị của mỗithuộc tính trừ đi giá trị trung bình của nó sau đótiếp tục chia giá trị của các thuộc tính cho giá trịđộ lệch chuẩn của thuộc tính đó. Kết quả củaphương pháp này là hầu hết các giá trị của cácthuộc tính sau khi điều chỉnh sẽ nằm trongkhoảng [-1, 1]. Phương pháp trên chỉ áp dụngkhi các giá trị của các thuộc tính được phân bốtheo phân phối chuẩn. Khi không biết đượcchính xác sự phân bố của các giá trị trong cácthuộc tính thì một phương pháp thường được sửdụng là phương pháp trung bình 0 và phạm vi 2(min = -1 và max = 1) [4, 2]. Với các phươngpháp trên thì tất cả các thuộc tính trong tập dữliệu sẽ được tỉ lệ theo cùng một phương pháp.Trong bài báo này chúng tôi đề xuất phương100pháp sử dụng giải thuật di truyền để lựa chọnphương pháp tỉ lệ riêng rẽ cho từng thuộc tính.2. Phương pháp máy tựa VectorViệc sử dụng phương pháp máy tựa vectorSVM trong việc phân loại dữ liệu hiện đangđược áp dụng trong rất nhiều lĩnh vực. Tronglĩnh vực về khoa học trái đất thì phương phápmáy tựa vector được áp dụng cho các bài toánnhư phân loại ảnh viễn thám [6], nhận dạng,phân loại đất v.v…Phương pháp tựa vector ánh xạ các vectorđầu vào x sang không gian đặc trưng có sốchiều cao hoặc vô hạn chiều (z = (x)) sau đóxây dựng một siêu phẳng tối ưu w.z + b = 0 đểphân loại dữ liệu thành hai lớp. Phương phápmáy tựa vector giải quyết bài toán tối ưu sau:11 N(1)min|| w ||2 C i ,22 i 1với các ràng buộc:yi w.xi b 1 i , i 0 , i 1....N , (2)trong đó:Mỗi xi là một vectơ thực m chiều.Ta cần tìm siêu phẳng có lề lớn nhất chiatách các điểm có yi = 1 và các điểm có yi = -1w là một vectơ pháp tuyến của siêu phẳng.Các biến bù i dùng để đo độ sai lệch của xiBằng cách thêm các nhân tử Lagrange ,bài toán trên trở thànhNmaxi 1i1 N i j yi y j k xi , x j , (3)2 i , j 1với các ràng buộc0 i C , i,Nyii 1i0 ,(4)trong đó k(xi, xj) = (xi). (xj) là hàm hạt nhân(kernel function) thực hiện ánh xạ phi tuyến.Một số hàm hạt nhân thường được sử dụng là:Gaussiankernel: || x x || k xi , x j exp i 2 j 22Polynomial kernel:k xi , x j 1 xi .x j dRBF kernel:k xi , x j exp || xi x j || 2 3. Lựa chọn phương pháp tỉ lệ dữ liệu sửdụng giải thuật di truyền3.1. Giải thuật di truyềnGiải thuật di truyền là một kỹ thuật củakhoa học máy tính nhằm tìm kiếm giải phápthích hợp cho các bài toán tối ưu tổ hợp(combinatorial optimization). Giải thuật ditruyền là một phân ngành của giải thuật tiếnhóa vận dụng các nguyên lý của tiến hóa nhưdi truyền, đột biến, chọn lọc tự nhiên, và traođổi chéo. Giải thuật di truyền thực hiện tiếntrình tìm kiếm lời giải tối ưu theo nhiềuhướng bằng cách duy trì một quần thể các lờigiải và thúc đẩy sự hình thành và trao đổithông tin giữa các hướng này. Quần thể trảiqua quá trình tiến hóa, ở mỗi thế hệ phát sinhlời giải tương đối “tốt”, trong khi các lời giảitương đối “xấu” thì bị loại đi. Để phân biệtcác lời giải khác nhau người ta sử dụng hàmmục tiêu. Mỗi cá thể trong một quần thể gọi ...
Tìm kiếm theo từ khóa liên quan:
Phương pháp tỉ lệ dữ liệu Lựa chọn phương pháp tỉ lệ dữ liệu Giải thuật di truyền Genetic Algorithm Phương pháp sử dụng giải thuật di truyền Phương pháp máy tựa VectorGợi ý tài liệu liên quan:
-
7 trang 197 0 0
-
12 trang 183 0 0
-
Hệ phương trình phi tuyến và giải thuật di truyền - Phương pháp nghiên cứu khoa học
16 trang 83 0 0 -
Bài giảng Lý thuyết điều khiển tự động: Chương 2.7 - TS. Nguyễn Thu Hà
10 trang 49 0 0 -
9 trang 44 0 0
-
Nghiên cứu hệ thống điều khiển thông minh: Phần 1
232 trang 34 0 0 -
Điều khiển ổn định hệ Acrobot sử dụng giải thuật LQR-GA
8 trang 29 0 0 -
Tối ưu đa mục tiêu và ứng dụng trong kỹ thuật
3 trang 27 0 0 -
10 trang 26 0 0
-
Cực tiểu hóa thời gian trễ trung bình trong một mạng hàng đợi bằng giải thuật di truyền.
6 trang 25 0 0