Một số bất đẳng thức về lỗi phân lớp đối với bài toán phân lớp nhị phân
Số trang: 4
Loại file: pdf
Dung lượng: 448.22 KB
Lượt xem: 32
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài toán phân lớp nhị phân là một bài toán cơ bản trong bài toán phân lớp thuộc nhóm các thuật toán học có giám sát. Người ta sử dụng một hàm phân loại để gán một điểm dữ liệu với một trong 2 lớp đã cho dựa trên một tập dữ liệu khảo sát được đã được gán nhãn. Ở bài viết này, tác giả nghiên cứu và xây dựng một số bất đẳng thức để đánh giá về lỗi phân lớp trong bài toán phân lớp nhị phân.
Nội dung trích xuất từ tài liệu:
Một số bất đẳng thức về lỗi phân lớp đối với bài toán phân lớp nhị phânISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL. 22, NO. 3, 2024 49 MỘT SỐ BẤT ĐẲNG THỨC VỀ LỖI PHÂN LỚP ĐỐI VỚI BÀI TOÁN PHÂN LỚP NHỊ PHÂN SOME INEQUALITIES ON CLASSIFICATION ERRORS FOR BINARY CLASSIFICATION Tôn Thất Tú* Trường Đại học Sư phạm - Đại học Đà Nẵng, Đà Nẵng, Việt Nam1 *Tác giả liên hệ / Corresponding author: tttu@ued.udn.vn (Nhận bài / Received: 10/12/2023; Sửa bài / Revised: 31/01/2024; Chấp nhận đăng / Accepted: 02/02/2024)Tóm tắt - Bài toán phân lớp nhị phân là một bài toán cơ bản trong Abstract - The binary classification problem is a basic problem inbài toán phân lớp thuộc nhóm các thuật toán học có giám sát. the classification problem of the group of supervised learningNgười ta sử dụng một hàm phân loại để gán một điểm dữ liệu với algorithms. One uses a classification function to assign a data pointmột trong 2 lớp đã cho dựa trên một tập dữ liệu khảo sát được đã to one of two given classes based on a labeled collected data set. Thisđược gán nhãn. Hành động này có thể mắc sai lầm nếu việc gán action can be erroneous if the labeling of data points is incorrect.nhãn cho các điểm dữ liệu không chính xác. Có nhiều thuật toán There are many different algorithms that have been studied related tokhác nhau đã được nghiên cứu liên quan đến bài toán phân lớp the binary classification problem. To measure the quality of thenhị phân. Để đo lường chất lượng của hàm phân lớp, người ta đưa classification function, people introduce some concepts about thera một số khái niệm về lỗi mắc phải khi tiến hành phân lớp. Ở bài errors made when performing classification. In this article, the authorbáo này, tác giả nghiên cứu và xây dựng một số bất đẳng thức để researches and builds a number of inequalities to evaluate theđánh giá về lỗi phân lớp trong bài toán phân lớp nhị phân. classification errors in the binary classification problem.Từ khóa - Phân lớp; nhị phân; lỗi phân lớp; bất đẳng thức; học Key words - Classification; binary; classification error;máy thống kê. inequality; statistical machine learning.1. Giới thiệu 1, ( x) 1/ 2 Kí hiệu g * ( x) = Bài toán phân lớp nhị phân là bài toán cơ bản, được nhiều 0, ( x) 1/ 2tác giả nghiên cứu về cách thức tiếp cận cũng như đánh giáchất lượng của các thuật toán [1, 2, 3]. Giả sử ( X , Y ) là một và L* = L( g* ) = P( g* ( X ) Y ).cặp biến ngẫu nhiên nhận giá trị trong Rd {0,1}. Để mô tả Định lý 1. [2] Với mọi hàm phân lớp g : Rd → {0,1}phân phối của ( X , Y ) ta có thể sử dụng cặp giá trị ( , ) , ta luôn có:trong đó là độ đo xác suất sinh bởi biến ngẫu nhiên X P( g* ( X ) Y ) P( g ( X ) Y ),và là hàm hồi quy của Y theo X , tức là tức là g * là hàm phân lớp tối ưu. ( A) = P( X A) với A là tập Borel trên R , d Hàm g * được gọi là hàm phân lớp Bayes và giá trị L* ( x) = P(Y = 1| X = x) = E(Y | X = x), x R . d được gọi là xác suất lỗi Bayes. Một hàm g : Rd → {0,1} được gọi là một hàm phân Với x R ta có dlớp (classifier, decision function) và giá trị P( g ( X ) Y | X = x) = 1- P( g ( X ) = Y | X = x) L( g ) = P ( g ( X ) Y ) = 1-[ P(Y = 1, g ( x) = 1| X = x)được gọi là xác suất lỗi (error probability, misclassification + P(Y = 0, g ( x) = 0 | X = x)]error) của hàm phân lớp g . = 1-[ I{ g ( x ) =1} P(Y = 1| X = x) Để tính được giá trị của L ( g ) ta cần phải biết phân phối ...
Nội dung trích xuất từ tài liệu:
Một số bất đẳng thức về lỗi phân lớp đối với bài toán phân lớp nhị phânISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ - ĐẠI HỌC ĐÀ NẴNG, VOL. 22, NO. 3, 2024 49 MỘT SỐ BẤT ĐẲNG THỨC VỀ LỖI PHÂN LỚP ĐỐI VỚI BÀI TOÁN PHÂN LỚP NHỊ PHÂN SOME INEQUALITIES ON CLASSIFICATION ERRORS FOR BINARY CLASSIFICATION Tôn Thất Tú* Trường Đại học Sư phạm - Đại học Đà Nẵng, Đà Nẵng, Việt Nam1 *Tác giả liên hệ / Corresponding author: tttu@ued.udn.vn (Nhận bài / Received: 10/12/2023; Sửa bài / Revised: 31/01/2024; Chấp nhận đăng / Accepted: 02/02/2024)Tóm tắt - Bài toán phân lớp nhị phân là một bài toán cơ bản trong Abstract - The binary classification problem is a basic problem inbài toán phân lớp thuộc nhóm các thuật toán học có giám sát. the classification problem of the group of supervised learningNgười ta sử dụng một hàm phân loại để gán một điểm dữ liệu với algorithms. One uses a classification function to assign a data pointmột trong 2 lớp đã cho dựa trên một tập dữ liệu khảo sát được đã to one of two given classes based on a labeled collected data set. Thisđược gán nhãn. Hành động này có thể mắc sai lầm nếu việc gán action can be erroneous if the labeling of data points is incorrect.nhãn cho các điểm dữ liệu không chính xác. Có nhiều thuật toán There are many different algorithms that have been studied related tokhác nhau đã được nghiên cứu liên quan đến bài toán phân lớp the binary classification problem. To measure the quality of thenhị phân. Để đo lường chất lượng của hàm phân lớp, người ta đưa classification function, people introduce some concepts about thera một số khái niệm về lỗi mắc phải khi tiến hành phân lớp. Ở bài errors made when performing classification. In this article, the authorbáo này, tác giả nghiên cứu và xây dựng một số bất đẳng thức để researches and builds a number of inequalities to evaluate theđánh giá về lỗi phân lớp trong bài toán phân lớp nhị phân. classification errors in the binary classification problem.Từ khóa - Phân lớp; nhị phân; lỗi phân lớp; bất đẳng thức; học Key words - Classification; binary; classification error;máy thống kê. inequality; statistical machine learning.1. Giới thiệu 1, ( x) 1/ 2 Kí hiệu g * ( x) = Bài toán phân lớp nhị phân là bài toán cơ bản, được nhiều 0, ( x) 1/ 2tác giả nghiên cứu về cách thức tiếp cận cũng như đánh giáchất lượng của các thuật toán [1, 2, 3]. Giả sử ( X , Y ) là một và L* = L( g* ) = P( g* ( X ) Y ).cặp biến ngẫu nhiên nhận giá trị trong Rd {0,1}. Để mô tả Định lý 1. [2] Với mọi hàm phân lớp g : Rd → {0,1}phân phối của ( X , Y ) ta có thể sử dụng cặp giá trị ( , ) , ta luôn có:trong đó là độ đo xác suất sinh bởi biến ngẫu nhiên X P( g* ( X ) Y ) P( g ( X ) Y ),và là hàm hồi quy của Y theo X , tức là tức là g * là hàm phân lớp tối ưu. ( A) = P( X A) với A là tập Borel trên R , d Hàm g * được gọi là hàm phân lớp Bayes và giá trị L* ( x) = P(Y = 1| X = x) = E(Y | X = x), x R . d được gọi là xác suất lỗi Bayes. Một hàm g : Rd → {0,1} được gọi là một hàm phân Với x R ta có dlớp (classifier, decision function) và giá trị P( g ( X ) Y | X = x) = 1- P( g ( X ) = Y | X = x) L( g ) = P ( g ( X ) Y ) = 1-[ P(Y = 1, g ( x) = 1| X = x)được gọi là xác suất lỗi (error probability, misclassification + P(Y = 0, g ( x) = 0 | X = x)]error) của hàm phân lớp g . = 1-[ I{ g ( x ) =1} P(Y = 1| X = x) Để tính được giá trị của L ( g ) ta cần phải biết phân phối ...
Tìm kiếm theo từ khóa liên quan:
Bài toán phân lớp nhị phân Bất đẳng thức về lỗi phân lớp Bài toán phân lớp Các thuật toán học có giám sát Học máy thống kê Bất đẳng thức HoeffdingGợi ý tài liệu liên quan:
-
27 trang 84 0 0
-
47 trang 64 0 0
-
Bài giảng Nhập môn Học máy và Khai phá dữ liệu: Chương 5 - Nguyễn Nhật Quang
24 trang 30 0 0 -
Bài giảng Khai phá dữ liệu: Chương 5 - Trường ĐH Phan Thiết
64 trang 21 0 0 -
Báo cáo môn Học máy thống kê: Stock price prediction
44 trang 20 0 0 -
Thuật toán Nearmiss-SF cho bài toán phân lớp dữ liệu mất cân bằng và có số chiều lớn
7 trang 18 0 0 -
Bài giảng Học máy (IT 4862): Chương 4.1 - Nguyễn Nhật Quang
17 trang 18 0 0 -
Đề tài 'Bài toán phân lớp văn bản và áp dụng phân lớp dữ liệu tài chính ngân hàng'
55 trang 15 0 0 -
Một phương pháp tiến hóa sinh hệ luật mờ cho bài toán phân lớp với ngữ nghĩa thứ tự ngôn ngữ
13 trang 15 0 0 -
Đánh giá một số cách thức tính xác suất spam của Token ứng dụng trong phân loại thư rác
6 trang 14 0 0