Hồi quy LASSO kết hợp với hồi quy RIDGE trong phân tích kinh tế
Số trang: 11
Loại file: pdf
Dung lượng: 697.17 KB
Lượt xem: 8
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết này thảo luận về hồi quy LASSO và hồi quy RIDGE như là một công cụ thống kê nhằm giải quyết các vấn đề hồi quy như ước lượng tham số, lựa chọn mô hình. Ứng dụng thực nghiệm trong bài báo này là trong phân tích các yếu tố ảnh hưởng đến tiền lương của nhân viên bằng việc sử dụng mô hình tuyến tính theo cả hai phương pháp OLS và LASSO kết hợp với RIDGE.
Nội dung trích xuất từ tài liệu:
Hồi quy LASSO kết hợp với hồi quy RIDGE trong phân tích kinh tế INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 HỒI QUY LASSO KẾT HỢP VỚI HỒI QUY RIDGE TRONG PHÂN TÍCH KINH TẾ LASSO REGRESSION COMBINED WITH RIDGE REGRESSION IN ECONOMIC ANALYSIS Võ Thị Lệ Uyển, Phạm Hoàng Uyên Trường Đại học Kinh tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh uyenvtl@uel.edu.vn TÓM TẮT Trong ước lượng các tham số của mô hình hồi quy, bên cạnh phương pháp OLS, phương pháp LASSO cũng đang được sử dụng rộng rãi với ưu điểm là tính không phụ thuộc vào P value trong quá trình xác định các hệ số thật sự có ý nghĩa thống kê. Bài báo này thảo luận về hồi quy LASSO và hồi quy RIDGE như là một công cụ thống kê nhằm giải quyết các vấn đề hồi quy như ước lượng tham số, lựa chọn mô hình. Ứng dụng thực nghiệm trong bài báo này là trong phân tích các yếu tố ảnh hưởng đến tiền lương của nhân viên bằng việc sử dụng mô hình tuyến tính theo cả hai phương pháp OLS và LASSO kết hợp với RIDGE. Mục tiêu là tìm ra các biến có tác động cao hơn đến tiền lương nhân viên và cho thấy hồi quy LASSO kết hợp với RIDGE là một phương pháp thay thế hiệu quả cho hồi quy OLS mà không phải dùng P-value. Từ khóa: Hồi quy, hồi quy OLS, hồi quy RIDGE, hồi quy LASSO, P-value. ABSTRACT In estimating the parameters of the regression model, besides the OLS method, LASSO method is also widely used with the advantage of being independent of P value in the determination of the actual statistical significant coefficients. This paper discusses LASSO and RIDGE regression as a statistical tool to solve regression problems such as parameter estimation and model selection. The empirical application in this paper is in analyzing the factors affecting employees' salaries by using a linear model with both methods of OLS regression and LASSO in combination with RIDGE. The goal is to find variables that have a higher impact on employee salaries and show that LASSO regression combined with RIDGE is an effective alternative to OLS regression without using P-value. Keywords: Regression, OLS regression, RIDGE regression, LASSO regression, P-value. 1. Giới thiệu Như chúng ta đã biết, trong ước lượng các tham số của mô hình hồi quy bằng phương pháp OLS, để lựa chọn tập hợp các biến độc lập có ảnh hưởng thật sự đến biến phụ thuộc các nhà nghiên cứu thường dùng P-value để ra quyết định. Tuy nhiên, hiện nay việc sử dụng P-value để thực hiện kiểm tra giả thuyết, ở một mức độ nào đó, đã không còn hiệu lực như trong đã đề cập trong [1] và [2]. Bởi vì P-value là một bước tiến lớn trong việc làm cho suy luận thống kê trở nên đáng tin cậy hơn, do đó vẫn có một số lượng lớn các nhà thống kê đang cố gắng 'cứu P-value'. Điều đó sẽ dẫn đến các cuộc nghiên cứu để tìm ra các phương pháp cần thiết khác, không dùng P-value, để thực hiện kiểm tra giả thuyết một cách hợp lý như trong [3]. Bài báo sử dụng một phương pháp mới để ước lượng các tham số trong các mô hình tuyến tính, phương pháp hồi quy LASSO (Least Absolute Shrinkage and Selection Operator) kết hợp với hồi quy RIDGE. Ý tưởng đằng sau mô hình hồi quy LASSO là giả định rằng một số biến giải thích trong hồi quy được liên kết với các tham số bằng 0. Dựa trên ý tưởng đó, các tham số của mô hình hồi quy tuyến tính được ước lượng bằng phương pháp tối thiểu hóa tổng bình phương phần dư với điều kiện ràng buộc là tổng giá trị tuyệt đối của các hệ số nhỏ hơn một hằng số. Vì bản chất của ràng buộc này, phương pháp hồi quy LASSO có xu hướng thu nhỏ các tham số và tạo ra một số các tham số chính xác bằng không và từ đó đưa ra sự lựa chọn chính xác một tập hợp con của các tham số hồi quy mà không cần kiểm định giả thuyết, do đó không cần dùng P-value; đồng thời thể hiện sự ổn định mô hình hồi quy ngay cả trong trường hợp có đa cộng tuyến giữa các biến giải thích. Hơn nữa, cũng vì bản chất của ràng buộc này, bài 1315 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 toán cực trị có ràng buộc này có nghiệm không nhất quán, vì vậy chúng ta không thể chứng minh được LASSO là tốt hơn OLS. Tuy nhiên, dựa trên MSE, về mặt dự báo, chúng ta có thể chứng minh được hồi quy RIDGE là tốt hơn hẳn hồi quy OLS. Hồi quy RIDGE và hồi quy Lasso gần đây đã được sử dụng rộng rãi trong việc lựa chọn mô hình, đặc biệt là trong lý thuyết và ứng dụng của khoa học máy tính. Trong [4] hồi quy RIDGE đã được áp dụng theo cách tiếp cận kết hợp giữa mã hóa homomorhpic và các mạch bị cắt xén Yao. Trong đó, hồi quy RIDGE cũng cho thấy kết quả tốt vượt trội trong việc lựa chọn mô hình khi có sự tồn tại của đa tuyến [5], [6]. Tuy nhiên, hồi quy RIDGE thường được sử dụng khi tất cả các biến giải thích trong mô hình đều có ảnh hưởng đến biến phụ thuộc. Trong trường hợp không gian tìm kiếm có nhiều biến giải thích không liên quan, thì hồi quy LASSO có thể tìm ra và trả về mô hình có chứa các biến quan trọng nhất. Trong [7] bài báo đã thử nghiệm hồi quy LASSO và kết quả đã chỉ ra rằng LASSO có kết quả dự báo được cải thiện hơn rất nhiều. Ngoài ra, trong [8] đã cho thấy hồi quy LASSO hữu ích như thế nào trong việc ước lượng cho các mô hình mạng lưới tâm lý học. Cũng trong [8], bài báo đã chứng minh rằng ước lượng LASSO có thể mang lại một mô hình thưa (SPARSE model) có kết quả hơn hẳn bằng cách sử dụng các tham số tăng theo cấp số nhân trong không gian tìm kiếm đang được điều tra. Vì những lí do trên, chúng tôi đề xuất một phương pháp hồi quy mới là kết hợp giữa LASSO để lựa chọn tập hợp các biến có ảnh hưởng đến biến phụ thuộc và hồi quy RIDGE dựa trên các biến đã lựa chọn để ượ ...
Nội dung trích xuất từ tài liệu:
Hồi quy LASSO kết hợp với hồi quy RIDGE trong phân tích kinh tế INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 HỒI QUY LASSO KẾT HỢP VỚI HỒI QUY RIDGE TRONG PHÂN TÍCH KINH TẾ LASSO REGRESSION COMBINED WITH RIDGE REGRESSION IN ECONOMIC ANALYSIS Võ Thị Lệ Uyển, Phạm Hoàng Uyên Trường Đại học Kinh tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh uyenvtl@uel.edu.vn TÓM TẮT Trong ước lượng các tham số của mô hình hồi quy, bên cạnh phương pháp OLS, phương pháp LASSO cũng đang được sử dụng rộng rãi với ưu điểm là tính không phụ thuộc vào P value trong quá trình xác định các hệ số thật sự có ý nghĩa thống kê. Bài báo này thảo luận về hồi quy LASSO và hồi quy RIDGE như là một công cụ thống kê nhằm giải quyết các vấn đề hồi quy như ước lượng tham số, lựa chọn mô hình. Ứng dụng thực nghiệm trong bài báo này là trong phân tích các yếu tố ảnh hưởng đến tiền lương của nhân viên bằng việc sử dụng mô hình tuyến tính theo cả hai phương pháp OLS và LASSO kết hợp với RIDGE. Mục tiêu là tìm ra các biến có tác động cao hơn đến tiền lương nhân viên và cho thấy hồi quy LASSO kết hợp với RIDGE là một phương pháp thay thế hiệu quả cho hồi quy OLS mà không phải dùng P-value. Từ khóa: Hồi quy, hồi quy OLS, hồi quy RIDGE, hồi quy LASSO, P-value. ABSTRACT In estimating the parameters of the regression model, besides the OLS method, LASSO method is also widely used with the advantage of being independent of P value in the determination of the actual statistical significant coefficients. This paper discusses LASSO and RIDGE regression as a statistical tool to solve regression problems such as parameter estimation and model selection. The empirical application in this paper is in analyzing the factors affecting employees' salaries by using a linear model with both methods of OLS regression and LASSO in combination with RIDGE. The goal is to find variables that have a higher impact on employee salaries and show that LASSO regression combined with RIDGE is an effective alternative to OLS regression without using P-value. Keywords: Regression, OLS regression, RIDGE regression, LASSO regression, P-value. 1. Giới thiệu Như chúng ta đã biết, trong ước lượng các tham số của mô hình hồi quy bằng phương pháp OLS, để lựa chọn tập hợp các biến độc lập có ảnh hưởng thật sự đến biến phụ thuộc các nhà nghiên cứu thường dùng P-value để ra quyết định. Tuy nhiên, hiện nay việc sử dụng P-value để thực hiện kiểm tra giả thuyết, ở một mức độ nào đó, đã không còn hiệu lực như trong đã đề cập trong [1] và [2]. Bởi vì P-value là một bước tiến lớn trong việc làm cho suy luận thống kê trở nên đáng tin cậy hơn, do đó vẫn có một số lượng lớn các nhà thống kê đang cố gắng 'cứu P-value'. Điều đó sẽ dẫn đến các cuộc nghiên cứu để tìm ra các phương pháp cần thiết khác, không dùng P-value, để thực hiện kiểm tra giả thuyết một cách hợp lý như trong [3]. Bài báo sử dụng một phương pháp mới để ước lượng các tham số trong các mô hình tuyến tính, phương pháp hồi quy LASSO (Least Absolute Shrinkage and Selection Operator) kết hợp với hồi quy RIDGE. Ý tưởng đằng sau mô hình hồi quy LASSO là giả định rằng một số biến giải thích trong hồi quy được liên kết với các tham số bằng 0. Dựa trên ý tưởng đó, các tham số của mô hình hồi quy tuyến tính được ước lượng bằng phương pháp tối thiểu hóa tổng bình phương phần dư với điều kiện ràng buộc là tổng giá trị tuyệt đối của các hệ số nhỏ hơn một hằng số. Vì bản chất của ràng buộc này, phương pháp hồi quy LASSO có xu hướng thu nhỏ các tham số và tạo ra một số các tham số chính xác bằng không và từ đó đưa ra sự lựa chọn chính xác một tập hợp con của các tham số hồi quy mà không cần kiểm định giả thuyết, do đó không cần dùng P-value; đồng thời thể hiện sự ổn định mô hình hồi quy ngay cả trong trường hợp có đa cộng tuyến giữa các biến giải thích. Hơn nữa, cũng vì bản chất của ràng buộc này, bài 1315 INTERNATIONAL CONFERENCE FOR YOUNG RESEARCHERS IN ECONOMICS & BUSINESS 2019 ICYREB 2019 toán cực trị có ràng buộc này có nghiệm không nhất quán, vì vậy chúng ta không thể chứng minh được LASSO là tốt hơn OLS. Tuy nhiên, dựa trên MSE, về mặt dự báo, chúng ta có thể chứng minh được hồi quy RIDGE là tốt hơn hẳn hồi quy OLS. Hồi quy RIDGE và hồi quy Lasso gần đây đã được sử dụng rộng rãi trong việc lựa chọn mô hình, đặc biệt là trong lý thuyết và ứng dụng của khoa học máy tính. Trong [4] hồi quy RIDGE đã được áp dụng theo cách tiếp cận kết hợp giữa mã hóa homomorhpic và các mạch bị cắt xén Yao. Trong đó, hồi quy RIDGE cũng cho thấy kết quả tốt vượt trội trong việc lựa chọn mô hình khi có sự tồn tại của đa tuyến [5], [6]. Tuy nhiên, hồi quy RIDGE thường được sử dụng khi tất cả các biến giải thích trong mô hình đều có ảnh hưởng đến biến phụ thuộc. Trong trường hợp không gian tìm kiếm có nhiều biến giải thích không liên quan, thì hồi quy LASSO có thể tìm ra và trả về mô hình có chứa các biến quan trọng nhất. Trong [7] bài báo đã thử nghiệm hồi quy LASSO và kết quả đã chỉ ra rằng LASSO có kết quả dự báo được cải thiện hơn rất nhiều. Ngoài ra, trong [8] đã cho thấy hồi quy LASSO hữu ích như thế nào trong việc ước lượng cho các mô hình mạng lưới tâm lý học. Cũng trong [8], bài báo đã chứng minh rằng ước lượng LASSO có thể mang lại một mô hình thưa (SPARSE model) có kết quả hơn hẳn bằng cách sử dụng các tham số tăng theo cấp số nhân trong không gian tìm kiếm đang được điều tra. Vì những lí do trên, chúng tôi đề xuất một phương pháp hồi quy mới là kết hợp giữa LASSO để lựa chọn tập hợp các biến có ảnh hưởng đến biến phụ thuộc và hồi quy RIDGE dựa trên các biến đã lựa chọn để ượ ...
Tìm kiếm theo từ khóa liên quan:
Mô hình tăng trưởng kinh tế Hồi quy OLS Hồi quy RIDGE Hồi quy LASSO Phân tích kinh tế thị trườngGợi ý tài liệu liên quan:
-
Một số đột phá trong đổi mới mô hình tăng trưởng kinh tế ở Việt Nam
12 trang 128 0 0 -
124 trang 103 0 0
-
346 trang 103 0 0
-
Chủ nghĩa hướng ngoại và ý định mua hàng ngoại của người tiêu dùng đô thị Việt Nam
14 trang 79 1 0 -
9 trang 43 0 0
-
Yếu tố ảnh hưởng đến quyết định đầu tư chứng khoán của nhà đầu tư cá nhân tại thành phố Huế
14 trang 41 2 0 -
Khung hướng dẫn số 4480/BKHĐT-TH 2013
76 trang 40 0 0 -
Giáo trình Kinh tế phát triển: Phần 1 - TS. Đinh Văn Hải
200 trang 38 0 0 -
Các nhân tố tác động đến hành vi gian lận trên thị trường chứng khoán Việt Nam
9 trang 36 0 0 -
21 trang 34 0 0