Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu
Số trang: 119
Loại file: pdf
Dung lượng: 3.16 MB
Lượt xem: 16
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Mục tiêu của luận án đó là nghiên cứu cải tiến một số kỹ thuật rút gọn đặc trưng tiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng. Hướng tiếp cận lựa chọn đặc trưng xác định một tập con đặc trưng tốt nhất có thể từ tập đặc trưng ban đầu mà không làm giảm kết quả phân lớp. Mời các bạn cùng tham khảo đề tài.
Nội dung trích xuất từ tài liệu:
Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệuĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆHà Văn SangNGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌNĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆULUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TINHÀ NỘI – 2018ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆHà Văn SangNGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚTGỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆUChuyên ngành: Hệ thống thông tinMã số: 62.48.01.04LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TINNGƯỜI HƯỚNG DẪN KHOA HỌC:1. PGS. TS. NGUYỄN HÀ NAM2. PGS. TS. NGUYỄN HẢI CHÂUHà Nội – 2018LỜI CAM ĐOANTôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướngdẫn của PGS.TS. Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu tại Bộ môn các Hệthống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại họcQuốc gia Hà nội. Các số liệu và kết quả trình bày trong luận án là trung thực và chưađược công bố trong bất cứ các công trình nào khác trước đây.Tác giảHà Văn SangiLỜI CẢM ƠNLuận án được thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT, TrườngĐại học Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của PGS.TS.Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu.Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Hà Namvà PGS.TS. Nguyễn Hải Châu. Hai Thầy đã tận tụy chỉ dạy, giúp đỡ tôi từ định hướngnghiên cứu đến việc giải quyết những vấn đề khó khăn nhất trong quá trình nghiêncứu. Không chỉ về lĩnh vực nghiên cứu khoa học, các Thầy còn chỉ bảo cho tôi nhiềuđiều trong cuộc sống. Đó là những bài học vô cùng quý giá và hữu ích cho chính bảnthân tôi trong thời gian tới.Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các nhà khoa họctrong khoa CNTT đã truyền đạt cho tôi những kiến thức quý báu và đã tạo điều kiệnthuận lợi cho tôi trong quá trình học tập và nghiên cứu.Tôi xin gửi lời cảm ơn tới các Thầy, Cô giáo ở Bộ môn Tin học Tài chính kếtoán, khoa Hệ thống Thông tin kinh tế, Học viện Tài chính, những người đồng nghiệpđã tạo điều kiện giúp đỡ tôi về mặt thời gian cũng như sắp xếp công việc trong quátrình tôi làm nghiên cứu sinh.Tôi cũng gửi lời cảm ơn tất cả bạn bè, những người đã giúp đỡ và hỗ trợ tôitrong suốt quá trình nghiên cứu.Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ tôi, anh chị em, đặc biệt là vợcủa tôi, những người đã động viên, tạo mọi điều kiện thuận lợi để tôi có thể hoànthành chương trình nghiên cứu sinh của mình.Hà Văn SangHà Nội, 1-12-2017iiTÓM TẮTRút gọn đặc trưng ngày càng được sử dụng rộng rãi nhằm tăng hiệu năng cũngnhư giảm chi phí trong quá trình phân tích dữ liệu. Mục tiêu của việc rút gọn đặctrưng là xác định và giảm bớt đặc trưng của dữ liệu gốc dựa trên việc biến đổi khônggian đặc trưng hoặc lựa chọn những đặc trưng quan trọng, loại bỏ các đặc trưng khôngliên quan, dư thừa nhằm giảm kích thước dữ liệu, từ đó cải thiện hiệu quả, độ chínhxác của các mô hình phân tích dữ liệu. Các kỹ thuật rút gọn đặc trưng đã được ápdụng rộng rãi trong nhiều ứng dụng khác nhau như: cho điểm tín dụng, phân tích dữliệu ung thư, tìm kiếm thông tin, phân lớp văn bản. Tuy nhiên, không tồn tại một kỹthuật rút gọn đặc trưng mà hiệu quả trên mọi miền dữ liệu. Trong luận án này, chúngtôi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ thuật rút gọn đặc trưngnhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có theo hai hướng tiếp cậnlà lựa chọn đặc trưng và trích xuất đặc trưng.Có nhiều cách tiếp cận rút gọn đặc trưng khác nhau đã được giới thiệu, tuynhiên các cách tiếp cận này vẫn tồn tại một số hạn chế khi áp dụng với các miền dữliệu khác nhau. Chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng có tên FRFE(Fast Recursive Feature Elimination) dựa trên hướng tiếp cận đóng gói (wrapper) vớilõi là một thủ tục loại bỏ đặc trưng đệ quy. Để tăng hiệu quả của việc lựa chọn đặctrưng, chúng tôi đã đề xuất một hàm đánh giá (ranking) đặc trưng và thủ tục lựa chọnđặc trưng tương ứng. Hơn nữa, do đặc điểm của phương pháp lựa chọn đặc trưngđóng gói là chi phí tính toán cao, vì vậy chúng tôi đã áp dụng các thư viện xử lý phântán để cải thiện hiệu năng của thuật toán đề xuất. Kết quả thực nghiệm thuật toánFRFE (được viết bằng ngôn ngữ R) trên hai bộ dữ liệu tín dụng Đức và Úc cho thấythuật toán đề xuất đã cải thiện được thời gian chạy so với thuật toán cơ sở và đạt kếtquả khả quan so với các kỹ thuật hiện có.Theo hướng tiếp cận trích xuất đặc trưng, chúng tôi đã đề xuất phương pháptrích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượngđặc trưng dựa trên kỹ thuật hàm nhân PCA. Đóng góp chính của phương pháp đề xuấtiii ...
Nội dung trích xuất từ tài liệu:
Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệuĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆHà Văn SangNGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌNĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆULUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TINHÀ NỘI – 2018ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆHà Văn SangNGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚTGỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆUChuyên ngành: Hệ thống thông tinMã số: 62.48.01.04LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TINNGƯỜI HƯỚNG DẪN KHOA HỌC:1. PGS. TS. NGUYỄN HÀ NAM2. PGS. TS. NGUYỄN HẢI CHÂUHà Nội – 2018LỜI CAM ĐOANTôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướngdẫn của PGS.TS. Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu tại Bộ môn các Hệthống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại họcQuốc gia Hà nội. Các số liệu và kết quả trình bày trong luận án là trung thực và chưađược công bố trong bất cứ các công trình nào khác trước đây.Tác giảHà Văn SangiLỜI CẢM ƠNLuận án được thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT, TrườngĐại học Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của PGS.TS.Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu.Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Hà Namvà PGS.TS. Nguyễn Hải Châu. Hai Thầy đã tận tụy chỉ dạy, giúp đỡ tôi từ định hướngnghiên cứu đến việc giải quyết những vấn đề khó khăn nhất trong quá trình nghiêncứu. Không chỉ về lĩnh vực nghiên cứu khoa học, các Thầy còn chỉ bảo cho tôi nhiềuđiều trong cuộc sống. Đó là những bài học vô cùng quý giá và hữu ích cho chính bảnthân tôi trong thời gian tới.Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các nhà khoa họctrong khoa CNTT đã truyền đạt cho tôi những kiến thức quý báu và đã tạo điều kiệnthuận lợi cho tôi trong quá trình học tập và nghiên cứu.Tôi xin gửi lời cảm ơn tới các Thầy, Cô giáo ở Bộ môn Tin học Tài chính kếtoán, khoa Hệ thống Thông tin kinh tế, Học viện Tài chính, những người đồng nghiệpđã tạo điều kiện giúp đỡ tôi về mặt thời gian cũng như sắp xếp công việc trong quátrình tôi làm nghiên cứu sinh.Tôi cũng gửi lời cảm ơn tất cả bạn bè, những người đã giúp đỡ và hỗ trợ tôitrong suốt quá trình nghiên cứu.Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ tôi, anh chị em, đặc biệt là vợcủa tôi, những người đã động viên, tạo mọi điều kiện thuận lợi để tôi có thể hoànthành chương trình nghiên cứu sinh của mình.Hà Văn SangHà Nội, 1-12-2017iiTÓM TẮTRút gọn đặc trưng ngày càng được sử dụng rộng rãi nhằm tăng hiệu năng cũngnhư giảm chi phí trong quá trình phân tích dữ liệu. Mục tiêu của việc rút gọn đặctrưng là xác định và giảm bớt đặc trưng của dữ liệu gốc dựa trên việc biến đổi khônggian đặc trưng hoặc lựa chọn những đặc trưng quan trọng, loại bỏ các đặc trưng khôngliên quan, dư thừa nhằm giảm kích thước dữ liệu, từ đó cải thiện hiệu quả, độ chínhxác của các mô hình phân tích dữ liệu. Các kỹ thuật rút gọn đặc trưng đã được ápdụng rộng rãi trong nhiều ứng dụng khác nhau như: cho điểm tín dụng, phân tích dữliệu ung thư, tìm kiếm thông tin, phân lớp văn bản. Tuy nhiên, không tồn tại một kỹthuật rút gọn đặc trưng mà hiệu quả trên mọi miền dữ liệu. Trong luận án này, chúngtôi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ thuật rút gọn đặc trưngnhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có theo hai hướng tiếp cậnlà lựa chọn đặc trưng và trích xuất đặc trưng.Có nhiều cách tiếp cận rút gọn đặc trưng khác nhau đã được giới thiệu, tuynhiên các cách tiếp cận này vẫn tồn tại một số hạn chế khi áp dụng với các miền dữliệu khác nhau. Chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng có tên FRFE(Fast Recursive Feature Elimination) dựa trên hướng tiếp cận đóng gói (wrapper) vớilõi là một thủ tục loại bỏ đặc trưng đệ quy. Để tăng hiệu quả của việc lựa chọn đặctrưng, chúng tôi đã đề xuất một hàm đánh giá (ranking) đặc trưng và thủ tục lựa chọnđặc trưng tương ứng. Hơn nữa, do đặc điểm của phương pháp lựa chọn đặc trưngđóng gói là chi phí tính toán cao, vì vậy chúng tôi đã áp dụng các thư viện xử lý phântán để cải thiện hiệu năng của thuật toán đề xuất. Kết quả thực nghiệm thuật toánFRFE (được viết bằng ngôn ngữ R) trên hai bộ dữ liệu tín dụng Đức và Úc cho thấythuật toán đề xuất đã cải thiện được thời gian chạy so với thuật toán cơ sở và đạt kếtquả khả quan so với các kỹ thuật hiện có.Theo hướng tiếp cận trích xuất đặc trưng, chúng tôi đã đề xuất phương pháptrích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượngđặc trưng dựa trên kỹ thuật hàm nhân PCA. Đóng góp chính của phương pháp đề xuấtiii ...
Tìm kiếm theo từ khóa liên quan:
Luận án Tiến sĩ Công nghệ thông tin Kỹ thuật rút gọn Phân lớp dữ liệu Khai phá dữ liệu Trích xuất đặc trưng Rút gọn đặc trưngGợi ý tài liệu liên quan:
-
205 trang 431 0 0
-
52 trang 430 1 0
-
Luận án Tiến sĩ Tài chính - Ngân hàng: Phát triển tín dụng xanh tại ngân hàng thương mại Việt Nam
267 trang 385 1 0 -
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 351 1 0 -
174 trang 335 0 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 314 0 0 -
206 trang 305 2 0
-
74 trang 300 0 0
-
96 trang 293 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 289 0 0