Danh mục

Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả

Số trang: 26      Loại file: pdf      Dung lượng: 633.22 KB      Lượt xem: 7      Lượt tải: 0    
tailieu_vip

Xem trước 3 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục đích nghiên cứu của tóm tắt luận án "Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả" là đề xuất phương pháp cải tiến thuật toán học kết hợp dựa trên lặp thích nghi AdaBoost giải quyết bài toán phân lớp dữ liệu không cân bằng nói chung và bài toán dự đoán đồng tác giả nói riêng; đề xuất một thuật toán điều chỉnh trọng số mờ thích nghi cho bài toán dự đoán cộng tác đồng tác giả theo dạng học trên dữ liệu không cân bằng hai lớp;... Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Hệ thống thông tin: Cải tiến thuật toán phân lớp cho dữ liệu không cân bằng và ứng dụng trong dự đoán đồng tác giả BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI VÕ ĐỨC QUANG CẢI TIẾN THUẬT TOÁN PHÂN LỚP CHO DỮ LIỆU KHÔNG CÂN BẰNG VÀ ỨNG DỤNG TRONG DỰ ĐOÁN ĐỒNG TÁC GIẢ Ngành: Hệ thống thông tin Mã số: 9480104TÓM TẮT LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN HÀ NỘI−2024 Công trình được hoàn thành tại: Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: PGS.TS. Trần Đình Khang Phản biện 1: PGS.TS. Nguyễn Việt Anh Phản biện 2: PGS.TS. Nguyễn Hải Châu Phản biện 3: PGS.TS. Nguyễn Văn LongLuận án được bảo vệ tại Hội đồng đánh giá luận án tiến sĩ cấp Đại học Báchkhoa Hà Nội họp tại Đại học Bách khoa Hà Nội.Vào hồi 8 giờ 30, ngày 23 tháng 04 năm 2024.Có thể tìm hiểu luận án tại:1. Thư viện Tạ Quang Bửu - ĐHBK Hà Nội2. Thư viện Quốc gia Việt Nam. MỞ ĐẦU1. Bối cảnh nghiên cứu Khái niệm mạng đồng tác giả dùng để miêu tả mối quan hệ hợp tác cùng nghiên cứu giữa các nhàkhoa học. Mạng đồng tác giả có thể xem như một mạng xã hội cộng đồng đặc biệt với các nút là cáctác giả, các cạnh thể hiện mối liên kết giữa hai tác giả. Các bài toán phổ biến trong mạng đồng tácgiả gồm: (i) các bài toán truy vấn thông tin như: tìm kiếm, tra cứu tạp chí, bài báo, tác giả, tổ chức,trích dẫn,... (ii) các bài toán dẫn xuất thông tin như: phân tích mối quan hệ học thuật, phân tích xuhướng nghiên cứu, đo lường tầm ảnh hưởng học thuật, đánh giá hiệu quả nghiên cứu và phát triển cáchệ thống dự đoán (bài báo, tạp chí, đồng tác giả,...). Trong thực tế, muốn có các kết quả nghiên cứutốt các nhà nghiên cứu phải tìm kiếm được các cộng sự hợp tác phù hợp. Do đó, việc nghiên cứu cácphương pháp để xây dựng một hệ thống dự đoán cộng tác cùng nghiên cứu, gọi là bài toán dự đoáncộng tác đồng tác giả, trở nên cần thiết và có nhiều ý nghĩa trong việc thúc đẩy các hoạt động nghiêncứu khoa học. Bài toán dự đoán đồng tác giả được phát biểu như sau:Dựa trên thông tin kết nối của mạng đồng tác giả đến thời điểm hiện tại t, khi đưa thông tin đầu vàolà một tác giả vi nào đó, hệ thống sẽ đưa ra một danh sách các tác giả vj , vk , vh , . . . có tiềm năng cộngtác hiệu quả với tác giả vi trong tương lai (tức là có sẽ cộng tác ở một thời điểm t’ nào đó sau t). Để giải quyết bài toán này, có các phương pháp nghiên cứu đề xuất gồm: (i) sử dụng độ đo tươngđồng; (ii) xây dựng các mô hình dựa trên xác suất và khả năng tối đa; (iii) khai phá đồ thị (graphmining); (iv) học máy gồm: phân lớp, phân cụm và học sâu giảm chiều dữ liệu. Trong đó, hướng tiếpcận theo dạng phân lớp thu hút nhiều quan tâm nghiên cứu bởi có nhiều ưu điểm như: tích hợp đa dạngthông tin liên kết, khả năng mở rộng linh hoạt trong việc lựa chọn các giải thuật, khả năng điều chỉnhvà cải thiện mô hình thông qua quá trình huấn luyện,... Để tiếp cận theo hướng này, sau khi xây dựngmạng đồng tác giả, bộ dữ liệu huấn luyện tạo ra từ mạng được gọi là dữ liệu bảng ứng viên. Trong đó,mỗi cặp tác giả ứng viên tiềm năng (vi , vj ) được xem như là một mẫu dữ liệu. Mức độ liên kết hợp táccủa cặp ứng viên được biểu diễn bởi một véc-tơ thuộc tính, được tính bằng các độ đo liên kết. Nhãnlớp được xác định bằng cách khảo sát sự mở rộng liên kết trong mạng theo chiều thời gian. Mạng đồng tác giả được biểu diễn bằng một đồ thị thưa kết nối, do số lượng cặp tác giả có kết nối(cùng đứng tên trong một bài báo) là rất ít, trong khi số lượng cặp ứng viên đồng tác giả chưa cộng tác(cặp ứng viên tiềm năng) là rất nhiều. Vì vậy, dữ liệu bảng ứng viên có rất nhiều mẫu nhãn −1 (khôngliên kết) và rất ít mẫu có nhãn +1 (không liên kết), gây ra sự không cân bằng về số lượng mẫu giữa cáclớp. Điều này gây thách thức cho các giải thuật học máy truyền thống vì các giải thuật này thường xemxét các mẫu bình đẳng nhau, dẫn đến các mô hình phân lớp thường thiên về dự đoán sai các mẫu thiểusố (nhãn +1). Có hai phương pháp thường dùng để giải quyết vấn đề này là: tiếp cận ở mức dữ liệu vàtiếp cận ở mức giải thuật. Các phương pháp tiếp cận ở mức dữ liệu thay đổi sự phân bố số lượng mẫutrong bộ dữ liệu (resampling) bằng cách sinh thêm các phần tử cho lớp thiểu số (over sampling) haygiảm bớt các phần tử thuộc lớp đa số (under sampling). Các phương pháp tiếp cận ở mức giải thuậthướng tới việc điều chỉnh các thuật toán phân lớp cơ bản để vẫn có hiệu quả cao trên các tập dữ liệukhông cân bằng như: học nhạy cảm chi phí, điều chỉnh xác suất ước lượng, sử dụng các hằng số phạtcho các nhãn lớp khác nhau. Một số nghiên cứu khác sử dụng kết hợp các kỹ thuật sampling và điềuchỉnh trọng số chi phí để nâng cao chất lượng mô hình huấn luyện. Gần đây, luận án Tiến sĩ của Phạm Minh Chuẩn (2018) cũng tiếp cận giải quyết bài toán dự đoánđồng tác giả theo hướng phân lớp, trong đó đề xuất các độ đo liên kết mới để bổ sung thêm các đặctrưng của dữ liệu nhằm nâng cao chất lượng phân lớp của mô hình. Bên cạnh đó luận án có nêu ra vấnđề dữ liệu rất không cân bằng về nhãn lớp trong bảng ứng viên. Tiếp nối nghiên cứu này, kết hợp vớikhảo sát các nghiên cứu gần đây, chúng tôi nhận thấy các công bố nghiên cứu vấn đề học máy trên dữliệu không cân bằng để khắc phục đặc điểm này của bộ dữ liệu đồng tác giả hầu như rất hạn chế. Điềunày mở ra hướng nghiên cứu tiềm năng về các phương pháp cải tiến giải thuật, điều chỉnh các tham sốmô hình để cải thiện chất lượng các mô hình dự đoán trong khung cảnh dữ liệu bảng ứng viên đồng tácgiả có sự không cân bằng về nhãn lớp. Bên cạnh vấn đề dữ liệu không cân bằng về số lượng mẫu trongcác lớp, để nâng cao chất lượng mô hình phân lớp là cần xử lý tốt việc phân loại chính xác trong các 1vùng không gian nhạy cả ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: