Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng tóm tắt
Số trang: 27
Loại file: pdf
Dung lượng: 1.47 MB
Lượt xem: 14
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng tóm tắt ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂNNGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đạihọc Quốc gia Hà NộiNgười hướng dẫn khoa học: PGS. TS. Hà Quang Thụy PGS.TS. Phan Xuân Hiếu Phản biện: PGS. TS Lương Chi Mai........................... Viện CNTT, Viện Hàn lâm KH&CNVN........................ Phản biện: PGS.TS Đỗ Văn Thành ............................. Bộ Kế hoạch và Đầu tư ................................................... Phản biện: TS. Nguyễn Thị Minh Huyền ................... Trường Đại học Khoa học Tự nhiên, ĐHQGHN............ Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHNvào hồi 09 giờ ngày 12 tháng 12 năm 2017 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà MỞ ĐẦUTính cấp thiết của luận án Phân lớp là một trong những bài toán điển hình trong khai phádữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực củađời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớpđược tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớpđơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tớiphân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyềnthống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phânlớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứngvới nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đathể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiệnvà các thể hiện này tương ứng với nhiều nhãn. Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phươngpháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đanhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuậttoán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phânlớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộngđồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như cácnhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộngsự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, SebastiánVentura Soto và cộng sự, v.v. Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, cácphương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyếtnhững vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn. 1 Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụngvào phân lớp văn bản tiếng Việt. Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khaithác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toánMULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiếnlược tham lam khi tích hợp hai thuật toán LIFT và TESC . Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đanhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai tháccác thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản vàmô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữnghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình. Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãnvăn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn baogồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] vàmô hình hệ tư vấn xã hội đề xuất trong [PTNgan2]. Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toánvà mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang webtiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp mộtnghiên cứu tổng quan về học máy đa nhãn. Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp mộtkhung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án. Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớpđa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồmphương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá. Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua haibài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt. 2 Hình 0.1 Phân bố các chủ đề trong các chương của luận án ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng tóm tắt ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ NGÂNNGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢN VÀ ỨNG DỤNG Chuyên ngành: Hệ thống thông tin Mã số: 62.48.01.04TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2017Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đạihọc Quốc gia Hà NộiNgười hướng dẫn khoa học: PGS. TS. Hà Quang Thụy PGS.TS. Phan Xuân Hiếu Phản biện: PGS. TS Lương Chi Mai........................... Viện CNTT, Viện Hàn lâm KH&CNVN........................ Phản biện: PGS.TS Đỗ Văn Thành ............................. Bộ Kế hoạch và Đầu tư ................................................... Phản biện: TS. Nguyễn Thị Minh Huyền ................... Trường Đại học Khoa học Tự nhiên, ĐHQGHN............ Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc gia chấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHNvào hồi 09 giờ ngày 12 tháng 12 năm 2017 Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Trung tâm Thông tin - Thư viện, Đại học Quốc gia Hà MỞ ĐẦUTính cấp thiết của luận án Phân lớp là một trong những bài toán điển hình trong khai phádữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực củađời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớpđược tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớpđơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tớiphân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyềnthống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phânlớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứngvới nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đathể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiệnvà các thể hiện này tương ứng với nhiều nhãn. Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phươngpháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đanhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuậttoán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phânlớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộngđồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như cácnhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộngsự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, SebastiánVentura Soto và cộng sự, v.v. Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, cácphương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyếtnhững vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn. 1 Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụngvào phân lớp văn bản tiếng Việt. Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khaithác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toánMULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiếnlược tham lam khi tích hợp hai thuật toán LIFT và TESC . Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đanhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai tháccác thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản vàmô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữnghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình. Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãnvăn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn baogồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] vàmô hình hệ tư vấn xã hội đề xuất trong [PTNgan2]. Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toánvà mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang webtiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp mộtnghiên cứu tổng quan về học máy đa nhãn. Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp mộtkhung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án. Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớpđa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồmphương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá. Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua haibài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt. 2 Hình 0.1 Phân bố các chủ đề trong các chương của luận án ...
Tìm kiếm theo từ khóa liên quan:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin Phân lớp đa nhãn văn bản Bài toán phân lớp đa nhãn Phương pháp biểu diễn dữ liệu Biểu diễn dữ liệuGợi ý tài liệu liên quan:
-
52 trang 431 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 316 0 0 -
74 trang 302 0 0
-
96 trang 293 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 289 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 281 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 275 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 269 1 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 265 0 0 -
64 trang 263 0 0