![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng
Số trang: 27
Loại file: pdf
Dung lượng: 1.47 MB
Lượt xem: 17
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận án tập trung vào chủ đề nghiên cứu phân lớp đa nhãn, tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, các phương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyết những vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn. Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụng vào phân lớp văn bản tiếng Việt.
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụngĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆPHẠM THỊ NGÂNNGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢNVÀ ỨNG DỤNGChuyên ngành: Hệ thống thông tinMã số: 62.48.01.04TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TINHà Nội – 2017Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đạihọc Quốc gia Hà NộiNgười hướng dẫn khoa học: PGS. TS. Hà Quang ThụyPGS.TS. Phan Xuân HiếuPhản biện: PGS. TS Lương Chi Mai...........................Viện CNTT, Viện Hàn lâm KH&CNVN........................Phản biện: PGS.TS Đỗ Văn Thành .............................Bộ Kế hoạch và Đầu tư ...................................................Phản biện: TS. Nguyễn Thị Minh Huyền ...................Trường Đại học Khoa học Tự nhiên, ĐHQGHN............Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc giachấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHNvào hồi 09 giờ ngày 12 tháng 12 năm 2017Có thể tìm hiểu luận án tại:-Thư viện Quốc gia Việt Nam-Trung tâm Thông tin - Thư viện, Đại học Quốc gia HàMỞ ĐẦUTính cấp thiết của luận ánPhân lớp là một trong những bài toán điển hình trong khai phádữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực củađời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớpđược tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớpđơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tớiphân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyềnthống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phânlớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứngvới nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đathể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiệnvà các thể hiện này tương ứng với nhiều nhãn.Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phươngpháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đanhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuậttoán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phânlớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộngđồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như cácnhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộngsự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, SebastiánVentura Soto và cộng sự, v.v.Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, cácphương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyếtnhững vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.1Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụngvào phân lớp văn bản tiếng Việt.Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khaithác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toánMULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiếnlược tham lam khi tích hợp hai thuật toán LIFT và TESC .Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đanhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai tháccác thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản vàmô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữnghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình.Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãnvăn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn baogồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] vàmô hình hệ tư vấn xã hội đề xuất trong [PTNgan2].Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toánvà mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang webtiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp mộtnghiên cứu tổng quan về học máy đa nhãn.Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp mộtkhung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án.Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớpđa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồmphương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá.Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua haibài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt.2Hình 0.1 Phân bố các chủ đề trong các chương của luận ánChương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đanhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảngcách kết hợp với mô hình LDA.Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bángiám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm.Chương 1TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đathể hiệnMục này cung cấ ...
Nội dung trích xuất từ tài liệu:
Tóm tắt Luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụngĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆPHẠM THỊ NGÂNNGHIÊN CỨU CẢI TIẾN PHÂN LỚP ĐA NHÃN VĂN BẢNVÀ ỨNG DỤNGChuyên ngành: Hệ thống thông tinMã số: 62.48.01.04TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TINHà Nội – 2017Công trình được hoàn thành tại: Trường Đại học Công nghệ, Đạihọc Quốc gia Hà NộiNgười hướng dẫn khoa học: PGS. TS. Hà Quang ThụyPGS.TS. Phan Xuân HiếuPhản biện: PGS. TS Lương Chi Mai...........................Viện CNTT, Viện Hàn lâm KH&CNVN........................Phản biện: PGS.TS Đỗ Văn Thành .............................Bộ Kế hoạch và Đầu tư ...................................................Phản biện: TS. Nguyễn Thị Minh Huyền ...................Trường Đại học Khoa học Tự nhiên, ĐHQGHN............Luận án được bảo vệ trước Hội đồng cấp Đại học Quốc giachấm luận án tiến sĩ họp tại Đại học Công nghệ, ĐHQGHNvào hồi 09 giờ ngày 12 tháng 12 năm 2017Có thể tìm hiểu luận án tại:-Thư viện Quốc gia Việt Nam-Trung tâm Thông tin - Thư viện, Đại học Quốc gia HàMỞ ĐẦUTính cấp thiết của luận ánPhân lớp là một trong những bài toán điển hình trong khai phádữ liệu; ứng dụng của phân lớp xuất hiện trong rất nhiều lĩnh vực củađời sống. Tính ứng dụng cao của phân lớp làm cho bài toán phân lớpđược tiến hóa từ đơn giản tới phức tạp hơn theo hướng từ phân lớpđơn nhãn tới phân lớp đa nhãn hoặc phân lớp đa thể hiện, và cho tớiphân lớp đa nhãn đa thể hiện. Phân lớp đơn nhãn (phân lớp truyềnthống) quy ước mỗi đối tượng dữ liệu có duy nhất một nhãn. Phânlớp đa nhãn quy ước mỗi đối tượng dữ liệu có thể có hơn một nhãn.Phân lớp đa thể hiện quy ước một đối tượng dữ liệu có thể tương ứngvới nhiều thể hiện và tương ứng với một nhãn. Phân lớp đa nhãn đathể hiện quy ước một đối tượng dữ liệu tương ứng với nhiều thể hiệnvà các thể hiện này tương ứng với nhiều nhãn.Phân lớp đa nhãn đòi hỏi những tiến hóa mới đối với các phươngpháp học máy cho các giải pháp thích hợp với các phần tử dữ liệu đanhãn như vấn đề mối quan hệ giữa các nhãn, chi phí tính toán của thuậttoán, vấn đề mất cân bằng nhãn, vấn đề đa chiều của dữ liệu... Phânlớp đa nhãn là một chủ đề nghiên cứu, triển khai cuốn hút một cộngđồng nghiên cứu rộng rãi với một số nhóm nghiên cứu nổi bật như cácnhóm nghiên cứu của Zhi-Hua Zhou, Min-Ling Zhang và cộngsự, Ioannis P. Vlahavas, Grigorios Tsoumakas và cộng sự, SebastiánVentura Soto và cộng sự, v.v.Luận án này tập trung vào chủ đề nghiên cứu phân lớp đa nhãn,tiếp nối những nghiên cứu trước đó về bài toán phân lớp đa nhãn, cácphương pháp biểu diễn dữ liệu, lựa chọn đặc trưng và tiếp tục giải quyếtnhững vấn đề còn tồn tại liên quan đến bài toán phân lớp đa nhãn.1Luận án tập trung nghiên cứu về phân lớp đa nhãn và ứng dụngvào phân lớp văn bản tiếng Việt.Thứ nhất, luận án đề nghị một thuật toán phân lớp đa nhãn khaithác đặc trưng riêng biệt dựa trên phân cụm bán giám sát (Thuật toánMULTICS [PTNgan5], [PTNgan6]) trên cơ sở áp dụng một chiếnlược tham lam khi tích hợp hai thuật toán LIFT và TESC .Thứ hai, luận án đề nghị hai mô hình biểu diễn dữ liệu cho phân lớp đanhãn là mô hình biểu diễn dữ liệu đồ thị khoảng cách [PTNgan4] khai tháccác thông tin bậc cao về trật tự và khoảng cách đặc trưng trong văn bản vàmô hình biểu diễn dữ liệu chủ đề ẩn [PTNgan3] khai thác các thông tin ngữnghĩa ẩn trong văn bản làm giàu thêm các đặc trưng cho mô hình.Đồng thời, luận án cũng đề xuất hai mô hình phân lớp đơn nhãnvăn bản tiếng Việt tương ứng với hai bài toán ứng dụng thực tiễn baogồm mô hình gán nhãn thực thể có tên đề xuất trong [PTNgan1] vàmô hình hệ tư vấn xã hội đề xuất trong [PTNgan2].Luận án cũng thực thi các thực nghiệm kiểm chứng các thuật toánvà mô hình đề xuất. Dữ liệu thực nghiệm được thu thập từ các trang webtiếng Việt liên quan tới miền ứng dụng. Luận án cũng cung cấp mộtnghiên cứu tổng quan về học máy đa nhãn.Bố cục của luận án gồm phần mở đầu và bốn chương nội dung,phần kết luận và danh mục tài liệu tham khảo. Hình 0.1 cung cấp mộtkhung nhìn sơ bộ về phân bố các chủ đề trong bốn chương của luận án.Chương 1 cung cấp một khái quát từ phân lớp đơn nhãn tới phân lớpđa nhãn; tập trung vào các vấn đề cơ bản của học đa nhãn bao gồmphương pháp tiếp cận, rút gọn đặc trưng; độ đo và phương pháp đánh giá.Chương 2 đề xuất hai mô hình phân lớp đơn nhãn thông qua haibài toán là gán nhãn thực thể có tên và hệ tư vấn xã hội tiếng Việt.2Hình 0.1 Phân bố các chủ đề trong các chương của luận ánChương 3 đề xuất hai mô hình biểu diễn dữ liệu cho phân lớp đanhãn: sử dụng mô hình chủ đề ẩn LDA và mô hình đồ thị khoảngcách kết hợp với mô hình LDA.Chương 4 phân tích và đề xuất một tiếp cận phân lớp đa nhãn bángiám sát với đặc trưng riêng biệt dựa trên kỹ thuật phân cụm.Chương 1TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN1.1. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đathể hiệnMục này cung cấ ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Công nghệ thông tin Phân lớp đa nhãn văn bản Bài toán phân lớp đa nhãn Mô hình phân lớp đơn nhãnTài liệu liên quan:
-
52 trang 439 1 0
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 368 5 0 -
97 trang 336 0 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 329 0 0 -
97 trang 322 0 0
-
74 trang 310 0 0
-
96 trang 305 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 305 0 0 -
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 299 0 0 -
155 trang 297 0 0