Vấn đề phân loại đa nhãn cho đồ thị
Số trang: 8
Loại file: pdf
Dung lượng: 679.63 KB
Lượt xem: 22
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng hạn như các cấu trúc hóa học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị..
Nội dung trích xuất từ tài liệu:
Vấn đề phân loại đa nhãn cho đồ thị Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00074 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ Hoàng Minh Quang1, Nguyễn Ngọc Cương2 1 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. 2 Cục Công nghệ thông tin - Bộ Công An. TÓM TẮT: Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt trong bối cảnh dữ liệu ngày càng tăng nhanh chóng và kiểu dữ liệu ngày càng đa dạng do được thu thập từ nhiều nguồn thông tin khác nhau. Phân loại hay phân lớp dữ liệu là một kỹ thuật chính yếu trong lĩnh vực học máy. Với sự tăng trưởng dữ liệu nhanh chóng và đa dạng kiểu dữ liệu, phân loại đa nhãn đang trở thành một xu thế mới do bản chất vấn đề phân loại dữ liệu thường là đa nhãn chẳng hạn như đối với âm thanh thì một bài nhạc có thể được phân vào nhiều nhãn cảm xúc đồng thời, hay một hình ảnh có thể được phân vào nhiều nhãn đồng thời như động vật, tự nhiên, hoang dã,... Tuy nhiên, phân loại đa nhãn phải có một độ tin cậy nhất định vì một bức ảnh rộng chỉ chứa vài cây cỏ cũng có thể được phân vào nhãn hoang dã. Hầu hết các công trình phân loại đa nhãn đều áp dụng trên cấu trúc dữ liệu biểu diễn dạng vecto, trong bài báo này chúng tôi đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng hạn như các cấu trúc hoá học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị.. Từ khóa: Khai phá dữ liệu, đồ thị con thường xuyên, khai phá đồ thị, phân loại đồ thị, phân loại đa nhãn, phân loại đa nhãn cho đồ thị. I. GIỚI THIỆU Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt là những dữ liệu rất lớn mà các thuật toán tìm kiếm chính xác không khả thi do độ phức tạp tính toán thuộc lớp NP-đầy đủ. Các dữ liệu ngày càng đa dạng về mặt cấu trúc, các phương pháp khai phá dữ liệu trên bảng gặp nhiều khó khăn như dữ liệu cấu trúc tế bào, cấu trúc mạng nơron, cấu trúc protein, v.v... Để giải quyết các vấn đề này các nhà khoa học đã áp dụng biểu diễn dữ liệu cấu trúc đồ thị, cây, dàn giao và áp dụng các phương pháp khai phá dữ liệu hiện có với các loại biểu diễn dữ liệu khác lên các biểu diễn dữ liệu đồ thị. Học máy áp dụng trên đồ thị là một hướng đi đúng đắn cho xu thế dữ liệu đa dạng và phức tạp ngày nay. Do tính chất đa dạng của dữ liệu và đa dạng các mục tiêu, các phương pháp phân lớp dữ liệu trong học máy dần chuyển từ phân loại đơn nhãn sang phân loại đa nhãn. Tuy nhiên để áp dụng phân loại đa nhãn cho đồ thị là khá khó khăn vì bản chất biểu diễn dữ liệu đồ thị khó có thể chuyển đổi về biểu diễn vectơ để áp dụng các thuật toán phân loại đa nhãn. Các công nghệ thu thập dữ liệu ngày càng được cải tiến, nhiều lĩnh vực ứng dụng phải đối mới với dữ liệu đa dạng và đa cấu trúc như cấu trúc hóa học, cấu trúc luồng chương trình, tài liệu XML, web... Khác với dữ liệu truyền thống trong không gian đặc trưng, các dữ liệu này không thể biểu diễn dưới dạng vecto mà chỉ có thể biểu diễn dưới dạng đồ thị dẫn đến một thách thức cơ bản của khai phá dữ liệu đồ thị là thiếu biểu diễn vecto [11]. Một mô hình hiệu quả cho dữ liệu đồ thị có thể trích xuất và tìm các tập đồ thị con đặc trưng để thực hiện phân tích hoặc quản lý. Những thách thức này thúc đẩy các vấn đề nghiên cứu khai phá đồ thị đặc biệt là phân loại đồ thị đã nhận được sự quan tâm đáng kể trong thập niên gần đây. Phân loại dữ liệu được nghiên cứu rộng rãi. Hầu hết các phương pháp phân loại này đều tập trung vào phân loại đơn nhãn. Tuy nhiên, nhiều lĩnh vực trong cuộc sống đòi hỏi các đối tượng phải được gán nhiều nhãn như ảnh, nhạc, gen, web. Không thể phủ nhận vai trò của phân loại đa nhãn trong việc giải quyết nhiều vấn đề quan trọng trong cuộc sống hiện đại. Phân loại đa nhãn giải quyết vấn đề gán một tập các nhãn cho mọi đối tượng trong một tập hợp dữ liệu. Tức là, mỗi đối tượng trong một tập dữ liệu có thể được gán đồng thời nhiều nhãn. Ví dụ, trong nhiều trang thương mại điện tử, có hàng tỉ đoạn quảng cáo, mỗi cái đều gắn nhiều thẻ, có sẵn cho mọi người tìm kiếm và phân tích. Có hàng tỉ thẻ như vậy trên mạng toàn cầu. Làm cách nào Google đưa ra cho ta câu trả lời thỏa mãn hầu hết các tìm kiếm. Rõ ràng là học đa nhãn là một vấn đề nghiên cứu quan trọng để tìm ra kết quả tốt nhất về năng suất và hiệu quả. Vấn đề phân loại đơn nhãn là loại trừ lẫn nhau các nhãn. Cho X là miền của các đối tượng và Y là tập các nhãn, H tập các hàm hàm phân loại cho X Y. Mục tiêu là tìm hàm phân loại h ∊ H có khả năng tối đa h(x) = y với y ∊ Y là nhãn xác thực của x. Với phân loại đa nhãn, các lớp cơ bản là không loại trừ lẫn nhau có thể chồng đè lên nhau. Cho B là tập các vecto nhị phân có độ dài |Y|. H là tập các hàm phân loại của X B. Mục tiêu là tìm hàm phân loại h ∊ H mà tối thiểu một khoảng cách (ví dụ Hamming) giữa h(x) và bx cho một đối tượng mới x. Trong một phương pháp xác suất, mục tiêu phân loại đối tượng x là để tìm một hoặc nhiều nhãn lớp cơ sở trong một tập nhãn C với một ngưỡng T mà P(c|x) > T, ∀ c ∊ C. Thông thường nhất, các tiếp cận hợp nhất đơn giản, như lấy số đông, lớn nhất và trung bình được sử dụng. Lý thuyết Dempster Shafer là một khung hợp nhất các hàm phân loại dựa trên luật của Dempster tăng độ chính xác trong phân lớp. Áp dụng lý thuyết Dempster Shafer [3] để phân loại đa nhãn cho đồ thị tăng độ chính xác trong phân loại và giảm độ phức tạp. Denoeux đã giới thiệu phân loại đa nhãn áp dụng lý thuyết Dempster như [4, 5, 6] đã đề xuất một phương pháp đề giảm độ phức tạp tính toán tro ...
Nội dung trích xuất từ tài liệu:
Vấn đề phân loại đa nhãn cho đồ thị Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00074 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ Hoàng Minh Quang1, Nguyễn Ngọc Cương2 1 Viện Công nghệ thông tin, Viện Hàn lâm Khoa học và Công nghệ Việt Nam. 2 Cục Công nghệ thông tin - Bộ Công An. TÓM TẮT: Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt trong bối cảnh dữ liệu ngày càng tăng nhanh chóng và kiểu dữ liệu ngày càng đa dạng do được thu thập từ nhiều nguồn thông tin khác nhau. Phân loại hay phân lớp dữ liệu là một kỹ thuật chính yếu trong lĩnh vực học máy. Với sự tăng trưởng dữ liệu nhanh chóng và đa dạng kiểu dữ liệu, phân loại đa nhãn đang trở thành một xu thế mới do bản chất vấn đề phân loại dữ liệu thường là đa nhãn chẳng hạn như đối với âm thanh thì một bài nhạc có thể được phân vào nhiều nhãn cảm xúc đồng thời, hay một hình ảnh có thể được phân vào nhiều nhãn đồng thời như động vật, tự nhiên, hoang dã,... Tuy nhiên, phân loại đa nhãn phải có một độ tin cậy nhất định vì một bức ảnh rộng chỉ chứa vài cây cỏ cũng có thể được phân vào nhãn hoang dã. Hầu hết các công trình phân loại đa nhãn đều áp dụng trên cấu trúc dữ liệu biểu diễn dạng vecto, trong bài báo này chúng tôi đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng hạn như các cấu trúc hoá học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị.. Từ khóa: Khai phá dữ liệu, đồ thị con thường xuyên, khai phá đồ thị, phân loại đồ thị, phân loại đa nhãn, phân loại đa nhãn cho đồ thị. I. GIỚI THIỆU Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt là những dữ liệu rất lớn mà các thuật toán tìm kiếm chính xác không khả thi do độ phức tạp tính toán thuộc lớp NP-đầy đủ. Các dữ liệu ngày càng đa dạng về mặt cấu trúc, các phương pháp khai phá dữ liệu trên bảng gặp nhiều khó khăn như dữ liệu cấu trúc tế bào, cấu trúc mạng nơron, cấu trúc protein, v.v... Để giải quyết các vấn đề này các nhà khoa học đã áp dụng biểu diễn dữ liệu cấu trúc đồ thị, cây, dàn giao và áp dụng các phương pháp khai phá dữ liệu hiện có với các loại biểu diễn dữ liệu khác lên các biểu diễn dữ liệu đồ thị. Học máy áp dụng trên đồ thị là một hướng đi đúng đắn cho xu thế dữ liệu đa dạng và phức tạp ngày nay. Do tính chất đa dạng của dữ liệu và đa dạng các mục tiêu, các phương pháp phân lớp dữ liệu trong học máy dần chuyển từ phân loại đơn nhãn sang phân loại đa nhãn. Tuy nhiên để áp dụng phân loại đa nhãn cho đồ thị là khá khó khăn vì bản chất biểu diễn dữ liệu đồ thị khó có thể chuyển đổi về biểu diễn vectơ để áp dụng các thuật toán phân loại đa nhãn. Các công nghệ thu thập dữ liệu ngày càng được cải tiến, nhiều lĩnh vực ứng dụng phải đối mới với dữ liệu đa dạng và đa cấu trúc như cấu trúc hóa học, cấu trúc luồng chương trình, tài liệu XML, web... Khác với dữ liệu truyền thống trong không gian đặc trưng, các dữ liệu này không thể biểu diễn dưới dạng vecto mà chỉ có thể biểu diễn dưới dạng đồ thị dẫn đến một thách thức cơ bản của khai phá dữ liệu đồ thị là thiếu biểu diễn vecto [11]. Một mô hình hiệu quả cho dữ liệu đồ thị có thể trích xuất và tìm các tập đồ thị con đặc trưng để thực hiện phân tích hoặc quản lý. Những thách thức này thúc đẩy các vấn đề nghiên cứu khai phá đồ thị đặc biệt là phân loại đồ thị đã nhận được sự quan tâm đáng kể trong thập niên gần đây. Phân loại dữ liệu được nghiên cứu rộng rãi. Hầu hết các phương pháp phân loại này đều tập trung vào phân loại đơn nhãn. Tuy nhiên, nhiều lĩnh vực trong cuộc sống đòi hỏi các đối tượng phải được gán nhiều nhãn như ảnh, nhạc, gen, web. Không thể phủ nhận vai trò của phân loại đa nhãn trong việc giải quyết nhiều vấn đề quan trọng trong cuộc sống hiện đại. Phân loại đa nhãn giải quyết vấn đề gán một tập các nhãn cho mọi đối tượng trong một tập hợp dữ liệu. Tức là, mỗi đối tượng trong một tập dữ liệu có thể được gán đồng thời nhiều nhãn. Ví dụ, trong nhiều trang thương mại điện tử, có hàng tỉ đoạn quảng cáo, mỗi cái đều gắn nhiều thẻ, có sẵn cho mọi người tìm kiếm và phân tích. Có hàng tỉ thẻ như vậy trên mạng toàn cầu. Làm cách nào Google đưa ra cho ta câu trả lời thỏa mãn hầu hết các tìm kiếm. Rõ ràng là học đa nhãn là một vấn đề nghiên cứu quan trọng để tìm ra kết quả tốt nhất về năng suất và hiệu quả. Vấn đề phân loại đơn nhãn là loại trừ lẫn nhau các nhãn. Cho X là miền của các đối tượng và Y là tập các nhãn, H tập các hàm hàm phân loại cho X Y. Mục tiêu là tìm hàm phân loại h ∊ H có khả năng tối đa h(x) = y với y ∊ Y là nhãn xác thực của x. Với phân loại đa nhãn, các lớp cơ bản là không loại trừ lẫn nhau có thể chồng đè lên nhau. Cho B là tập các vecto nhị phân có độ dài |Y|. H là tập các hàm phân loại của X B. Mục tiêu là tìm hàm phân loại h ∊ H mà tối thiểu một khoảng cách (ví dụ Hamming) giữa h(x) và bx cho một đối tượng mới x. Trong một phương pháp xác suất, mục tiêu phân loại đối tượng x là để tìm một hoặc nhiều nhãn lớp cơ sở trong một tập nhãn C với một ngưỡng T mà P(c|x) > T, ∀ c ∊ C. Thông thường nhất, các tiếp cận hợp nhất đơn giản, như lấy số đông, lớn nhất và trung bình được sử dụng. Lý thuyết Dempster Shafer là một khung hợp nhất các hàm phân loại dựa trên luật của Dempster tăng độ chính xác trong phân lớp. Áp dụng lý thuyết Dempster Shafer [3] để phân loại đa nhãn cho đồ thị tăng độ chính xác trong phân loại và giảm độ phức tạp. Denoeux đã giới thiệu phân loại đa nhãn áp dụng lý thuyết Dempster như [4, 5, 6] đã đề xuất một phương pháp đề giảm độ phức tạp tính toán tro ...
Tìm kiếm theo từ khóa liên quan:
Khai phá dữ liệu Đồ thị con thường xuyên Khai phá đồ thị Phân loại đồ thị Phân loại đa nhãn Phân loại đa nhãn cho đồ thịGợi ý tài liệu liên quan:
-
Bài tập lớn môn Khai phá dữ liệu: Phân lớp dữ liệu số bằng giải thuật K-NN
22 trang 350 1 0 -
Ứng dụng khai phá dữ liệu nâng cao dịch vụ thư viện số
16 trang 229 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 219 0 0 -
Luận văn: Tổng quan khai phá dữ liệu và ứng dụng
55 trang 167 0 0 -
8 trang 131 0 0
-
4 trang 114 0 0
-
Bài giảng Lý thuyết đồ thị: Chương 1 - Tôn Quang Toại
37 trang 45 0 0 -
Bài giảng Khai phá dữ liệu: Chương 5 - TS. Võ Thị Ngọc Châu
116 trang 45 0 0 -
68 trang 44 0 0
-
Bài giảng Khai phá dữ liệu (Data mining): Chương 8 - ĐH Bách khoa TP.HCM
8 trang 44 0 0