Thông tin tài liệu:
Bài viết này sẽ mô hình hóa bộ dữ liệu email bằng một mạng lưới và phân tích hệ thống theo tiếp cận mạng lưới bằng các thuật toán phân cụm K-core và modularity cực đại. Tìm ra các cụm dữ liệu, phân tích tính môđun để tìm ra các tri thức mới. Đây là một kỹ thuật phân tích mới giúp hiểu rõ về kiến trúc hệ thống và hỗ trợ thiết kế quy trình nghiệp vụ.
Nội dung trích xuất từ tài liệu:
Ứng dụng mạng phức hợp trong khai phá dữ liệu tương tác người dùngKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020DOI: 10.15625/vap.2020.00224 ỨNG DỤNG MẠNG PHỨC HỢP TRONG KHAI PHÁ DỮ LIỆU TƢƠNG TÁC NGƢỜI DÙNG Nguyễn Minh Tân1, Trần Tiến Dũng2 1 Trung tâm Thông tin thư viện, Trường Đại học Công nghiệp Hà Nội 2 Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội minhtan@triz.edu.vn, trantd@haui.edu.vn TÓM TẮT: Một hệ thống thông tin quản lý là sản phẩm tin học hóa các quy trình nghiệp vụ của một tổ chức, doanh nghiệp.Bằng việc sử dụng phương pháp mô hình hoá và phân tích hệ thống theo tiếp cận mạng lưới, bài báo phân tích một mạng phức hợpvề dữ liệu tương tác người dùng của hệ thống thông tin quản lý. Dữ liệu là một mạng có hướng gồm 1292 nốt và 968706 cạnh. Kếtquả phân tích thu được 16 môđun, 19 lớp core, số bậc trung bình của mỗi nốt là 19,15, với phương sai = 409,37, độ lệch chuẩn = 20,23, hệ số phân cụm trung bình là 0.482. Từ đó đưa ra phân tích về cấu trúc các môđun, mối liên hệ giữa các môđun cũngnhư đặc điểm của lõi mạng dữ liệu. Chúng tôi phát hiện rằng từ dữ liệu tương tác email có thể xác định được các nhóm chức năngvà cấu trúc tổ chức của một trường đại học bằng thuật toán modularity cực đại. Ngoài ra kết qủa phân tích K-core trên hệ thống cóthể dùng để tham khảo cho việc xếp lương cho người lao động theo từng lớp lõi của hệ thống. Kết quả thu được có thể dùng để thẩmđịnh tính hợp lý của hệ thống và hỗ trợ thiết kế quy trình. Từ khóa: Mạng phức hợp, khai phá đồ thị, tính môđun, K-core, phân bố bậc, hệ số phân cụm. I. MỞ ĐẦU Mạng phức hợp là đồ thị đại diện cho các kết nối phức tạp giữa các yếu tố trong nhiều hệ thống tự nhiên vànhân tạo [1]. Cách tiếp cận mạng lưới không chỉ hữu ích cho việc đơn giản hóa và hình dung số lượng dữ liệu khổng lồmà còn hiệu quả trong việc tìm ra các yếu tố quan trọng nhất và tìm ra các tương tác quan trọng nhất của chúng. Cácứng dụng gần đây của các phương pháp mạng phức hợp bao gồm các lĩnh vực khá đa dạng như khí hậu học, động lựchọc chất lỏng, sinh lý thần kinh, kỹ thuật, và kinh tế từ đó chứng minh được tiềm năng to lớn của mạng lưới thời gianđể giải quyết các vấn đề khoa học đương đại trong thế giới thực [2]. Andor Háznagy và cộng sự sử dụng phương phápmạng phức hợp để phân tích hệ thống giao thông công cộng đô thị của 5 thành phố ở Hungary. Kết quả phân tích chothấy được những đặc điểm tương đồng và khác biệt trong cách tổ chức giao thông, những điểm xung đột, kém hiệu quảtừ đó đề xuất phương án điều phối hoạt động giao thông được hiệu quả [3]. Phân cụm là một kỹ thuật quan trọng trong khai phá dữ liệu. Từ một cơ sở dữ liệu ta nhóm các đối tượng cócùng tính chất với nhau, từ đó ta được các cụm dữ liệu. Việc phân cụm dữ liệu được tiến hành khá sớm trong lĩnh vựcnhân học rồi sau đó được mở rộng sang lĩnh vực tâm lý học bởi Zubin 1938 [4]. Ngày nay kỹ thuật phân cụm được sửdụng phổ biến trong một số hoạt động như: hỗ trợ tiền xử lý dữ liệu, nhận dạng mẫu, phân loại khách hàng, nhận dạngđối tượng, phân đoạn hình ảnh [5]. Trên thực tế các bài toán xử lý dữ liệu thì dữ liệu đầu vào thường có nhiễu, nhiềutác giả đã sử dụng kỹ thuật phân cụm với tập mờ loại 2 để giải quyết vấn đề này [6, 7]. Chúng ta có thể sử dụng kỹthuật phân cụm để khai phá dữ liệu, tìm ra những đặc tính đặc trưng của từng cụm giúp cho việc phát hiện ra tri thứcmới. Đặc biệt ngày nay chúng ta có những bộ dữ liệu siêu lớn như Facebook, Google, Twitter nếu khai thác tốt sẽmang lại rất nhiều tri thức quý giá [8]. Hiện nay đã có nhiều thuật toán phân cụm dữ liệu lớn dựa trên những thuật toánvà ứng dụng khác nhau được áp dụng [9]. Bài báo này sẽ mô hình hoá bộ dữ liệu email bằng một mạng lưới và phân tích hệ thống theo tiếp cận mạng lướibằng các thuật toán phân cụm K-core và modularity cực đại. Tìm ra các cụm dữ liệu, phân tích tính môđun để tìm racác tri thức mới. Đây là một kỹ thuật phân tích mới giúp hiểu rõ về kiến trúc hệ thống và hỗ trợ thiết kế quy trìnhnghiệp vụ. II. DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU ĐẦU2.1. Dữ liệu và xử lý dữ liệu Bài báo khai phá dữ liệu của hệ thống email quản lý hành chính điện tử của Trường Đại học Công nghiệp HàNội (eGov). Tập dữ liệu đơn giản chỉ có 02 trường kiểu văn bản: ID người gửi và ID người nhận giao dịch trongkhoảng thời gian từ 01/01/2015 đến 16/9/2016. ID người gửi/nhận cho biết tên đơn vị cũng như cho phép xác địnhchức năng, nhiệm vụ của đơn vị người gửi/nhận đang công tác. Từ bộ dữ liệu đơn giản này, chúng tôi xâ ...