Bài viết này trình bày một số kỹ thuật liên quan như: thu thập dữ liệu, các phương pháp xử lý và phân tích dữ liệu MXH Twitter. Các dữ liệu thu thập từ mạng xã hội Twitter bao gồm: Thông tin người dùng, thông tin mạng, thông tin người theo dõi và bạn bè, các nội dung Tweets
Nội dung trích xuất từ tài liệu:
Thu thập, xử lý và phân tích dữ liệu mạng xã hội Twitter bằng phương pháp nhúng thông tin nútKỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020DOI: 10.15625/vap.2020.00215 THU THẬP, XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU MẠNG XÃ HỘI TWITTER BẰNG PHƯƠNG PHÁP NHÚNG THÔNG TIN NÚT Phan Đăng Khoa, Vũ Đức Thi Viện Công nghệ Thông tin, Đại học Quốc gia Hà Nội khoapd@vnu.edu.vn, vdthi@vnu.edu.vn TÓM TẮT: Twitter là một mạng xã hội trực tuyến lớn và miễn phí. Việc thu thập, xử lý và phân tích dữ liệu Mạng xã hội(MXH) nói chung và Twitter nói riêng là một lĩnh vực nghiên cứu có ứng dụng rất phong phú, có thể áp dụng vào rất nhiều lĩnh vựctrong đời sống xã hội như: thương mại điện tử, marketing, quảng cáo trực tuyến, văn hóa, chính trị,... Bài báo này trình bày một sốkỹ thuật liên quan như: thu thập dữ liệu, các phương pháp xử lý và phân tích dữ liệu MXH Twitter. Các dữ liệu thu thập từ mạng xãhội Twitter bao gồm: thông tin người dùng, thông tin mạng, thông tin người theo dõi và bạn bè, các nội dung Tweets. Sau đó, chúngtôi thực hiện một số thử nghiệm bằng các kỹ thuật như: node2vec, K-means để xử lý và phân tích dữ liệu thu thập được. Từ khóa: Social Network analysis, network embeddings, node embeddings, Twitter. I. GIỚI THIỆU Twitter là một dịch vụ mạng xã hội trực tuyến miễn phí, nó là một dạng micro-blog cho phép người sử dụngđọc, nhắn và cập nhật các mẩu tin nhỏ gọi là Tweet. Các Tweet có giới hạn tối đa 280 ký tự được lan truyền nhanhchóng trong phạm vi nhóm bạn của người nhắn hoặc có thể được đăng rộng rãi cho mọi người. Không giống như cácnền tảng MXH khác, hầu hết các Tweets của người dùng trên Twitter cũng như thông tin khác liên quan đến ngườidùng đều hoàn toàn công khai và có thể thu thập được. Đây là một đặc điểm thuận thợi để chúng ta có thể thu thập mộtlượng lớn dữ liệu và thực hiện các phân tích với chúng. Twitter API cho phép thực hiện từ các truy vấn đơn giản nhưlấy thông tin và Tweets của một người dùng, đến các truy vấn phức tạp hơn như lấy tất cả các Tweets về một chủ đềnào đó, có chứa một từ khóa nào đó trong một khoảng thời gian nhất định,... Thu thập và phân tích dữ liệu MXH là một chủ đề hiện được nhiều sự quan tâm với nhiều bài toán có tính ứngdụng cao như: phân tích ảnh hưởng, phân tích và dự đoán liên kết, phát hiện cộng đồng, phân tích trạng thái và quanđiểm,…[8]. Bài báo này trình bày một số vấn đề liên quan đến phân tích mạng xã hội như: thu thập dữ liệu, xử lý và phântích dữ liệu MXH Twitter. Cấu trúc của bài báo ngoài phần giới thiệu chung, còn lại gồm các phần: Thu thập dữ liệuTwitter; Xử lý và phân tích dữ liệu Twitter; Thực nghiệm và Kết luận. II. THU THẬP DỮ LIỆU TWITTERA. Cơ chế xác thực mở OAuth Open Authentication (OAuth)1 là một chuẩn mở được sử dụng trong việc xác thực. OAuth thường được sử dụngbởi các công ty như Google, Facebook, Twitter, Amazon, Microsoft,... như một cách để cho phép người dùng của họcấp cho các trang web hoặc ứng dụng khác quyền truy cập vào thông tin của họ mà không cần cung cấp mật khẩu. Việcxác thực cho các yêu cầu đến API của Twitter được thực hiện bằng OAuth.B. Thu thập dữ liệu từ Twitter1. Thông tin người dùng Tên: Donald J. Trump User’s Twitter handle: @realDonaldTrump (screen_name) Vị trí (User’s location): Washington, DC Dòng mô tả về người dùng hoặc sở thích: 45th President of the United States of America Thông tin về hoạt động mạng của người dùng: theo dõi 50 người và có 84.5 triệu người theo dõi Số tweets đã viết: 54,2 nghìn Tweet Ngày tạo profile: tháng 3 năm 2009 Hình 1. Ví dụ hồ sơ người dùng Twitter1 https://oauth.net/2/.578 THU THẬP, XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU MẠNG XÃ HỘI TWITTER BẰNG PHƢƠNG PHÁP NHÚNG… Trên Twitter, mỗi người dùng sẽ tạo hồ sơ (profile) để mô tả về chính b ...