Danh mục

Đánh giá một số phương pháp Machine Learning và Deep learning trong phát hiện tin giả

Số trang: 10      Loại file: pdf      Dung lượng: 690.72 KB      Lượt xem: 16      Lượt tải: 0    
10.10.2023

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Mục đích đề tài nhằm đánh giá phân loại tin thật và tin giả đã được thực hiện từ nhiều năm nay với nhiều phương pháp khác nhau. Trong nghiên cứu này, nhóm tác giả đánh giá mười một thuật toán Machine Learning và Deep Learning trong việc phân loại tin tức giả mạo trên ba bộ dữ liệu công khai: Liar, ISOT và Getting Real about Fake News.
Nội dung trích xuất từ tài liệu:
Đánh giá một số phương pháp Machine Learning và Deep learning trong phát hiện tin giả CHUYỂN ĐỔI SỐ: XU HƯỚNG VÀ ỨNG DỤNG CÔNG NGHỆ 307 ĐÁNH GIÁ MỘT SỐ PHƯƠNG PHÁP MACHINE LEARNING VÀ DEEP LEARNING TRONG PHÁT HIỆN TIN GIẢ Nguyễn Trung Kiên, Phạm Quang Trường, Đặng Châu Anh, Cao Lý Hoàng My, Trần Thị Phương Linh, TS Trương Thành Công* TÓM TẮT Cùng với sự gia tăng nhanh chóng và sự phổ biến của các phương tiện truyền thông trực tuyến, sự gia tăng về số lượng và tốc độ lan truyền của tin giả cũng đang tăng lên tương ứng. Tin giả có thể lan truyền với tốc độ không thể kiểm soát mà không cần xác minh tính đúng sai và có thể gây ra thiệt hại nghiêm trọng. Việc đánh giá phân loại tin thật và tin giả đã được thực hiện từ nhiều năm nay với nhiều phương pháp khác nhau. Trong nghiên cứu này, nhóm tác giả đánh giá mười một thuật toán Machine Learning và Deep Learning trong việc phân loại tin tức giả mạo trên ba bộ dữ liệu công khai: Liar, ISOT và Getting Real about Fake News. Kết quả cho thấy, với tập dữ liệu nhỏ thì các thuật toán Support Vector Machine và Logistic regression chiếm ưu thế, trong khi đó các thuật toán Long Short Term Memory có kết quả rất hứa hẹn đối với các tập dữ liệu lớn. Từ khóa: tin giả, phân loại giám sát, machine learning, deep learning 1. Giới thiệu Thời gian gần đây, thông tin từ mạng xã hội đã phát triển với tốc độ chưa từng có, số lượng người sử dụng mạng xã hội hàng ngày để tìm kiếm thông tin ngày càng tăng. Tuy nhiên, không phải tất cả các nguồn tin tức trên mạng xã hội đều đáng tin cậy. Hậu quả là việc vấn đề lan truyền tin giả đang dần trở nên nghiêm trọng hơn. “Tin giả” là một thuật ngữ đề cập đến tin tức có chủ đích, lừa dối người đọc và được xác minh là sai sự thật. Các vấn đề về tin giả đã tồn tại từ khi sự xuất hiện của báo in. Tuy nhiên, trong thời đại ngày nay, thời đại truyền thông xã hội, tin giả có sức ảnh hưởng rất lớn vì cơ chế truy cập đơn giản và phát tán một cách nhanh chóng bằng phương tiện truyền thông. Thông thường để xác minh tính xác thực của tin tức, chúng ta sẽ dựa vào sự đánh giá của các chuyên gia, nhưng điều này sẽ không còn khả thi với khối lượng tin tức khổng lồ hiện nay. Do đó, việc tự động phát hiện tin giả trên mạng xã hội là một vấn đề quan trọng, thu hút nhiều sự chú ý từ cả giới học thuật và cộng đồng. Khoa Công nghệ thông tin, Trường Đại học Tài chính – Marketing * 308 KỶ YẾU HỘI THẢO KHOA HỌC Các phương pháp tiếp cận bằng Machine learning (ML) và Deep learning (DL) đã được chứng minh là rất hiệu quả trong việc giải quyết nhiều vấn đề an toàn thông tin, từ việc phát hiện xâm nhập mạng đến phân tích phần mềm độc hại, cũng như nhận dạng email spam. Nghiên cứu này nhằm mục đích so sánh các phương pháp phân loại giám sát nổi tiếng bằng cách thực nghiệm trên các bộ dữ liệu về tin giả công khai có sẵn. Cụ thể, nhóm tác giả kiểm tra hiệu suất của năm thuật toán ML truyền thống, ba phương pháp Ensemble và ba kỹ thuật dựa trên DL trên các bộ ba bộ dữ liệu công khai về tin giả: Liar, ISOT và Getting Real about Fake News. Phần còn lại của bài viết này bao gồm: Phần 2 trình bày ngắn gọn các công trình nghiên cứu trước đây trong việc phát hiện tin giả. Phần 3 giới thiệu phương pháp luận. Phần 4 mô tả môi trường thử nghiệm. Phần 5 trình bày kết quả thực nghiệm và phân tích các thuật toán. Phần 6 thảo luận về kết quả thu được. Cuối cùng, phần 7 kết thúc bài báo. 2. Các công trình nghiên cứu liên quan Phần này trình bày các công trình có liên quan trong lĩnh vực ML và DL để phân Phát hiện tin tức giả mạo. Ahmed và cộng sự (2017) đã đề xuất sử dụng kỹ thuật N-gram và TF-IDF để trích xuất đặc trưng cũng như các thuật toán phân loại khác nhau như Stochastic Gradient Descent (SGD), Support Vector Machine (SVM), Linear Support Vector Machine (Linear SVM), K-Nearest Neighbor (KNN), và Decision Tree (DT) trên bộ dữ liệu ISOT, kết quả là thuật toán Linear SVM đạt kết quả tốt nhất với tỷ lệ chính xác 92%. Trong một nghiên cứu khác (Ozbay & Alatas, 2020), nhóm tác giả chỉ sử dụng kỹ thuật TF-IDF để rút trích đặc trưng và sử dụng 23 thuật toán để phát hiện tin giả trên cùng bộ dữ liệu của Ahmed và cộng sự (2017). Nhóm tác giả báo cáo rằng mô hình tốt nhất của họ đạt được kết quả lần lượt là accuracy: 96.8%, precision: 96.3%, recall: 97.3%, và F1- scores là 97.3%. Long và cộng sự (2017) đã đề xuất kết hợp hồ sơ diễn giả và mô hình Long Short Term Memory (LSTM) để phát hiện tin tức giả mạo. Kết quả thực nghiệm cho thấy phương pháp của họ đã cải thiện mô hình phát hiện tin giả sử dụng kỹ thuật đến 14,5%. Trong một cách tiếp cận khác (Ahmed và cộng sự, 2018), nhóm tác giả đã trình bày việc sử dụng mô h ...

Tài liệu được xem nhiều: