Tự động phát hiện tin giả bằng Naive Bayes

Số trang: 5 Loại file: pdf Dung lượng: 0.00 B Lượt xem: 21 Lượt tải: 0

tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Tự động phát hiện tin giả bằng Naive Bayes trình bày một phương pháp phát hiện phát hiện tin giả bằng phương pháp học máy trên cơ sở mô hình Naive Bayes. Dữ liệu được thu thập trên các trang mạng xã hội tiếng Việt.
Nội dung trích xuất từ tài liệu:
Tự động phát hiện tin giả bằng Naive Bayes SỐ 60/2022 KHOA HỌC VÀ CÔNG NGHỆ QUI TỰ ỘNG PHÁT HIỆN TIN GI BẰNG NAIVE BAYES AUTOMATICALLY DETECTING FAKE NEWS USING NAIVE BAYES ThS. Nguyễn Hồng Quân1,* 1 Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Quảng Ninh *Email: nguyenhongquan@qui.edu.vn Mobile: 0988677861 Tóm tắt Từ khóa: Trong bài báo này, chúng tôi trình bày một phương pháp phát hiện phát hiện tin Tin giả; Học máy; Naive giả bằng phương pháp học máy trên cơ sở mô hình Naive Bayes. Dữ liệu được Bayes; thu thập trên các trang mạng xã hội tiếng Việt. Chúng tôi tiền xử lý bằng cách tách từ, chuẩn hóa từ, loại bỏ các từ stop word, sau đó trích chọn đặc trưng bằng ID-TDF. Kết quả cho thấy rằng một mô hình Naive Bayes với kiến tr c đơn giản, cho độ chính xác chấp nhận được là F1=77.53%. 1. GIỚI THIỆU Thông tin sai lệch: Thông tin sai lệch được phổ Theo Từ điển Cambridge, tin giả được định biến mà không có ý định gây hại, bao gồm: (1)Kết ngh a là “những câu chuyện sai sự thật được tạo ra nối sai: Khi dòng tiêu đề, hình ảnh hoặc chú thích và lan truyền trên Internet để gây ảnh hưởng đến dư không phù hợp với nội dung. Ví dụ như trường hợp luận và có vẻ là sự thật”. Tin tức giả mạo không giật tít để câu view bằng những tiêu đề giật gân phải là một thuật ngữ mới mà nó có một lịch sử lâu nhưng nội dung không phản ánh đ ng với tên ở tiêu dài từ nhiều thế kỷ qua kể từ khi có sự phát triển của đề; hoặc sử dụng hình ảnh không đ ng với nội dung. các hệ thống chữ viết. Nhưng với sự ra đời của (2) Nội dung gây hiểu lầm: Sử dụng sai thông tin và phương tiện truyền thông xã hội trong thập kỷ qua gây hiểu lầm cho người đọc. Ví dụ, nội dung quảng đã chứng kiến một sự thay đổi trong cách thức lan cáo hoặc trang web cố gắng đánh lừa khách hàng để truyền tin tức khác hẳn so với truyền thống. Các nền truy cập vào các trang web không an toàn. Nó có thể tảng truyền thông xã hội đã trở thành mảnh đất màu bao gồm cả những nội dung có thể được coi là lừa mỡ cho việc phát tán tin giả. đảo, gian lận hoặc có hại cho khách truy cập trang Với thực trạng tin giả chiếm tỉ lệ ngày càng cao web một cách hợp lý thông qua các tuyên bố không trong số lượng tin tức được xuất ra hằng ngày trên có căn cứ, ưu đãi miễn phí hoặc hứa hẹn về giảm giá, các kênh truyền thông đại chúng, điều đó đòi hỏi quảng cáo gây hiểu lầm và quảng bá các sản phẩm độc giả khi bắt gặp một tin tức cần phải nhận biết đó và dịch vụ của bên thứ ba. là tin tức có đáng tin cậy hay không. Có nên chia sẻ Thông tin giả mạo: Được tạo và chia sẻ bởi và phát tán hay không? Tuy nhiên, không phải một những người có ý định gây hại, bao gồm (1) Bối độc giả phổ thông nào cũng có thể phân biệt được cảnh sai (False context): Loại thông tin giả mạo này tính thật giả của tin tức, vì nó đòi hỏi trình độ được sử dụng để mô tả nội dung xác thực nhưng đã chuyên môn về l nh vực báo chí, truyền thông. Hơn được điều chỉnh lại theo những cách nguy thế, với số lượng tin giả gia tăng một cách chóng hiểm.(2)Nội dung mạo danh (Imposter content): Là mặt thì việc phân biệt càng gặp nhiều khó khăn. Khi những nội dung sai sự thật hoặc gây hiểu lầm bằng đó, các độc giả đòi hỏi một công cụ hoặc một cách sử dụng các biểu trưng nổi tiếng hoặc tin tức từ phương pháp cụ thể để giúp cho việc phân biệt tin các nhân vật hoặc nhà báo có uy tín. Như chúng ta thật, giả một cách dễ dàng và thuận tiện hơn. biết, bộ não của con người luôn tìm kiếm từ kinh Việc phát triển các hệ thống tin giả giúp cho nghiệm tích luỹ được để xác định độ tin cậy khi tiếp chúng ta phát hiện nội dung không đ ng sự thật nhận một thông tin nào đó. Dựa trên kinh nghiệm là thường tổn hại đến uy tín của cá nhân và tổ chức, đôi lối tắt tư duy để giúp chúng ta hiểu được thế giới. khi gây bất ổn về trật tự xã hội cũng như lợi ích Lợi dụng điều này, người tạo tin giả s tìm cách giả chính trị của quốc gia, dân tộc. mạo là nội dung do những cá nhân, tổ chức nổi tiếng cung cấp được họ chấp nhận. 2. CÁC CÔNG TRÌNH LIÊN QUAN Thông tin độc hại: Thông tin độc hại (Mal- 2.1. Phân loại tin giả information): Chia sẻ thông tin 'chính hãng' nhưng Theo Claire[6], có các loại tin giả sau: 14 KH&CN QUI KHOA HỌC VÀ CÔNG NGHỆ QUI SỐ 60/2022 với mục đích gây hại, bao gồm:(1) Rò rỉ (Leaks): Rò phá sự thật không trực tiếp khám phá các yêu cầu rỉ thông tin là một sự kiện diễn ra khi thông tin bí thực tế, mà dựa vào một tập hợp các nguồn mâu mật được tiết lộ cho những người hoặc bên không có thu n ghi lại các thuộc tính của các đối tượng để xác thẩm quyền. Ví dụ, trong các cuộc bầu cử tổng thống định giá trị thật. Mỹ hoặc trước các kỳ đại hội Đảng ở Việt Nam 3. P ...