Tự động phát hiện tin giả bằng Naive Bayes
Số trang: 5
Loại file: pdf
Dung lượng: 0.00 B
Lượt xem: 21
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Tự động phát hiện tin giả bằng Naive Bayes trình bày một phương pháp phát hiện phát hiện tin giả bằng phương pháp học máy trên cơ sở mô hình Naive Bayes. Dữ liệu được thu thập trên các trang mạng xã hội tiếng Việt.
Nội dung trích xuất từ tài liệu:
Tự động phát hiện tin giả bằng Naive Bayes SỐ 60/2022 KHOA HỌC VÀ CÔNG NGHỆ QUI TỰ ỘNG PHÁT HIỆN TIN GI BẰNG NAIVE BAYES AUTOMATICALLY DETECTING FAKE NEWS USING NAIVE BAYES ThS. Nguyễn Hồng Quân1,* 1 Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Quảng Ninh *Email: nguyenhongquan@qui.edu.vn Mobile: 0988677861 Tóm tắt Từ khóa: Trong bài báo này, chúng tôi trình bày một phương pháp phát hiện phát hiện tin Tin giả; Học máy; Naive giả bằng phương pháp học máy trên cơ sở mô hình Naive Bayes. Dữ liệu được Bayes; thu thập trên các trang mạng xã hội tiếng Việt. Chúng tôi tiền xử lý bằng cách tách từ, chuẩn hóa từ, loại bỏ các từ stop word, sau đó trích chọn đặc trưng bằng ID-TDF. Kết quả cho thấy rằng một mô hình Naive Bayes với kiến tr c đơn giản, cho độ chính xác chấp nhận được là F1=77.53%. 1. GIỚI THIỆU Thông tin sai lệch: Thông tin sai lệch được phổ Theo Từ điển Cambridge, tin giả được định biến mà không có ý định gây hại, bao gồm: (1)Kết ngh a là “những câu chuyện sai sự thật được tạo ra nối sai: Khi dòng tiêu đề, hình ảnh hoặc chú thích và lan truyền trên Internet để gây ảnh hưởng đến dư không phù hợp với nội dung. Ví dụ như trường hợp luận và có vẻ là sự thật”. Tin tức giả mạo không giật tít để câu view bằng những tiêu đề giật gân phải là một thuật ngữ mới mà nó có một lịch sử lâu nhưng nội dung không phản ánh đ ng với tên ở tiêu dài từ nhiều thế kỷ qua kể từ khi có sự phát triển của đề; hoặc sử dụng hình ảnh không đ ng với nội dung. các hệ thống chữ viết. Nhưng với sự ra đời của (2) Nội dung gây hiểu lầm: Sử dụng sai thông tin và phương tiện truyền thông xã hội trong thập kỷ qua gây hiểu lầm cho người đọc. Ví dụ, nội dung quảng đã chứng kiến một sự thay đổi trong cách thức lan cáo hoặc trang web cố gắng đánh lừa khách hàng để truyền tin tức khác hẳn so với truyền thống. Các nền truy cập vào các trang web không an toàn. Nó có thể tảng truyền thông xã hội đã trở thành mảnh đất màu bao gồm cả những nội dung có thể được coi là lừa mỡ cho việc phát tán tin giả. đảo, gian lận hoặc có hại cho khách truy cập trang Với thực trạng tin giả chiếm tỉ lệ ngày càng cao web một cách hợp lý thông qua các tuyên bố không trong số lượng tin tức được xuất ra hằng ngày trên có căn cứ, ưu đãi miễn phí hoặc hứa hẹn về giảm giá, các kênh truyền thông đại chúng, điều đó đòi hỏi quảng cáo gây hiểu lầm và quảng bá các sản phẩm độc giả khi bắt gặp một tin tức cần phải nhận biết đó và dịch vụ của bên thứ ba. là tin tức có đáng tin cậy hay không. Có nên chia sẻ Thông tin giả mạo: Được tạo và chia sẻ bởi và phát tán hay không? Tuy nhiên, không phải một những người có ý định gây hại, bao gồm (1) Bối độc giả phổ thông nào cũng có thể phân biệt được cảnh sai (False context): Loại thông tin giả mạo này tính thật giả của tin tức, vì nó đòi hỏi trình độ được sử dụng để mô tả nội dung xác thực nhưng đã chuyên môn về l nh vực báo chí, truyền thông. Hơn được điều chỉnh lại theo những cách nguy thế, với số lượng tin giả gia tăng một cách chóng hiểm.(2)Nội dung mạo danh (Imposter content): Là mặt thì việc phân biệt càng gặp nhiều khó khăn. Khi những nội dung sai sự thật hoặc gây hiểu lầm bằng đó, các độc giả đòi hỏi một công cụ hoặc một cách sử dụng các biểu trưng nổi tiếng hoặc tin tức từ phương pháp cụ thể để giúp cho việc phân biệt tin các nhân vật hoặc nhà báo có uy tín. Như chúng ta thật, giả một cách dễ dàng và thuận tiện hơn. biết, bộ não của con người luôn tìm kiếm từ kinh Việc phát triển các hệ thống tin giả giúp cho nghiệm tích luỹ được để xác định độ tin cậy khi tiếp chúng ta phát hiện nội dung không đ ng sự thật nhận một thông tin nào đó. Dựa trên kinh nghiệm là thường tổn hại đến uy tín của cá nhân và tổ chức, đôi lối tắt tư duy để giúp chúng ta hiểu được thế giới. khi gây bất ổn về trật tự xã hội cũng như lợi ích Lợi dụng điều này, người tạo tin giả s tìm cách giả chính trị của quốc gia, dân tộc. mạo là nội dung do những cá nhân, tổ chức nổi tiếng cung cấp được họ chấp nhận. 2. CÁC CÔNG TRÌNH LIÊN QUAN Thông tin độc hại: Thông tin độc hại (Mal- 2.1. Phân loại tin giả information): Chia sẻ thông tin 'chính hãng' nhưng Theo Claire[6], có các loại tin giả sau: 14 KH&CN QUI KHOA HỌC VÀ CÔNG NGHỆ QUI SỐ 60/2022 với mục đích gây hại, bao gồm:(1) Rò rỉ (Leaks): Rò phá sự thật không trực tiếp khám phá các yêu cầu rỉ thông tin là một sự kiện diễn ra khi thông tin bí thực tế, mà dựa vào một tập hợp các nguồn mâu mật được tiết lộ cho những người hoặc bên không có thu n ghi lại các thuộc tính của các đối tượng để xác thẩm quyền. Ví dụ, trong các cuộc bầu cử tổng thống định giá trị thật. Mỹ hoặc trước các kỳ đại hội Đảng ở Việt Nam 3. P ...
Nội dung trích xuất từ tài liệu:
Tự động phát hiện tin giả bằng Naive Bayes SỐ 60/2022 KHOA HỌC VÀ CÔNG NGHỆ QUI TỰ ỘNG PHÁT HIỆN TIN GI BẰNG NAIVE BAYES AUTOMATICALLY DETECTING FAKE NEWS USING NAIVE BAYES ThS. Nguyễn Hồng Quân1,* 1 Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Quảng Ninh *Email: nguyenhongquan@qui.edu.vn Mobile: 0988677861 Tóm tắt Từ khóa: Trong bài báo này, chúng tôi trình bày một phương pháp phát hiện phát hiện tin Tin giả; Học máy; Naive giả bằng phương pháp học máy trên cơ sở mô hình Naive Bayes. Dữ liệu được Bayes; thu thập trên các trang mạng xã hội tiếng Việt. Chúng tôi tiền xử lý bằng cách tách từ, chuẩn hóa từ, loại bỏ các từ stop word, sau đó trích chọn đặc trưng bằng ID-TDF. Kết quả cho thấy rằng một mô hình Naive Bayes với kiến tr c đơn giản, cho độ chính xác chấp nhận được là F1=77.53%. 1. GIỚI THIỆU Thông tin sai lệch: Thông tin sai lệch được phổ Theo Từ điển Cambridge, tin giả được định biến mà không có ý định gây hại, bao gồm: (1)Kết ngh a là “những câu chuyện sai sự thật được tạo ra nối sai: Khi dòng tiêu đề, hình ảnh hoặc chú thích và lan truyền trên Internet để gây ảnh hưởng đến dư không phù hợp với nội dung. Ví dụ như trường hợp luận và có vẻ là sự thật”. Tin tức giả mạo không giật tít để câu view bằng những tiêu đề giật gân phải là một thuật ngữ mới mà nó có một lịch sử lâu nhưng nội dung không phản ánh đ ng với tên ở tiêu dài từ nhiều thế kỷ qua kể từ khi có sự phát triển của đề; hoặc sử dụng hình ảnh không đ ng với nội dung. các hệ thống chữ viết. Nhưng với sự ra đời của (2) Nội dung gây hiểu lầm: Sử dụng sai thông tin và phương tiện truyền thông xã hội trong thập kỷ qua gây hiểu lầm cho người đọc. Ví dụ, nội dung quảng đã chứng kiến một sự thay đổi trong cách thức lan cáo hoặc trang web cố gắng đánh lừa khách hàng để truyền tin tức khác hẳn so với truyền thống. Các nền truy cập vào các trang web không an toàn. Nó có thể tảng truyền thông xã hội đã trở thành mảnh đất màu bao gồm cả những nội dung có thể được coi là lừa mỡ cho việc phát tán tin giả. đảo, gian lận hoặc có hại cho khách truy cập trang Với thực trạng tin giả chiếm tỉ lệ ngày càng cao web một cách hợp lý thông qua các tuyên bố không trong số lượng tin tức được xuất ra hằng ngày trên có căn cứ, ưu đãi miễn phí hoặc hứa hẹn về giảm giá, các kênh truyền thông đại chúng, điều đó đòi hỏi quảng cáo gây hiểu lầm và quảng bá các sản phẩm độc giả khi bắt gặp một tin tức cần phải nhận biết đó và dịch vụ của bên thứ ba. là tin tức có đáng tin cậy hay không. Có nên chia sẻ Thông tin giả mạo: Được tạo và chia sẻ bởi và phát tán hay không? Tuy nhiên, không phải một những người có ý định gây hại, bao gồm (1) Bối độc giả phổ thông nào cũng có thể phân biệt được cảnh sai (False context): Loại thông tin giả mạo này tính thật giả của tin tức, vì nó đòi hỏi trình độ được sử dụng để mô tả nội dung xác thực nhưng đã chuyên môn về l nh vực báo chí, truyền thông. Hơn được điều chỉnh lại theo những cách nguy thế, với số lượng tin giả gia tăng một cách chóng hiểm.(2)Nội dung mạo danh (Imposter content): Là mặt thì việc phân biệt càng gặp nhiều khó khăn. Khi những nội dung sai sự thật hoặc gây hiểu lầm bằng đó, các độc giả đòi hỏi một công cụ hoặc một cách sử dụng các biểu trưng nổi tiếng hoặc tin tức từ phương pháp cụ thể để giúp cho việc phân biệt tin các nhân vật hoặc nhà báo có uy tín. Như chúng ta thật, giả một cách dễ dàng và thuận tiện hơn. biết, bộ não của con người luôn tìm kiếm từ kinh Việc phát triển các hệ thống tin giả giúp cho nghiệm tích luỹ được để xác định độ tin cậy khi tiếp chúng ta phát hiện nội dung không đ ng sự thật nhận một thông tin nào đó. Dựa trên kinh nghiệm là thường tổn hại đến uy tín của cá nhân và tổ chức, đôi lối tắt tư duy để giúp chúng ta hiểu được thế giới. khi gây bất ổn về trật tự xã hội cũng như lợi ích Lợi dụng điều này, người tạo tin giả s tìm cách giả chính trị của quốc gia, dân tộc. mạo là nội dung do những cá nhân, tổ chức nổi tiếng cung cấp được họ chấp nhận. 2. CÁC CÔNG TRÌNH LIÊN QUAN Thông tin độc hại: Thông tin độc hại (Mal- 2.1. Phân loại tin giả information): Chia sẻ thông tin 'chính hãng' nhưng Theo Claire[6], có các loại tin giả sau: 14 KH&CN QUI KHOA HỌC VÀ CÔNG NGHỆ QUI SỐ 60/2022 với mục đích gây hại, bao gồm:(1) Rò rỉ (Leaks): Rò phá sự thật không trực tiếp khám phá các yêu cầu rỉ thông tin là một sự kiện diễn ra khi thông tin bí thực tế, mà dựa vào một tập hợp các nguồn mâu mật được tiết lộ cho những người hoặc bên không có thu n ghi lại các thuộc tính của các đối tượng để xác thẩm quyền. Ví dụ, trong các cuộc bầu cử tổng thống định giá trị thật. Mỹ hoặc trước các kỳ đại hội Đảng ở Việt Nam 3. P ...
Tìm kiếm theo từ khóa liên quan:
Phương pháp học máy Tự động phát hiện tin giả Mô hình Naive Bayes Trích chọn đặc trưng TF-IDF Kỹ thuật học máyTài liệu liên quan:
-
4 trang 239 0 0
-
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 134 0 0 -
Áp dụng phương pháp học máy để phát hiện tấn công DDoS trong môi trường thực nghiệm mạng SDN
5 trang 101 0 0 -
Một số phương pháp phát hiện tấn công SQL Injection dựa trên kỹ thuật học máy
7 trang 38 0 0 -
Bài giảng Nhập môn Học máy và Khai phá dữ liệu - Chương 0: Giới thiệu môn học
12 trang 31 0 0 -
Nghiên cứu phương pháp phát hiện va chạm của cánh tay robot cộng tác 6 bậc tự do
7 trang 31 0 0 -
Mô hình hệ thống khai thác dữ liệu phi cấu trúc hỗ trợ khách hàng ra quyết định mua hàng trực tuyến
6 trang 30 0 0 -
Nâng cao khả năng phát hiện xâm nhập mạng sử dụng mạng CNN
8 trang 29 0 0 -
Bộ dữ liệu dạng Netflow dùng trong phát hiện xâm nhập trái phép và ứng dụng
12 trang 27 0 0 -
Phát hiện xâm nhập mạng sử dụng kỹ thuật học máy
16 trang 27 0 0