Phát triển mô hình tự động phát hiện bình luận độc hại dựa trên tiếp cận học sâu và biểu diễn dữ liệu với BERT
Số trang: 6
Loại file: pdf
Dung lượng: 394.90 KB
Lượt xem: 18
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo này nghiên cứu phát triển mô hình có khả năng nhận diện các bình luận độc hại. Việc sử dụng BERT trong mô hình học sâu đóng vai trò quan trọng trong việc hiểu ngữ cảnh và ngữ nghĩa của từ, giúp mô hình có khả năng xử lý ngôn ngữ tự nhiên một cách hiệu quả hơn và tạo ra dự đoán chính xác hơn.
Nội dung trích xuất từ tài liệu:
Phát triển mô hình tự động phát hiện bình luận độc hại dựa trên tiếp cận học sâu và biểu diễn dữ liệu với BERTPHÁT TRIỂN MÔ HÌNH TỰ ĐỘNG PHÁT HIỆN BÌNH LUẬN ĐỘC HẠIDỰA TRÊN TIẾP CẬN HỌC SÂU VÀ BIỂU DIỄN DỮ LIỆU VỚI BERT Bùi Ngọc Hưng1 , Võ Thị Hồng Thắm2,* 1. Lớp CH21HT01, Trường Đại học Thủ Dầu Một 2. Khoa Công nghệ thông tin, Trường Đại học Nguyễn Tất Thành. * Liên hệ email: vththam@ntt.edu.vnTÓM TẮT Nghiên cứu tập trung vào việc xây dựng và phát triển một mô hình máy học dựa trên họcsâu với việc sử dụng BERT - một mô hình biểu diễn ngôn ngữ tiên tiến, để tự động phát hiệncác bình luận độc hại trên Internet. Bình luận độc hại, bao gồm nội dung xúc phạm, quấy rốihoặc gây hại cho người khác, là một vấn đề lớn trên các nền tảng trực tuyến. Bài báo nàynghiên cứu phát triển mô hình có khả năng nhận diện các bình luận độc hại. Việc sử dụngBERT trong mô hình học sâu đóng vai trò quan trọng trong việc hiểu ngữ cảnh và ngữ nghĩacủa từ, giúp mô hình có khả năng xử lý ngôn ngữ tự nhiên một cách hiệu quả hơn và tạo ra dựđoán chính xác hơn. Kết quả của nghiên cứu này là phát triển một mô hình hoạt động hiệu quả,có thể được triển khai trong các nền tảng trực tuyến để cải thiện chất lượng cuộc trò chuyệnvà bảo vệ người dùng khỏi nội dung độc hại. Mô hình đề xuất được đặt tên là BERT-DLTC làsự kết hợp giữa BERT và mạng nơ ron được thử nghiệm trên tập dữ liệu tiếng Anh và tiếng Hylạp, có độ chính xác cao hơn so với một số mô hình học máy truyền thống khác. Độ chính xácđạt được cho thấy mô hình đề xuất có khả năng áp dụng vào thực tiễn. Từ khóa: biểu diễn văn bản, bình luận độc hại, BERT, học sâu, NLP.1. GIỚI THIỆU Trong thời đại số hóa ngày nay, môi trường trực tuyến đang ngày càng trở thành một phầnkhông thể tách rời của cuộc sống hàng ngày. Tuy nhiên, sự phát triển mạnh mẽ này cũng manglại những vấn đề nghiêm trọng, trong đó có sự xuất hiện của các bình luận độc hại. Những bìnhluận này không chỉ gây ra môi trường trực tuyến tiêu cực mà còn có khả năng gây hại cho cánhân và cộng đồng (Singh, R. và nnk., 2023; Fan, H. và nnk., 2021). Do đó, việc phát triển cácphương pháp tự động để phát hiện các bình luận độc hại trở nên cấp thiết. Nghiên cứu với đềtài “Phát triển mô hình tự động phát hiện bình luận độc hại dựa trên tiếp cận học sâu và biểudiễn dữ liệu với BERT” được thực hiện nhằm giải quyết vấn đề này. BERT, một mô hình ngônngữ tiên tiến, đã cho thấy hiệu quả trong việc hiểu ngữ cảnh và ngữ nghĩa của từ, giúp tạo ra dựđoán chính xác hơn trong việc phát hiện ngôn ngữ độc hại (Singh, R. và nnk., 2023). Chúng tôi tin rằng việc phát triển một mô hình tự động để phát hiện và lọc ra các bìnhluận độc hại là một bước tiến quan trọng trong việc tạo ra một môi trường trực tuyến an toànvà tích cực hơn. Sử dụng phương pháp nghiên cứu tổng luận tài liệu và thực nghiệm, bài báo tập trung vàocác mục tiêu chính bao gồm: (1) Đề xuất mô hình kết hợp BERT và học sâu để giải quyết bàitoán phân lớp các bình luận độc hại tên là BERT-MLTC; (2) Chạy thực nghiệm mô hình trêntập dữ liệu tiếng Anh và tiếng Hy lạp; và (3) So sánh kết quả với một số mô hình máy học khác. 769 Cấu trúc bài viết này gồm có 5 phần. Phần 1 giới thiệu vấn đề nghiên cứu là phân loại cácbình luận độc hại và phương pháp đề xuất (sử dụng BERT kết hợp mô hình học sâu) để giảiquyết vấn đề này. Phần 2 trình bày các nghiên cứu trong lĩnh vực này từ đó đánh giá và so sánhphương pháp của chúng tôi với những phương pháp khác đã được công bố. Tiếp theo, chương3 mô tả chi tiết về mô hình đề xuất. Kết quả thực nghiệm của mô hình đề xuất và diễn giải đượctrình bày trong chương 4 có thể chứng minh sự hiệu quả và tiềm năng của mô hình. Cuối cùng,phần 5 kết luận về những gì đã đạt được trong nghiên cứu này và những hướng nghiên cứu tiếptheo có thể thực hiện để cải thiện mô hình.2. CÁC NGHIÊN CỨU LIÊN QUAN Phân loại bình luận độc hại là một nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên.Kỹ thuật biểu diễn văn bản đóng vai trò quan trọng trong việc xác định độ chính xác của môhình phân loại. Các kỹ thuật biểu diễn văn bản khác nhau như Bag of Words, TF-IDF, WordEmbeddings, và BERT đều đã được chứng minh là có ảnh hưởng đến độ chính xác của mô hìnhphân loại (Rani, A. và nnk., 2023; Androcec, D., 2020; Mahajan, A. Và nnk., 2021). Bag of Words và TF-IDF là hai phương pháp cơ bản nhất. Tuy nhiên, chúng có hạn chếvì không thể nắm bắt được ngữ cảnh và thứ tự của từ, dẫn đến việc phân loại không chính xác(Mahajan, A., 2021). Word Embeddings như Word2Vec và GloVe có thể hiểu được mối quan hệ ngữ nghĩagiữa các từ, nhưng chúng vẫn không thể hiểu được ngữ cảnh từng từ trong câu, điều này có thểảnh hưởng đến độ chính xác của bài toán phân loại (Androcec, D, 2020). BERT (Bidirectional Encoder Representations from Transformers) là một cách tiếp c ...
Nội dung trích xuất từ tài liệu:
Phát triển mô hình tự động phát hiện bình luận độc hại dựa trên tiếp cận học sâu và biểu diễn dữ liệu với BERTPHÁT TRIỂN MÔ HÌNH TỰ ĐỘNG PHÁT HIỆN BÌNH LUẬN ĐỘC HẠIDỰA TRÊN TIẾP CẬN HỌC SÂU VÀ BIỂU DIỄN DỮ LIỆU VỚI BERT Bùi Ngọc Hưng1 , Võ Thị Hồng Thắm2,* 1. Lớp CH21HT01, Trường Đại học Thủ Dầu Một 2. Khoa Công nghệ thông tin, Trường Đại học Nguyễn Tất Thành. * Liên hệ email: vththam@ntt.edu.vnTÓM TẮT Nghiên cứu tập trung vào việc xây dựng và phát triển một mô hình máy học dựa trên họcsâu với việc sử dụng BERT - một mô hình biểu diễn ngôn ngữ tiên tiến, để tự động phát hiệncác bình luận độc hại trên Internet. Bình luận độc hại, bao gồm nội dung xúc phạm, quấy rốihoặc gây hại cho người khác, là một vấn đề lớn trên các nền tảng trực tuyến. Bài báo nàynghiên cứu phát triển mô hình có khả năng nhận diện các bình luận độc hại. Việc sử dụngBERT trong mô hình học sâu đóng vai trò quan trọng trong việc hiểu ngữ cảnh và ngữ nghĩacủa từ, giúp mô hình có khả năng xử lý ngôn ngữ tự nhiên một cách hiệu quả hơn và tạo ra dựđoán chính xác hơn. Kết quả của nghiên cứu này là phát triển một mô hình hoạt động hiệu quả,có thể được triển khai trong các nền tảng trực tuyến để cải thiện chất lượng cuộc trò chuyệnvà bảo vệ người dùng khỏi nội dung độc hại. Mô hình đề xuất được đặt tên là BERT-DLTC làsự kết hợp giữa BERT và mạng nơ ron được thử nghiệm trên tập dữ liệu tiếng Anh và tiếng Hylạp, có độ chính xác cao hơn so với một số mô hình học máy truyền thống khác. Độ chính xácđạt được cho thấy mô hình đề xuất có khả năng áp dụng vào thực tiễn. Từ khóa: biểu diễn văn bản, bình luận độc hại, BERT, học sâu, NLP.1. GIỚI THIỆU Trong thời đại số hóa ngày nay, môi trường trực tuyến đang ngày càng trở thành một phầnkhông thể tách rời của cuộc sống hàng ngày. Tuy nhiên, sự phát triển mạnh mẽ này cũng manglại những vấn đề nghiêm trọng, trong đó có sự xuất hiện của các bình luận độc hại. Những bìnhluận này không chỉ gây ra môi trường trực tuyến tiêu cực mà còn có khả năng gây hại cho cánhân và cộng đồng (Singh, R. và nnk., 2023; Fan, H. và nnk., 2021). Do đó, việc phát triển cácphương pháp tự động để phát hiện các bình luận độc hại trở nên cấp thiết. Nghiên cứu với đềtài “Phát triển mô hình tự động phát hiện bình luận độc hại dựa trên tiếp cận học sâu và biểudiễn dữ liệu với BERT” được thực hiện nhằm giải quyết vấn đề này. BERT, một mô hình ngônngữ tiên tiến, đã cho thấy hiệu quả trong việc hiểu ngữ cảnh và ngữ nghĩa của từ, giúp tạo ra dựđoán chính xác hơn trong việc phát hiện ngôn ngữ độc hại (Singh, R. và nnk., 2023). Chúng tôi tin rằng việc phát triển một mô hình tự động để phát hiện và lọc ra các bìnhluận độc hại là một bước tiến quan trọng trong việc tạo ra một môi trường trực tuyến an toànvà tích cực hơn. Sử dụng phương pháp nghiên cứu tổng luận tài liệu và thực nghiệm, bài báo tập trung vàocác mục tiêu chính bao gồm: (1) Đề xuất mô hình kết hợp BERT và học sâu để giải quyết bàitoán phân lớp các bình luận độc hại tên là BERT-MLTC; (2) Chạy thực nghiệm mô hình trêntập dữ liệu tiếng Anh và tiếng Hy lạp; và (3) So sánh kết quả với một số mô hình máy học khác. 769 Cấu trúc bài viết này gồm có 5 phần. Phần 1 giới thiệu vấn đề nghiên cứu là phân loại cácbình luận độc hại và phương pháp đề xuất (sử dụng BERT kết hợp mô hình học sâu) để giảiquyết vấn đề này. Phần 2 trình bày các nghiên cứu trong lĩnh vực này từ đó đánh giá và so sánhphương pháp của chúng tôi với những phương pháp khác đã được công bố. Tiếp theo, chương3 mô tả chi tiết về mô hình đề xuất. Kết quả thực nghiệm của mô hình đề xuất và diễn giải đượctrình bày trong chương 4 có thể chứng minh sự hiệu quả và tiềm năng của mô hình. Cuối cùng,phần 5 kết luận về những gì đã đạt được trong nghiên cứu này và những hướng nghiên cứu tiếptheo có thể thực hiện để cải thiện mô hình.2. CÁC NGHIÊN CỨU LIÊN QUAN Phân loại bình luận độc hại là một nhiệm vụ quan trọng trong xử lý ngôn ngữ tự nhiên.Kỹ thuật biểu diễn văn bản đóng vai trò quan trọng trong việc xác định độ chính xác của môhình phân loại. Các kỹ thuật biểu diễn văn bản khác nhau như Bag of Words, TF-IDF, WordEmbeddings, và BERT đều đã được chứng minh là có ảnh hưởng đến độ chính xác của mô hìnhphân loại (Rani, A. và nnk., 2023; Androcec, D., 2020; Mahajan, A. Và nnk., 2021). Bag of Words và TF-IDF là hai phương pháp cơ bản nhất. Tuy nhiên, chúng có hạn chếvì không thể nắm bắt được ngữ cảnh và thứ tự của từ, dẫn đến việc phân loại không chính xác(Mahajan, A., 2021). Word Embeddings như Word2Vec và GloVe có thể hiểu được mối quan hệ ngữ nghĩagiữa các từ, nhưng chúng vẫn không thể hiểu được ngữ cảnh từng từ trong câu, điều này có thểảnh hưởng đến độ chính xác của bài toán phân loại (Androcec, D, 2020). BERT (Bidirectional Encoder Representations from Transformers) là một cách tiếp c ...
Tìm kiếm theo từ khóa liên quan:
Nhận diện các bình luận độc hại Phát hiện bình luận độc hại Biểu diễn dữ liệu với BERT Phân loại bình luận độc hại Xử lý ngôn ngữ tự nhiên Kỹ thuật biểu diễn văn bảnGợi ý tài liệu liên quan:
-
12 trang 306 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 273 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 192 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 173 0 0 -
74 trang 157 0 0
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 139 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 133 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 126 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 116 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 94 0 0