Giải pháp phân loại chủ đề tự động cho bản tin thời sự truyền hình bằng kỹ thuật học máy
Số trang: 10
Loại file: pdf
Dung lượng: 1.66 MB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Giải pháp phân loại chủ đề tự động cho bản tin thời sự truyền hình bằng kỹ thuật học máy giới thiệu một giải pháp phân loại chủ đề tự động cho bản tin thời sự truyền hình, sử dụng các thuật toán học máy kết hợp với phương pháp trích đặc trưng dữ liệu TF-IDF, và SVD giảm chiều dữ liệu để tối ưu hóa tính toán nhanh và hiệu quả.
Nội dung trích xuất từ tài liệu:
Giải pháp phân loại chủ đề tự động cho bản tin thời sự truyền hình bằng kỹ thuật học máy GIẢI PHÁP PHÂN LOẠI CHỦ ĐỀ TỰ ĐỘNG CHO BẢN TIN THỜI SỰ TRUYỀN HÌNH BẰNG KỸ THUẬT HỌC MÁY Nguyễn Tấn Phú, Lâm Thanh Toản, Từ Thái Bảo Trường Đại học Kỹ thuật - Công nghệ Cần thơ Email:ntanphu@ctuet.edu.vnThông tin chung: TÓM TẮTNgày nhận bài: 29.12.2023 Phân loại video bằng học máy trở thành một lĩnh vực tiềmNgày nhận bài sửa: 08.4.2024 năng, giúp tự động nhận dạng và phân loại vào các danh mụcNgày duyệt đăng: 08.4.2024 tương ứng. Quá trình này bắt đầu bằng việc tiền xử lý dữ liệu video để trích xuất và chuyển đổi thông tin thành đặc trưng số Từ khóa: học. Đặc biệt, các thuật toán học máy như KNN, SVM, CNN và PhoBERT được sử dụng để xử lý và phân tích nội dung videoHọc máy, Phân loại video, cũng như thông tin ngôn ngữ trong video. Trong thực nghiệm, dữTrích xuất đặc trưng, Xử lý liệu được thu thập từ hệ thống lưu trữ nội bộ của Đài Phát thanhngôn ngữ tự nhiên và Truyền hình thành phố Cần Thơ, với mỗi video có độ dài trung bình khoảng 3 phút. Các thuật toán đã được triển khai và đánh giá trên tập dữ liệu này để đo lường và so sánh hiệu suất. Kết quả của thuật toán PhoBERT, với độ chính xác đạt tới 98%. Từ kết quả cho thấy khả năng vượt trội của PhoBERT trong việc xử lý và nhận dạng nội dung video, tạo điều kiện thuận lợi cho việc phát triển hệ thống phân loại video tự động. 1. GIỚI THIỆU Trên phạm vi toàn cầu, việc ứng dụng AI để tự động phân loại chủ đề đã thu hút sự quan Trong những năm qua, sự tiến bộ đột phá tâm đặc biệt, mang lại những tiến bộ đột phácủa công nghệ và sự lan tỏa mạnh mẽ của cho ngành truyền thông.mạng xã hội đã biến Internet thành mộtnguồn thông tin đa dạng, từ sách, báo, hình 2. PHƯƠNG PHÁP NGHIÊN CỨUảnh đến video và âm nhạc. Trong đó, video 2.1. Các nghiên cứu có liên quanđóng vai trò ngày càng quan trọng, tác độngsâu rộng vào xã hội. Điều này làm cho việc Nghiên cứu của (Ahmed và cộng sự,phân loại video dựa trên nội dung trở nên cực 2020) đã giới thiệu một phương pháp tiên tiếnkỳ quan trọng, đặc biệt trong lĩnh vực bản tin để phát hiện tin giả thông qua kỹ thuật họcthời sự truyền hình, việc tự động phân loại máy, chủ yếu tập trung vào xử lý ngôn ngữ tựchủ đề đóng vai trò then chốt để cung cấp nhiên. Nghiên cứu này tập trung vào việc phátthông tin chính xác và đáng tin cậy. triển các thuật toán có khả năng phân tích nội Công nghệ trí tuệ nhân tạo (AI) và xử lý dung văn bản để phân biệt giữa thông tin đángngôn ngữ tự nhiên (NLP) đã đạt được sự tin cậy và thông tin không chính xác. Bằngphát triển đáng kể, mở ra khả năng tự động cách kết hợp phương pháp rút trích đặc trưnghóa việc phân loại video. Ở Việt Nam, việcáp dụng AI trong lĩnh vực truyền thông TF-IDF (Term Frequency-Inverse Documentkhông chỉ góp phần thúc đẩy sự tiến bộ của Frequency) với các thuật toán Naïve Bayes,ngành mà còn tối ưu hóa quá trình sản xuất Passive Aggressive và SVM. Kết quả thựcnội dung, nâng cao trải nghiệm người xem.12 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ CẦN THƠ - SỐ 02 THÁNG 05/2024nghiệm trên nhiều tập dữ liệu cho thấy, mô Dựa trên các công trình nghiên cứu hiệnhình này đạt được độ chính xác lên đến 93%. có, đã có nhiều phương pháp đề xuất để phân loại video dựa trên nội dung và tính chất của Trong lĩnh vực phân loại video, Gao(2021) đã tiến hành nghiên cứu chi tiết bằng video. Mỗi phương pháp đều mang lại những ưu điểm và hạn chế riêng. Trong nghiên cứuviệc áp dụng mô hình kiến trúc ResNet-v2. này, chúng tôi đã sử dụng kỹ thuật học máyTác giả đã đặt nền tảng nghiên cứu trên sự kết và phân tích thống kê, cùng với việc chuẩnhợp và cải tiến của thuật toán Adam cùng hóa dữ liệu. Mục tiêu chính là phát triển mộtthuật toán Gradient Descent, nhằm tối ưu hóahiệu suất học. Kết quả thực nghiệm đã cho phương pháp phân loại video chính xác và hiệu quả hơn dựa trên nội dung và đặc điểmthấy thuật toán Adam cải tiến hiệu quả trongviệc cập nhật trọng số mạng và đạt được sự của video.hội tụ nhanh chóng. Đặc biệt, mô hìnhInception-ResNet-v2 sau khi được cải tiến đã 2.2. Mô hình đề xuất của hệ thốngvượt trội so với các mô hình mạng nơron tích Mô hình đề xuất cho hệ thống tự độngchập (CNN) thông thường, với tỷ lệ chính xác phân loại chủ đề được biểu diễn trong Hìnhphân loại lên tới 91,47% trên tập dữ liệu video 1. Mô hình này được thiết kế với 4 giai đoạn:tin tức. (1) Chuyển đổi và tiền xử lý dữ liệu; (2) Rút Luo (2021) triển khai phương pháp máy ...
Nội dung trích xuất từ tài liệu:
Giải pháp phân loại chủ đề tự động cho bản tin thời sự truyền hình bằng kỹ thuật học máy GIẢI PHÁP PHÂN LOẠI CHỦ ĐỀ TỰ ĐỘNG CHO BẢN TIN THỜI SỰ TRUYỀN HÌNH BẰNG KỸ THUẬT HỌC MÁY Nguyễn Tấn Phú, Lâm Thanh Toản, Từ Thái Bảo Trường Đại học Kỹ thuật - Công nghệ Cần thơ Email:ntanphu@ctuet.edu.vnThông tin chung: TÓM TẮTNgày nhận bài: 29.12.2023 Phân loại video bằng học máy trở thành một lĩnh vực tiềmNgày nhận bài sửa: 08.4.2024 năng, giúp tự động nhận dạng và phân loại vào các danh mụcNgày duyệt đăng: 08.4.2024 tương ứng. Quá trình này bắt đầu bằng việc tiền xử lý dữ liệu video để trích xuất và chuyển đổi thông tin thành đặc trưng số Từ khóa: học. Đặc biệt, các thuật toán học máy như KNN, SVM, CNN và PhoBERT được sử dụng để xử lý và phân tích nội dung videoHọc máy, Phân loại video, cũng như thông tin ngôn ngữ trong video. Trong thực nghiệm, dữTrích xuất đặc trưng, Xử lý liệu được thu thập từ hệ thống lưu trữ nội bộ của Đài Phát thanhngôn ngữ tự nhiên và Truyền hình thành phố Cần Thơ, với mỗi video có độ dài trung bình khoảng 3 phút. Các thuật toán đã được triển khai và đánh giá trên tập dữ liệu này để đo lường và so sánh hiệu suất. Kết quả của thuật toán PhoBERT, với độ chính xác đạt tới 98%. Từ kết quả cho thấy khả năng vượt trội của PhoBERT trong việc xử lý và nhận dạng nội dung video, tạo điều kiện thuận lợi cho việc phát triển hệ thống phân loại video tự động. 1. GIỚI THIỆU Trên phạm vi toàn cầu, việc ứng dụng AI để tự động phân loại chủ đề đã thu hút sự quan Trong những năm qua, sự tiến bộ đột phá tâm đặc biệt, mang lại những tiến bộ đột phácủa công nghệ và sự lan tỏa mạnh mẽ của cho ngành truyền thông.mạng xã hội đã biến Internet thành mộtnguồn thông tin đa dạng, từ sách, báo, hình 2. PHƯƠNG PHÁP NGHIÊN CỨUảnh đến video và âm nhạc. Trong đó, video 2.1. Các nghiên cứu có liên quanđóng vai trò ngày càng quan trọng, tác độngsâu rộng vào xã hội. Điều này làm cho việc Nghiên cứu của (Ahmed và cộng sự,phân loại video dựa trên nội dung trở nên cực 2020) đã giới thiệu một phương pháp tiên tiếnkỳ quan trọng, đặc biệt trong lĩnh vực bản tin để phát hiện tin giả thông qua kỹ thuật họcthời sự truyền hình, việc tự động phân loại máy, chủ yếu tập trung vào xử lý ngôn ngữ tựchủ đề đóng vai trò then chốt để cung cấp nhiên. Nghiên cứu này tập trung vào việc phátthông tin chính xác và đáng tin cậy. triển các thuật toán có khả năng phân tích nội Công nghệ trí tuệ nhân tạo (AI) và xử lý dung văn bản để phân biệt giữa thông tin đángngôn ngữ tự nhiên (NLP) đã đạt được sự tin cậy và thông tin không chính xác. Bằngphát triển đáng kể, mở ra khả năng tự động cách kết hợp phương pháp rút trích đặc trưnghóa việc phân loại video. Ở Việt Nam, việcáp dụng AI trong lĩnh vực truyền thông TF-IDF (Term Frequency-Inverse Documentkhông chỉ góp phần thúc đẩy sự tiến bộ của Frequency) với các thuật toán Naïve Bayes,ngành mà còn tối ưu hóa quá trình sản xuất Passive Aggressive và SVM. Kết quả thựcnội dung, nâng cao trải nghiệm người xem.12 TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ CẦN THƠ - SỐ 02 THÁNG 05/2024nghiệm trên nhiều tập dữ liệu cho thấy, mô Dựa trên các công trình nghiên cứu hiệnhình này đạt được độ chính xác lên đến 93%. có, đã có nhiều phương pháp đề xuất để phân loại video dựa trên nội dung và tính chất của Trong lĩnh vực phân loại video, Gao(2021) đã tiến hành nghiên cứu chi tiết bằng video. Mỗi phương pháp đều mang lại những ưu điểm và hạn chế riêng. Trong nghiên cứuviệc áp dụng mô hình kiến trúc ResNet-v2. này, chúng tôi đã sử dụng kỹ thuật học máyTác giả đã đặt nền tảng nghiên cứu trên sự kết và phân tích thống kê, cùng với việc chuẩnhợp và cải tiến của thuật toán Adam cùng hóa dữ liệu. Mục tiêu chính là phát triển mộtthuật toán Gradient Descent, nhằm tối ưu hóahiệu suất học. Kết quả thực nghiệm đã cho phương pháp phân loại video chính xác và hiệu quả hơn dựa trên nội dung và đặc điểmthấy thuật toán Adam cải tiến hiệu quả trongviệc cập nhật trọng số mạng và đạt được sự của video.hội tụ nhanh chóng. Đặc biệt, mô hìnhInception-ResNet-v2 sau khi được cải tiến đã 2.2. Mô hình đề xuất của hệ thốngvượt trội so với các mô hình mạng nơron tích Mô hình đề xuất cho hệ thống tự độngchập (CNN) thông thường, với tỷ lệ chính xác phân loại chủ đề được biểu diễn trong Hìnhphân loại lên tới 91,47% trên tập dữ liệu video 1. Mô hình này được thiết kế với 4 giai đoạn:tin tức. (1) Chuyển đổi và tiền xử lý dữ liệu; (2) Rút Luo (2021) triển khai phương pháp máy ...
Tìm kiếm theo từ khóa liên quan:
Phân loại video bằng học máy Trích xuất đặc trưng Xử lý ngôn ngữ tự nhiên Phương pháp trích đặc trưng dữ liệu TF-IDF Thuật toán PhoBERTGợi ý tài liệu liên quan:
-
12 trang 306 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 273 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 192 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 173 0 0 -
74 trang 157 0 0
-
Tích hợp DSM và ảnh chụp UAV với mô hình nơ-ron tích chập trong phân loại lớp phủ mặt đất
8 trang 139 0 0 -
Trích xuất danh mục khía cạnh sử dụng BERT với hàm mất mát cân bằng
9 trang 133 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên: Phân tích cú pháp xác suất - Lê Thanh Hương
19 trang 126 0 0 -
Xây dựng các cặp câu hỏi - câu trả lời chất lượng cao từ các trang Web hỏi đáp cộng đồng
9 trang 116 0 0 -
Tóm tắt luận án Tiến sĩ Kỹ thuật: Sử dụng ngôn ngữ trục trong dịch đa ngữ
27 trang 94 0 0