Danh mục

Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt dựa trên thuật toán phân cụm DBSCAN cải tiến

Số trang: 10      Loại file: pdf      Dung lượng: 250.03 KB      Lượt xem: 4      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này đề xuất mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ nóng” của các chủ đề được phân cụm.
Nội dung trích xuất từ tài liệu:
Mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt dựa trên thuật toán phân cụm DBSCAN cải tiếnNghiên cứu khoa học công nghệ MÔ HÌNH TỰ ĐỘNG PHÁT HIỆN CHỦ ĐỀ NÓNG TRÊN CÁC TRANG THÔNG TIN ĐIỆN TỬ TIẾNG VIỆT DỰA TRÊN THUẬT TOÁN PHÂN CỤM DBSCAN CẢI TIẾN Nguyễn Nhật An*, Cao Đăng Huy Tóm tắt: Hiện nay, với sự phát triển mạnh mẽ của công nghệ thông tin, số lượng thông tin được chuyển tải trên các trang thông tin điện tử (báo điện tử, mạng xã hội, blog...) càng lớn. Việc theo dõi thông tin nhằm phát hiện ra các vấn đề mới, nóng (chủ đề nóng) được dư luận quan tâm, theo dõi chiều hướng phát triển của chúng để dự báo các nguy cơ được xem là rất quan trọng đối với nhiều lĩnh vực, đặc biệt đối với lĩnh vực an ninh quốc phòng. Bài báo này đề xuất mô hình tự động phát hiện chủ đề nóng trên các trang thông tin điện tử tiếng Việt trong một khoảng thời gian dựa trên thuật toán phân cụm DBSCAN cải tiến và cách xác định “độ nóng” của các chủ đề được phân cụm.Từ khoá: Chủ đề nóng tiếng Việt; Thuật toán phân cụmDBSCAN cải tiến; “Độ nóng”chủ đề. 1. ĐẶT VẤN ĐỀ1.1. Giới thiệu Với sự phát triển nhanh chóng của công nghệ thông tin, thông tin các sự kiệnxảy ra được đăng tải trên các trang thông tin điện tử trên Internet đã trở thành mộttrong những nguồn thông tin quan trọng. Theo báo cáo thống kê của Bộ Thông tinvà Truyền thông, tính đến năm 2016, Việt Nam có số lượng người sử dụng Internetlớn, đạt tỷ lệ khoảnglà 62,76% dân số [1]. Số báo điện tử là 135, chủ yếu là báođiện tử của các cơ quan báo chí in; Số trang thông tin điện tử của các cơ quan báochí được cấp phép là 258 [2], ngoài ra, còn hàng trăm trang tin không chính thốngcũng tham gia tổng hợp, truyền tải thông tin trên mạng. Khi có một sự kiện xảy ra,lập tức các phóng viên viết bài và đăng trên trang thông tin điện tử của mình vớicác quan điểm khác nhau, số lượng thông tin tăng lên nhanh chóng. Do vậy, việcphát hiện, phân cụm chủ đề, theo dõi chủ đề nóng một cách tự động trở nên cầnthiết, là giải pháp để xử lý vấn đề quá tải thông tin. Vấn đề này đã được nhiều nhàkhoa học quan tâm và được gọi chung là bài toán “Phát hiện và theo dõi chủ đề”(Topic Detection and Tracking) [6].1.2. Các nghiên cứu liên quan Bài toán Phát hiện và theo dõi chủ đề (Topic Detection and Tracking) được giớithiệu lần đầu tiên vào năm 1996, sau đó bài toán này được đông đảo các nhà khoahọc trên thế giới quan tâm và nghiên cứu. Một số nghiên cứu giải quyết bài toánnày dựa trên các đặc trưng của văn bản và thuật toán phân cụm [14, 8, 17, 24]; mộtsố lại tập trung vào các mô hình ngôn ngữ và xác xuất [16, 20, 21, 23, 18, 19]. Cóthể kể một số nghiên cứu gần đây: Khoo đề xuất sử dụng đặc trưng TF-IDF (TermFrequency * Proportional Document Frequency) để tạo vector văn bản tìm ra chủđề quan trọng[7]; Chel dựa trên ý tưởng của Khoo để đề xuất một phương phápmới phát hiện chủ đề nóng dựa trên phân tích thời gian và mô hình câu đa chiều[8]; Ruiguo Yu đề xuất phương pháp phát hiện chủ đề nóng dựa trên phân đoạnTạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2017 125 Công nghệ thông tinthời gian và lý thuyết lão hoá [14]; PGS.TS Đỗ Phúc đề xuất mô hình phát hiệnchủ đề nóng trên mạng xã hội dựa trên lý thuyết lão hoá [13]... Tuy nhiên, các công trình trên chủ yếu thực hiện việc phát hiện và theo dõichủ đề tiếng Anh mà chưa có các công trình nghiên cứu cho tiếng Việt. Do vậy,chúng tôi tập trung nghiên cứu, đề xuất mô hình phát hiện chủ đề nóng trên cáctrang thông tin điện tử tiếng Việt và xem xét tính hiệu quả của phương pháp đềxuất dựa vào lựa chọn thuật toán phân cụm phù hợp và cách xác định thế nào là“chủ đề nóng”. Nghiên cứu của chúng tôi giải quyết hai vấn đề chính: Một là, đề xuất sử dụngthuật toán phân cụm DBSCAN cải tiến để tự động phân cụm các chủ đề tiếng Việt;hai là, dựa trên số lượng bài viết, số lượng trang thông tin điện tử đăng tải, trọng sốtrang thông tin điện tử để đánh giá “độ nóng” của các chủ đề được phân cụm. Sauđó, chúng tôi tiến hành thử nghiệm trên tập dữ liệu thu thập và đánh giá chúng. Bài báo được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu;Phần 3 trình bày các kết quả thử nghiệm và đánh giá; cuối cùng kết luận đượctrình bày trong Phần 4. 2. NỘI DUNG CẦN GIẢI QUYẾT2.1. Mô hình đề xuất Trang Chủ đề Chủ đề 1 thông tin nóng 1 điện tử 1 Trang Chủ đề 2 Tính “độ Chủ đề Phân nóng 2 thông tin ...

Tài liệu được xem nhiều: