Danh mục

Phân loại web đồi trụy dựa vào văn bản và hình ảnh

Số trang: 9      Loại file: pdf      Dung lượng: 351.76 KB      Lượt xem: 29      Lượt tải: 0    
tailieu_vip

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản.
Nội dung trích xuất từ tài liệu:
Phân loại web đồi trụy dựa vào văn bản và hình ảnh NGHIÊN CỨU KHOA HỌC<br /> <br /> <br /> Phân loại web đồi trụy dựa vào văn bản và hình ảnh<br /> Pornographic web classification based on text and images<br /> 1 2<br /> Phạm Thị Hường , Nguyễn Văn Thanh<br /> Email: phamthihuongdtth@gmail.com<br /> 1<br /> Trường Đại học Sao Đỏ<br /> 2<br /> Trường THPT Châu Thành<br /> Ngày nhận bài: 15/6/2018<br /> Ngày nhận bài sửa sau phản biện: 23/11/2018<br /> Ngày chấp nhận đăng: 27/12/2018<br /> Tóm tắt<br /> Nghiên cứu này tiếp cận theo phương pháp máy học để từ đó có thể phát hiện tự động những website<br /> chứa hình ảnh khiêu dâm và văn bản có nội dung đồi trụy. Cụ thể, sử dụng giải thuật SVM để phân lớp<br /> hình ảnh dựa vào phân loại màu da cải tiến và Naïve Bayes để phân lớp văn bản. Kết quả cho thấy mô<br /> hình đề xuất có độ chính xác phân lớp cao hơn một số phương pháp đã công bố.<br /> Từ khóa: Máy vector hỗ trợ; phân lớp văn bản; phân lớp hình ảnh; Naïve Bayes; phân loại web.<br /> <br /> <br /> Abstract<br /> <br /> This study approaches a machine learning method to automatically detect websites containing<br /> pornographic images and texts. Specifically, SVM is used to image classify based on the improved skin<br /> color classification, and Naïve Bayes is used to text classify. The results show that the proposed model<br /> has higher classification accuracy than some published methods.<br /> Keywords: Support vector machine; text classification; image classification; Naïve Bayes; web classification.<br /> 1. GIỚI THIỆU<br /> <br /> Thực tế hiện nay, số lượng thanh thiếu niên suy giữa các tài liệu web, sau đó mô hình hóa chúng<br /> đồi đạo đức cũng như phạm tội ngày càng tăng dạng vector nhằm phân lớp văn bản, sử dụng<br /> cao. Một trong những nguyên nhân đó là do ảnh phân tích ngữ nghĩa tiềm ẩn (LSA) và đặc trưng<br /> hưởng từ những thông tin không lành mạnh tràn trang web (WPFS) để trích chọn các đặc trưng ngữ<br /> lan trên internet, lượng lớn thông tin đó chưa được nghĩa và văn bản. Kết quả phân lớp có giá trị TP<br /> phân loại hay kiểm soát để giúp người sử dụng trung bình cho hai phương pháp là 96,5%, chưa<br /> tránh truy cập những thông tin xấu. Nghiên cứu phân lớp hình ảnh trong trang web. Theo [13], tác<br /> về phân loại web đồi trụy ở trong nước cũng như giả đưa ra phương pháp phát hiện nội dung web<br /> trên thế giới đã có những kết quả cụ thể và ứng khiêu dâm sử dụng TF-IDF tính trọng số của một<br /> dụng trong thực tế: công cụ chặn website khiêu từ hoặc nhóm từ để thống kê mức độ quan trọng<br /> dâm của nước ngoài như STOP P-O-R-N của của chúng trong một văn bản tiếng Anh và tiếng<br /> PB Software LLC, Media Detective; CyberSitter Nga. Kết quả phân loại tiếng Anh sử dụng Naïve<br /> của Solid Oak Software; iShield và ScreenShield Bayes có độ chính xác phân lớp trung bình 92,9%,<br /> Enterprise của Guardware,... Trong nước có công thời gian trích chọn đặc trưng cho mỗi tài liệu tiếng<br /> cụ chặn web đen Killporn của tác giả Nguyễn Hữu Anh khá lớn (2,7 giây). Theo [14], tác giả sử dụng<br /> Bình, VwebFilter (VWF), Depraved Web Killer SVM với đặc trưng dựa trên thống kê về kết cấu<br /> (DWK) của tác giả Vũ Lương Bằng, MiniFireWall và màu sắc của một hình ảnh, tính score để xác<br /> 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn [11]. Theo định hình ảnh có phải khiêu dâm trẻ em không,<br /> hướng tiếp cận máy học về phân loại web đồi trụy sử dụng các visual words cùng tăng cường màu<br /> đã có một số nghiên cứu trên thế giới. Theo [12], sắc DCT để biểu diễn hình ảnh, kết quả có tỷ lệ<br /> tác giả sử dụng SVM để phân tích ngữ nghĩa nhằm lỗi trong phạm vi 11-24%. Theo [15], tác giả sử<br /> tìm mối quan hệ ngữ nghĩa giữa các từ khóa và dụng trí tuệ nhóm trong nhật ký click qua công cụ<br /> tìm kiếm dựa trên ý tưởng “Hành vi nhấp chuột<br /> trên các trang khiêu dâm phản ánh ý định tìm kiếm<br /> Người phản biện: 1. GS.TSKH. Thân Ngọc Hoàn khiêu dâm của người dùng” và những người dùng<br /> 2. TS. Đặng Hồng Hải khác nhau thường sử dụng các truy vấn như nhau<br /> <br /> <br /> 26 Tạp chí Nghiê ...

Tài liệu được xem nhiều: