Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt
Số trang: 73
Loại file: pdf
Dung lượng: 2.13 MB
Lượt xem: 8
Lượt tải: 0
Xem trước 8 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hóa đối với các thư điện tử tiếng Việt. Các tập luận để lọc được xây dựng chỉ cho thư tiếng Anh. Do đó, đề tài này mong muốn sẽ tối ưu và nâng cao khả năng lọc thư rác tiếng Việt. Mời các bạn tham khảo!
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÂM TĂNG DOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã Số: 8480205.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam Hà nội – 11/2020 i Mục lục LỜI CẢM ƠN ................................................................................................ iii LỜI CAM ĐOAN ........................................................................................... iv DANH MỤC HÌNH VẼ .................................................................................. v Chương 1: Giới thiệu ...................................................................................... 1 1.1. Mục tiêu của nghiên cứu .............................................................. 1 1.2. Phương pháp nghiên cứu ............................................................. 2 1.3. Cấu trúc luận văn ......................................................................... 2 1.4. Tổng quan về thư rác ................................................................... 2 1.4.1. Định nghĩa ......................................................................... 2 1.4.2. Thống kê và tác hại của thư rác ...................................... 3 1.4.3. Phương pháp phân loại thư rác ...................................... 6 1.4.4. Các loại thư rác................................................................. 7 1.4.5. Mô hình lọc thư rác ........................................................ 10 1.4.6. Quy trình hoạt động của lọc thư rác ............................ 13 1.4.7. Quy trình lọc thư điện tử sử dụng học máy ................. 14 1.4.8. Mô hình lọc thư rác của Zimbra ................................... 14 Chương 2. Các kỹ thuật lọc thư rác thư rác .............................................. 19 2.1. Các kỹ thuật giảm thiểu thư rác ................................................ 19 2.1.1. Lọc IP ............................................................................... 19 2.1.2. Danh sách xám và phản hồi - thách thức ..................... 20 2.1.3. Cải thiện xác thực thư để phòng chống thư rác .......... 20 2.1.4. Bảo vệ địa chỉ .................................................................. 22 2.2. Các kỹ thuật lọc thư rác ............................................................. 22 2.2.1. Phương thức trích xuất thư điện tử .............................. 23 2.2.2. Các kỹ thuật lọc thư rác cơ bản .................................... 32 2.2.3. Các kỹ thuật lọc thư rác thông minh ............................ 35 2.3. Các nghiên cứu về lọc thư rác trên thế giới ............................. 40 2.4. Một số nghiên cứu về thư rác tại Việt Nam ............................. 42 ii Chương 3. Đề xuất và Thực nghiệm ........................................................... 44 3.1. Đề xuất giải pháp lọc thư rác .................................................... 44 3.1.1. Mô hình thực nghiệm vật lý........................................... 45 3.1.2. Lọc thư rác sử dụng SVM và Naïve Bayes................... 46 3.1.3. Xây dựng quy tắc lọc tiếng Việt .................................... 48 3.2. Thực nghiệm ............................................................................... 55 3.2.1. Dữ liệu huấn luyện ......................................................... 55 3.2.2. Kiểm thử hệ thống khi chưa cài Naïve Bayes .............. 55 3.2.3. Kiểm thử hệ thống chỉ có Naïve Bayes ......................... 56 3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB ............................... 59 3.2.5. Kiểm tra các quy tắc tự xây dựng ................................. 61 KẾT LUẬN .................................................................................................... 64 TÀI LIỆU THAM KHẢO ............................................................................ 65 iii LỜI CẢM ƠN Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc của mình. Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình huấn luyện, cung cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập, nghiên cứu tại trường. Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi vấp phải những khó khăn, bế tắc. Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trường Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận lợi cho tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ, Đại học Quốc Gia Hà Nội. ...
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Hệ thống thông tin: Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác tiếng Việt ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÂM TĂNG DOAN NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý hệ thống thông tin Mã Số: 8480205.01 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam Hà nội – 11/2020 i Mục lục LỜI CẢM ƠN ................................................................................................ iii LỜI CAM ĐOAN ........................................................................................... iv DANH MỤC HÌNH VẼ .................................................................................. v Chương 1: Giới thiệu ...................................................................................... 1 1.1. Mục tiêu của nghiên cứu .............................................................. 1 1.2. Phương pháp nghiên cứu ............................................................. 2 1.3. Cấu trúc luận văn ......................................................................... 2 1.4. Tổng quan về thư rác ................................................................... 2 1.4.1. Định nghĩa ......................................................................... 2 1.4.2. Thống kê và tác hại của thư rác ...................................... 3 1.4.3. Phương pháp phân loại thư rác ...................................... 6 1.4.4. Các loại thư rác................................................................. 7 1.4.5. Mô hình lọc thư rác ........................................................ 10 1.4.6. Quy trình hoạt động của lọc thư rác ............................ 13 1.4.7. Quy trình lọc thư điện tử sử dụng học máy ................. 14 1.4.8. Mô hình lọc thư rác của Zimbra ................................... 14 Chương 2. Các kỹ thuật lọc thư rác thư rác .............................................. 19 2.1. Các kỹ thuật giảm thiểu thư rác ................................................ 19 2.1.1. Lọc IP ............................................................................... 19 2.1.2. Danh sách xám và phản hồi - thách thức ..................... 20 2.1.3. Cải thiện xác thực thư để phòng chống thư rác .......... 20 2.1.4. Bảo vệ địa chỉ .................................................................. 22 2.2. Các kỹ thuật lọc thư rác ............................................................. 22 2.2.1. Phương thức trích xuất thư điện tử .............................. 23 2.2.2. Các kỹ thuật lọc thư rác cơ bản .................................... 32 2.2.3. Các kỹ thuật lọc thư rác thông minh ............................ 35 2.3. Các nghiên cứu về lọc thư rác trên thế giới ............................. 40 2.4. Một số nghiên cứu về thư rác tại Việt Nam ............................. 42 ii Chương 3. Đề xuất và Thực nghiệm ........................................................... 44 3.1. Đề xuất giải pháp lọc thư rác .................................................... 44 3.1.1. Mô hình thực nghiệm vật lý........................................... 45 3.1.2. Lọc thư rác sử dụng SVM và Naïve Bayes................... 46 3.1.3. Xây dựng quy tắc lọc tiếng Việt .................................... 48 3.2. Thực nghiệm ............................................................................... 55 3.2.1. Dữ liệu huấn luyện ......................................................... 55 3.2.2. Kiểm thử hệ thống khi chưa cài Naïve Bayes .............. 55 3.2.3. Kiểm thử hệ thống chỉ có Naïve Bayes ......................... 56 3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB ............................... 59 3.2.5. Kiểm tra các quy tắc tự xây dựng ................................. 61 KẾT LUẬN .................................................................................................... 64 TÀI LIỆU THAM KHẢO ............................................................................ 65 iii LỜI CẢM ƠN Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo, PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành công việc của mình. Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình huấn luyện, cung cấp cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập, nghiên cứu tại trường. Đồng thời tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi cùng toàn thể bạn bè những người đã luôn giúp đỡ, động viên tôi những khi vấp phải những khó khăn, bế tắc. Cuối cùng, tôi xin chân thành cảm ơn các đồng nghiệp của tôi tại Trường Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận lợi cho tôi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Công nghệ, Đại học Quốc Gia Hà Nội. ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Luận văn Thạc sĩ Hệ thống thông tin Hệ thống thông tin Phương pháp lọc thư rác tại Việt Nam Phương án lọc thư rác tiếng ViệtGợi ý tài liệu liên quan:
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 363 5 0 -
97 trang 324 0 0
-
Bài tập thực hành môn Phân tích thiết kế hệ thống thông tin
6 trang 314 0 0 -
97 trang 300 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 299 0 0 -
155 trang 272 0 0
-
115 trang 266 0 0
-
64 trang 258 0 0
-
26 trang 253 0 0
-
Bài thuyết trình Hệ thống thông tin trong bệnh viện
44 trang 241 0 0