Danh mục

NGHIÊN CỨU BỘ LỌC THƯ SPAM TRÊN CƠ SỞ MẠNG BAYES

Số trang: 35      Loại file: ppt      Dung lượng: 184.50 KB      Lượt xem: 10      Lượt tải: 0    
10.10.2023

Xem trước 4 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Các bộ lọc thư spam trên cơ sở luật và dấu hiệukhông có khả năng tự tạo ra quyết định và lọccác spam mới.Các bộ lọc thư trên cơ sở mạng Bayes cho phépbộ lọc có thể ‘học’ và có khả năng tự ra quyếtđịnh với các spam mới.
Nội dung trích xuất từ tài liệu:
NGHIÊN CỨU BỘ LỌC THƯ SPAM TRÊN CƠ SỞ MẠNG BAYES SEMINAR: CƠ SỞ DỮ LIỆU NÂNG CAONGHIÊN CỨU BỘ LỌC THƯ SPAM TRÊN CƠ SỞ MẠNG BAYES Học viên: Nguyễn Viết Linh MS: CH0601038 GIỚI THIỆU bộ lọc thư spam trên cơ sở luật và dấu hiệu Các không có khả năng tự tạo ra quyết định và lọc các spam mới. Các bộ lọc thư trên cơ sở mạng Bayes cho phép bộ lọc có thể ‘học’ và có khả năng tự ra quyết định với các spam mới. Các bộ phân lớp trên cơ sở máy học cho ta hiệu quả lọc và phán đoán các thư spam hiệu quả cao. Với các bộ lọc trên cơ sở mạng Bayes được huấn luyện tốt, độ chính xác có thể đạt tới 99 %. GIỚI THIỆU Trong seminar này chúng ta sẽ đề cập đến các vấn các đề sau để xây dựng bộ lọc spam kỹ thuật Bayes: Bộ lọc spam trên cơ sở mạng Bayes đơn giản• Bộ lọc spam trên cơ sở mạng Bayes đầy đủ• Các phương thức huấn luyện cho các bộ lọc spam kỹ• Phân lớp Email và sự phân lớp sai• Hiện thực bộ phân lớp spam Bayes• I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Tổng quan về mạng Bayes) Mạng Bayes là một dạng mô hình đồ thị theo xác suất không có cung trực tiếp. Các nút biểu diễn các biến ngẫu nhiên, các cung biểu diễn mối quan hệ phụ thuộc giữa các biến. Nếu các biến là X1, ... , Xn và “parents(A)” là các cha của nút A, thì phân bố kết nối cho X1 tới Xn được biểu diễn dưới dạng kết quả của phân bố theo xác suất: P(X1,..., Xn) = ∏P(Xi | parents(Xi)) for i = 1 to n. I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Mô hình mạng Bayes đơn giản) Một mạng Bayes đơn giản nhất gồm một nút cha và tất cả các biến khác là con của nút cha. Nếu biến cha là “Xp”, thì công thức phân bố kết nối như sau: P(Xp, X1, ..., Xn) = P(Xp) ∏P(Xi|Xp) for i = 1 to n. Bộ phân lớp Naive Bayes là một bộ phân lớp theo xác suất đơn giản. Lợi ích chính của bộ phân lớp Naive Bayes là có thể huấn luyện rất hiệu quả bằng việc học có giám sát. I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Giải pháp cụ thể cho cho bộ lọc spam Bayes) Bộ lọc spam trên cơ sở mạng Bayes dựa vào nội dung của email để phân lớp. Cơ chế hoạt động của bộ lọc này như sau: Đầu tiên cần token hoá nội dung của email cần• phân lớp. Các token này có thể là các cụm từ, các cặp từ, nhưng thường sử dụng các từ đơn để định nghĩa các token. Bước tiếp theo, sử dụng các giá trị trong một từ• điển để tính toán giá trị của mỗi token của email. Từ điển này chứa các token xuất hiện trong các thư spam và thư hợp lệ đã được phân lớp từ trước cùng các giá trị tương ứng. I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Giải pháp cụ thể cho cho bộ lọc spam Bayes) Sau khi có giá trị của các token trong thư• cần phân lớp, ta sử dụng 15 đến 27 token có giá trị tốt nhất để tính xác suất cho một email là thư spam hay hợp lệ.• Bước cuối cùng là sửa đổi các giá trị của các token trong từ điển, điều này đưa ra khả năng học liên tục với thông tin phản hồi (feedback) và kết quả phân loại cuối cùng được tạo ra. I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Giải pháp cụ thể cho cho bộ lọc spam Bayes)Một số tính toán cho giải pháp này:• N1 là số thư spam mà một từ xuất hiện, N2 là số thư hợp lệ mà một từ xuất hiện.• ALL (tổng số tất cả các e-mail) = SPAM + HAM (số thư hợp lệ + số thư spam).• Gọi một từ là “từ so trùng”, nếu tồn tại cả trong thư và trong từ điển token.• P ( “các từ so trùng” | “thư là spam” ) = ∏cho tất cả từ được so trùng (giá trị N1 của từ hiện tại / SPAM ). I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Giải pháp cụ thể cho cho bộ lọc spam Bayes) P ( “các từ so trùng” | “thư là hợp lệ” ) = ∏cho tất cả• từ được so trùng(giá trị N2 của từ hiện tại / HAM ). P ( “thư là spam” ) = SPAM / ALL• P ( “thư là hợp lệ” ) = HAM / ALL• P ( “thư là spam” | “các từ so trùng” ) = P ( “thư là• spam” ) * P (“các từ so trùng” | “thư là spam” ) P ( “thư là hợp lệ” | “các từ so trùng” ) = P ( “thư• là hợp lệ” ) * P (“các từ so trùng” | “thư là hợp lệ”) Kết quả cuối cùng: P ( “thư là spam” | “các từ• so trùng” ) / P ( “thư là hợp lệ” | “các từ so trùng” ) I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Giải pháp cụ thể cho cho bộ lọc spam Bayes)Cấu trúc từ điển token:• N1 là số thư spam mà một từ xuất hiện.• N2 là số thư hợp lệ mà một từ xuất hiện.• W/S (word has existed/spam) là số thư spam có từ so trùng hiện tại chia cho số tất cả các thư spam.• W/H (word has existed/ham) là số thư h ợp lệ có từ so trùng hiện tại chia cho số tất cả các thư hợp lệ. I. BỘ LỌC SPAM TRÊN CƠ SỞ MẠNG BAYES ĐƠN GIẢN (Một ví dụ cụ thể) Giả sử cơ sở dữ liệu có 240 spam và 814 thư hợp lệ được lưu (tổng cộng là 1054 thư). Như vậy tỷ lệ thư spam là 23%, thư hợp lệ là 77%. Thư nhận được cần phân lớp như sa ...

Tài liệu được xem nhiều: