Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 2
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Tìm hiểu các hướng tiếp cận phân loại email và xây dựng phần mềm mail client hỗ trợ tiếng Việt - 2 B ng cách qui, vi t th a s th hai trong tích trên nh sau : P ( X 2 = x2 ∧ ... ∧ X n = xn | C = c ) = P ( X 2 = x2 | X 3 = x3 ∧ ... ∧ X n = xn , C = c ) P ( X 3 = x3 ∧ ... ∧ X n = xn | C = c ) và c t i p t c nh v y. Ph ng pháp phân lo i Naïve Bayesian gi thi t r ng v i m i X i k t qu tác n g c a nó là c l p v i các X j khác, nh v y chúng ta th a nh n r ng: P ( X 1 = x1 | X 2 = x2 ∧ ... ∧ X n = xn , C = c ) = P ( X 1 = x1 | C = c ) và t n g t nh v y i v i X 2 ,.., X n . Nh v y xác su t P ( X 1 = x1 ∧ X 2 = x2 ∧ ... ∧ X n = xn | C = c ) = n P ( X 1 = x1 | C = c P X 2 = x2 | C = c ...) X n = xn | C = c = ∏ P X i (= xi | C = c )( P( ) ) i M i m t th a s trong tích trên có th c tính d dàng t t p hu n luy n ban u, nh v y ph n g pháp Naïve Bayesian gi m s ph c t p c a vi c tính toán giá tr xác su t P ( X 1 = x1 ∧ X 2 = x2 ∧ ... ∧ X n = xn | C = c ) 4.3 Phân lo i email b ng ph ng pháp Naïve Bayesian : â y m i m u mà ta xét chính là m i m t email, t p các l p mà m i email có th thu c v là C ={spam, non-spam} Khi ta nh n c m t email, n u ta không bi t m t thông tin gì v nó, do ó khó có th q uy t n h chính xác email này là spam hay không . N u nh ta có thêm c m h ay thu c tính nào ó c a email thì ta có th n âng cao hi u qu n h n c email là spam M t email có nhi u c i m nh : tiêu , n i dung, có ính kèm t p tin hay không,…Ta có th d a vào các thông tin này n âng cao hi u q u phân l ai email spam. M t ví d n gi n : n u ta bi t c r ng 95 % email html là email spam, và ta l i nh n c m t email html, nh v y có th d a vào xác su t b i t tr c 9 5% email html là email spam tính c xác su t email mà ta nh n c là spam, n u x ác su t n ày l n h n xác su t email ó là non-spam, có th k t 37 lu n r n g email ó là spam, tuy nhiên k t lu n n ày không chính xác l m Nh n g n u ta có c nhi u xác su t bi t tr c nh v y, thì k t lu n s tr n ên áng tin c y h n. có c c ác xác su t b i t tr c n ày, s d ng ph n g pháp Naïve Bayesian hu n luy n t p m u (email) ban u , sau ó s s d n g các xác su t n ày n g d ng vào phân l ai m t m u (email) m i. 4.3.1 Phân lo i email d a trên thu t toán Naïve Bayesian Gi thi t m i m t email c i d i n b i m t vector thu c tính r c tr n g x = ( x1 , x2 ,..., xn ) v i x1, x2 ,..., xn , là giá tr c a c ác thu c tính r X 1 , X 2 ,.., X n t n g n g trong không gian vector c tr n g X . Theo M Sahami et al [9] ta s d n g các giá tr nh phân, X i =1 n u các c m c a X i có trong email, ng c l i X i =0. Ta tính giá tr t n g h MI (X,C) (Mutual Information) mà m i mt i di n c a X thu c v lo i C n h sau: P( X = x, C = c) ∑ MI ( X , C ) = P( X = x, C = c).log P( X = x) P(C = c) x ∈{0,1 } c ∈ { spam, non − spam } Công th c 4-5 :công th c tính t ng h MI Sau ó ta ch n các thu c tính có giá tr MI cao nh t.Các xác su t P(X), P(C), P(X,C) c tính d a trên d li u h c D a vào công th c xác su t Bayes và công th c xác su t y ta r có c xác su t m t email v i vector c tr n g x thu c v lo i c là: r x uu r r uu r r P(C = c).P( X = x | C = c) P(C = c | X = x) = uu r r ∑ P(C = k ).P( X = x | C = k ) k ∈{spam , non − spam } c xét, c ∈ { spam, nonspam } V i C là e email Công th c 4-6 38 uu r Th c t thì r t khó tính ...
Tìm kiếm theo từ khóa liên quan:
Luận văn CNTT mẫu luận văn giáo trình IT luận văn kinh tế đồ án IT mẫuTài liệu liên quan:
-
Đề tài Thực trạng và nhưng giải pháp cho công tác quy hoạch sử dụng đất'
35 trang 216 0 0 -
Bàn về nghiệp vụ bảo hiểm nhân thọ thế giới và các loại hình hiện nay ở Việt Nam -4
8 trang 202 0 0 -
Luận văn tốt nghiệp: Thương mại điện tử trong hoạt động ngoại thương VN-thực trạng và giải pháp
37 trang 197 0 0 -
Giáo trình Phân tích thiết kế hệ thống thông tin (chương 2-bài 2)
14 trang 183 0 0 -
Khóa luận tốt nghiệp: Môi trường đầu tư bất động sản Việt Nam: thực trạng và giải pháp
83 trang 176 0 0 -
Đề tài: Tìm hiểu về thủ tục hải quan điện tử ở Việt Nam
47 trang 173 0 0 -
LUẬN VĂN: Thực trạng và nhưng giải pháp cho công tác quy hoạch sử dụng đất
29 trang 165 0 0 -
Đề tài: Thực trạng và giải pháp nhằm giảm thiểu tình trạng tranh chấp lao động ở Việt Nam
23 trang 154 0 0 -
Luận văn: Nâng cao năng lực cạnh tranh trong dài hạn bằng việc củng cố thị phần trong phân phối
61 trang 150 0 0 -
83 trang 142 0 0
-
Đề tài: Nâng cao chất lượng dịch vụ cho thuê tài chính tại Công ty cho thuê tài chính II
75 trang 141 0 0 -
Giải pháp vè kiến nghị nhằm mở rộng tín dụng xuất khẩu tại Vietcombank Hà nội - 1
10 trang 139 0 0 -
Bài thuyết trình Chính sách tài khóa kinh tế vĩ mô
14 trang 132 0 0 -
108 trang 131 0 0
-
Khóa luận tốt nghiệp: Thực trạng vấn đề bảo vệ quyền lợi người tiêu dùng ở Việt Nam
100 trang 124 0 0 -
95 trang 119 0 0
-
102 trang 119 0 0
-
Đề tài: 'Nâng cao năng lực hoạt động của bộ máy quản lý ở công ty bảo hiểm nhân thọ Thanh Hoá'
84 trang 113 0 0 -
Luận văn: Cơ cầu lao động và các giải pháp kích cầu lao động
31 trang 106 0 0 -
Đề tài: Tìm hiểu môi trường đầu tư Việt Nam - ĐH Ngoại thương
23 trang 105 0 0