Danh mục

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Số trang: 9      Loại file: pdf      Dung lượng: 185.74 KB      Lượt xem: 13      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (9 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 4: Phân lớp văn bản" cung cấp cho người học các kiến thức: Tiền xử lý, biểu diễn nhị phân, Tf-idf, Bayes rule, LibSVM. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 4 Phân lớp văn bảnTf-idfNaive BayesLibSVMIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHN2Chương 4 Phân lớp văn bảnTf-idfTiền xử lýINFORMATION EXTRACTION●NATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONSNATURAL LANGUAGE GENERATIONTại sao cần tiền xử lý?–Loại bỏ nhiễu–Giảm độ lớn từ vựng–Tăng độ chính xác–Tăng tốc độDATA + LINGUISTICS + MACHINE LEARNING34Chương 4 Phân lớp văn bảnTf-idfTiền xử lýChương 4 Phân lớp văn bảnTf-idfTiền xử lý1/ Tách từ2/ Loại bỏ dấu câu3/ Chuyển về viết thường4/ Loại bỏ từ dừng5/ Loại bỏ từ hiếmtúi từ5Chương 4 Phân lớp văn bảnTf-idfTiền xử lý6Chương 4 Phân lớp văn bảnTf-idfBiểu diễn nhị phânBiểu diễn n-gramboolean(w,d)= 1 nếu w xuất hiện trong văn b ản dhọc sinh học sinh họcTừ:{học_sinh, học, sinh_học}Unigram:{học, sinh, học, sinh, học}Bigram:{học-sinh, sinh-học, học-sinh, sinh-học}= 0 nếu w không xuất hiện trong d●7Đơn giản, không phân biệt tần xu ất xu ất hi ện8Chương 4 Phân lớp văn bảnTf-idfTfChương 4 Phân lớp văn bảnTf-idfDftf(w,d): số lần xuất hiện của từ w trong văn bản d●●●Số lần xuất hiện càng cao thì từ càng có vai tròquan trọng trong văn bảndf(w): số văn bản từ w xuất hiện●Từ xuất hiện trong rất nhiều văn b ản thì ít quantrọngTừ dừng có tần xuất xuất hiện cao trong h ầu h ếtvăn bản nhưng đã bị loại bỏ trong b ước ti ền x ửlýChưa thể hiện vai trò của từ trong c ả tập vănbản9Chương 4 Phân lớp văn bảnTf-idfTf-idf10Chương 4 Phân lớp văn bảnNaive BayesBayes ruletf-idf(w,d) = tf(w,d) x log N / df(w)●trong đó N là số lượng văn bản●11Pr(A): xác suất xảy ra sự kiện APr(A|B): xác suất điều kiện x ảy ra A bi ết B đãxảy ra12T2T3T4T5T6T7CNTrờimưanắngrâmmưarâmmưa?ChuồnchuồnthấpcaovừathấpcaovừathấpPr(mưa) = 3/6Pr(nắng) = 1/6Pr(râm) = 2/6Pr(thấp|mưa) = 2/3Pr(cao|mưa) = 0/3Pr(vừa|mưa) = 1/3Pr(thấp) = 2/6Pr(cao) = 2/6Pr(vừa) = 2/6Pr(thấp|nắng) = 0/1Pr(cao|nắng) = 1/1Pr(vừa|nắng) = 0/1Xác suất tiên nghiệmXác suất biênP(A) .P(B|A)P(B)Xác suất hậu nghiệmKhả năngPr(thấp|râm) = 0/2Pr(cao|râm) = 1/2Pr(vừa|râm) = 1/213Định luật dây chuyền14Ví dụ: Ba người A, B, C tham gia tranh lu ận. A,B, C chiếm lần lượt 20%, 30%, 50% t ổng s ốtranh luận đưa ra. Hỏi xác su ất để C đ ưa ramột tranh luận tiêu cực là bao nhiêu bi ết r ằng t ỉlệ tranh luận tiêu cực của A, B, C l ần l ượt là5%, 3%, và 1%?P(A1,A2,A3..An) = P(A1|A2,A3..An)P(A2|A3..An)..P(An-1|An)P(An)1516P(A)=.2P(B)=.3P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|C)P(C) = .05x.2 + .03x.3 + .01x.5=.024P(C)=.5P(C|neg) = P(C)P(neg|C)/P(neg)= .01x.5/.024 = .208P(neg|A)=.05P(neg|B)=.03P(neg|C)=.01P(C|neg) = ?17●P(c|x) = P(c|f1,f2..fn)18●= P(c)P(f1,f2..fn|c)/P(f1,f2..fn)Giả thiết độc lập: Các đặc trưng là đ ộc l ập v ớinhau về mặt xác suấtP(fi|fj) = P(fi)~ P(c)P(f1,f2..fn|c)P(c|x)~P(f1|f2..fn,c)P(f2|f3..fn,c)..P(fn-1|fn,c)P(fn|c)P(c)= P(f1,f2..fn,c)=P(f1|c)P(f2|c)..P(fn|c)P(c)= P(f1|f2..fn,C)P(f2|f3..fn,C)..P(fn-1|fn,C)P(fn|C)P(C)P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)1920

Tài liệu được xem nhiều: