Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
Số trang: 9
Loại file: pdf
Dung lượng: 185.74 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 4: Phân lớp văn bản" cung cấp cho người học các kiến thức: Tiền xử lý, biểu diễn nhị phân, Tf-idf, Bayes rule, LibSVM. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 4 Phân lớp văn bảnTf-idfNaive BayesLibSVMIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHN2Chương 4 Phân lớp văn bảnTf-idfTiền xử lýINFORMATION EXTRACTION●NATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONSNATURAL LANGUAGE GENERATIONTại sao cần tiền xử lý?–Loại bỏ nhiễu–Giảm độ lớn từ vựng–Tăng độ chính xác–Tăng tốc độDATA + LINGUISTICS + MACHINE LEARNING34Chương 4 Phân lớp văn bảnTf-idfTiền xử lýChương 4 Phân lớp văn bảnTf-idfTiền xử lý1/ Tách từ2/ Loại bỏ dấu câu3/ Chuyển về viết thường4/ Loại bỏ từ dừng5/ Loại bỏ từ hiếmtúi từ5Chương 4 Phân lớp văn bảnTf-idfTiền xử lý6Chương 4 Phân lớp văn bảnTf-idfBiểu diễn nhị phânBiểu diễn n-gramboolean(w,d)= 1 nếu w xuất hiện trong văn b ản dhọc sinh học sinh họcTừ:{học_sinh, học, sinh_học}Unigram:{học, sinh, học, sinh, học}Bigram:{học-sinh, sinh-học, học-sinh, sinh-học}= 0 nếu w không xuất hiện trong d●7Đơn giản, không phân biệt tần xu ất xu ất hi ện8Chương 4 Phân lớp văn bảnTf-idfTfChương 4 Phân lớp văn bảnTf-idfDftf(w,d): số lần xuất hiện của từ w trong văn bản d●●●Số lần xuất hiện càng cao thì từ càng có vai tròquan trọng trong văn bảndf(w): số văn bản từ w xuất hiện●Từ xuất hiện trong rất nhiều văn b ản thì ít quantrọngTừ dừng có tần xuất xuất hiện cao trong h ầu h ếtvăn bản nhưng đã bị loại bỏ trong b ước ti ền x ửlýChưa thể hiện vai trò của từ trong c ả tập vănbản9Chương 4 Phân lớp văn bảnTf-idfTf-idf10Chương 4 Phân lớp văn bảnNaive BayesBayes ruletf-idf(w,d) = tf(w,d) x log N / df(w)●trong đó N là số lượng văn bản●11Pr(A): xác suất xảy ra sự kiện APr(A|B): xác suất điều kiện x ảy ra A bi ết B đãxảy ra12T2T3T4T5T6T7CNTrờimưanắngrâmmưarâmmưa?ChuồnchuồnthấpcaovừathấpcaovừathấpPr(mưa) = 3/6Pr(nắng) = 1/6Pr(râm) = 2/6Pr(thấp|mưa) = 2/3Pr(cao|mưa) = 0/3Pr(vừa|mưa) = 1/3Pr(thấp) = 2/6Pr(cao) = 2/6Pr(vừa) = 2/6Pr(thấp|nắng) = 0/1Pr(cao|nắng) = 1/1Pr(vừa|nắng) = 0/1Xác suất tiên nghiệmXác suất biênP(A) .P(B|A)P(B)Xác suất hậu nghiệmKhả năngPr(thấp|râm) = 0/2Pr(cao|râm) = 1/2Pr(vừa|râm) = 1/213Định luật dây chuyền14Ví dụ: Ba người A, B, C tham gia tranh lu ận. A,B, C chiếm lần lượt 20%, 30%, 50% t ổng s ốtranh luận đưa ra. Hỏi xác su ất để C đ ưa ramột tranh luận tiêu cực là bao nhiêu bi ết r ằng t ỉlệ tranh luận tiêu cực của A, B, C l ần l ượt là5%, 3%, và 1%?P(A1,A2,A3..An) = P(A1|A2,A3..An)P(A2|A3..An)..P(An-1|An)P(An)1516P(A)=.2P(B)=.3P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|C)P(C) = .05x.2 + .03x.3 + .01x.5=.024P(C)=.5P(C|neg) = P(C)P(neg|C)/P(neg)= .01x.5/.024 = .208P(neg|A)=.05P(neg|B)=.03P(neg|C)=.01P(C|neg) = ?17●P(c|x) = P(c|f1,f2..fn)18●= P(c)P(f1,f2..fn|c)/P(f1,f2..fn)Giả thiết độc lập: Các đặc trưng là đ ộc l ập v ớinhau về mặt xác suấtP(fi|fj) = P(fi)~ P(c)P(f1,f2..fn|c)P(c|x)~P(f1|f2..fn,c)P(f2|f3..fn,c)..P(fn-1|fn,c)P(fn|c)P(c)= P(f1,f2..fn,c)=P(f1|c)P(f2|c)..P(fn|c)P(c)= P(f1|f2..fn,C)P(f2|f3..fn,C)..P(fn-1|fn,C)P(fn|C)P(C)P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)1920
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 4 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 4 Phân lớp văn bảnTf-idfNaive BayesLibSVMIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHN2Chương 4 Phân lớp văn bảnTf-idfTiền xử lýINFORMATION EXTRACTION●NATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONSNATURAL LANGUAGE GENERATIONTại sao cần tiền xử lý?–Loại bỏ nhiễu–Giảm độ lớn từ vựng–Tăng độ chính xác–Tăng tốc độDATA + LINGUISTICS + MACHINE LEARNING34Chương 4 Phân lớp văn bảnTf-idfTiền xử lýChương 4 Phân lớp văn bảnTf-idfTiền xử lý1/ Tách từ2/ Loại bỏ dấu câu3/ Chuyển về viết thường4/ Loại bỏ từ dừng5/ Loại bỏ từ hiếmtúi từ5Chương 4 Phân lớp văn bảnTf-idfTiền xử lý6Chương 4 Phân lớp văn bảnTf-idfBiểu diễn nhị phânBiểu diễn n-gramboolean(w,d)= 1 nếu w xuất hiện trong văn b ản dhọc sinh học sinh họcTừ:{học_sinh, học, sinh_học}Unigram:{học, sinh, học, sinh, học}Bigram:{học-sinh, sinh-học, học-sinh, sinh-học}= 0 nếu w không xuất hiện trong d●7Đơn giản, không phân biệt tần xu ất xu ất hi ện8Chương 4 Phân lớp văn bảnTf-idfTfChương 4 Phân lớp văn bảnTf-idfDftf(w,d): số lần xuất hiện của từ w trong văn bản d●●●Số lần xuất hiện càng cao thì từ càng có vai tròquan trọng trong văn bảndf(w): số văn bản từ w xuất hiện●Từ xuất hiện trong rất nhiều văn b ản thì ít quantrọngTừ dừng có tần xuất xuất hiện cao trong h ầu h ếtvăn bản nhưng đã bị loại bỏ trong b ước ti ền x ửlýChưa thể hiện vai trò của từ trong c ả tập vănbản9Chương 4 Phân lớp văn bảnTf-idfTf-idf10Chương 4 Phân lớp văn bảnNaive BayesBayes ruletf-idf(w,d) = tf(w,d) x log N / df(w)●trong đó N là số lượng văn bản●11Pr(A): xác suất xảy ra sự kiện APr(A|B): xác suất điều kiện x ảy ra A bi ết B đãxảy ra12T2T3T4T5T6T7CNTrờimưanắngrâmmưarâmmưa?ChuồnchuồnthấpcaovừathấpcaovừathấpPr(mưa) = 3/6Pr(nắng) = 1/6Pr(râm) = 2/6Pr(thấp|mưa) = 2/3Pr(cao|mưa) = 0/3Pr(vừa|mưa) = 1/3Pr(thấp) = 2/6Pr(cao) = 2/6Pr(vừa) = 2/6Pr(thấp|nắng) = 0/1Pr(cao|nắng) = 1/1Pr(vừa|nắng) = 0/1Xác suất tiên nghiệmXác suất biênP(A) .P(B|A)P(B)Xác suất hậu nghiệmKhả năngPr(thấp|râm) = 0/2Pr(cao|râm) = 1/2Pr(vừa|râm) = 1/213Định luật dây chuyền14Ví dụ: Ba người A, B, C tham gia tranh lu ận. A,B, C chiếm lần lượt 20%, 30%, 50% t ổng s ốtranh luận đưa ra. Hỏi xác su ất để C đ ưa ramột tranh luận tiêu cực là bao nhiêu bi ết r ằng t ỉlệ tranh luận tiêu cực của A, B, C l ần l ượt là5%, 3%, và 1%?P(A1,A2,A3..An) = P(A1|A2,A3..An)P(A2|A3..An)..P(An-1|An)P(An)1516P(A)=.2P(B)=.3P(neg) = P(neg|A)P(A) + P(neg|B)P(B) + P(neg|C)P(C) = .05x.2 + .03x.3 + .01x.5=.024P(C)=.5P(C|neg) = P(C)P(neg|C)/P(neg)= .01x.5/.024 = .208P(neg|A)=.05P(neg|B)=.03P(neg|C)=.01P(C|neg) = ?17●P(c|x) = P(c|f1,f2..fn)18●= P(c)P(f1,f2..fn|c)/P(f1,f2..fn)Giả thiết độc lập: Các đặc trưng là đ ộc l ập v ớinhau về mặt xác suấtP(fi|fj) = P(fi)~ P(c)P(f1,f2..fn|c)P(c|x)~P(f1|f2..fn,c)P(f2|f3..fn,c)..P(fn-1|fn,c)P(fn|c)P(c)= P(f1,f2..fn,c)=P(f1|c)P(f2|c)..P(fn|c)P(c)= P(f1|f2..fn,C)P(f2|f3..fn,C)..P(fn-1|fn,C)P(fn|C)P(C)P(c|x) ~ P(f1|c)P(f2|c)..P(fn|c)P(c)1920
Tìm kiếm theo từ khóa liên quan:
Bài giảng Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên Kỹ thuật lập trình Phân lớp văn bản Biểu diễn nhị phânTài liệu liên quan:
-
12 trang 309 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 274 0 0 -
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 268 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 210 0 0 -
Giới thiệu môn học Ngôn ngữ lập trình C++
5 trang 197 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 196 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 175 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 169 0 0 -
8 trang 164 0 0
-
74 trang 158 0 0