Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 6 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
Số trang: 6
Loại file: pdf
Dung lượng: 174.94 KB
Lượt xem: 11
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 6: Mô hình ngôn ngữ" cung cấp cho người học các kiến thức: Mô hình ngôn ngữ, mô hình n-gram, Perplexity, sửa lỗi chính tả. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 6 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 6 Mô hình ngôn ngữMô hình ngôn ngữMô hình n-gramPerplexityIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHNSửa lỗi chính tả2Chương 6 Mô hình ngôn ngữMô hình ngôn ngữINFORMATION EXTRACTIONNATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONS`NATURAL LANGUAGE GENERATIONDATA + LINGUISTICS + MACHINE LEARNING3From Dan Jurafsky 20184Chương 6 Mô hình ngôn ngữMô hình ngôn ngữ●●Chương 6 Mô hình ngôn ngữMô hình ngôn ngữTìm từ tiếp theo biết các từ đ ằng tr ước●Ứng dụng“Hôm nay tôi đi...”Sửa lỗi chính tảP(học| hôm_nay tôi đi) = ?Dịch máyP(chơi| hôm_nay tôi đi) = ?Tóm tắt văn bảnBiểu diễn văn bảnTính xác suất của một chuỗiP( hôm_nay tôi đi học ) = ?5Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình unigram6Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình bigram●p(w|w1 w2 … wn) = p(w)●p(w|w1 w2 … wn) = p(w|wn)●p(w) = (count(w) + 1) / (sum count(w’) + V)●p(w|wn) = (count(wn w) + 1)/ (count(w n) + V )p( hôm_nay tôi đi học ) = p() *p(hôm_nay) * p(tôi) * p(đi) * p(học) * p()●Chú ý: không sử dụng đến p(wn)p( hôm_nay tôi đi h ọc ) = p(hôm_nay|)* p(tôi|hôm_nay) * p(đi|tôi) * p(học|đi) * p(|h ọc)78Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình bigram●Chương 6 Mô hình ngôn ngữPerplexityBackup ngram●Đánh giá chất lượng của mô hình ngôn ng ữ9Chương 6 Mô hình ngôn ngữSửa lỗi chính tảChương 6 Mô hình ngôn ngữPerplexity●●●10Mô hình bigramSử dụng tập train để xác định tham s ố cho môhình ngôn ngữ●1-2% lỗi đánh máy văn bản●10-15% lỗi gõ câu truy vấn●20-40% lỗi là từ có trong từ đi ểnTính perplexity trên tập test đ ộc l ập v ới t ập train1112Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuwwbestChương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễunoisy channelw’decoder13Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu14Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu1516Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuChương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu17Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuFrom Jurafsky (2018)18Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu●Xây dựng confusion matrix s ử dụng ph ươngpháp Expectation – MaximizationKernighan, M. D., Church, K. W., and Gale, W. A. (1990). “A spellingcorrection program base on a noisy channel model”. In COLING-90,Helsinki, Vol. II, pp. 205–211.1920
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 6 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 6 Mô hình ngôn ngữMô hình ngôn ngữMô hình n-gramPerplexityIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHNSửa lỗi chính tả2Chương 6 Mô hình ngôn ngữMô hình ngôn ngữINFORMATION EXTRACTIONNATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONS`NATURAL LANGUAGE GENERATIONDATA + LINGUISTICS + MACHINE LEARNING3From Dan Jurafsky 20184Chương 6 Mô hình ngôn ngữMô hình ngôn ngữ●●Chương 6 Mô hình ngôn ngữMô hình ngôn ngữTìm từ tiếp theo biết các từ đ ằng tr ước●Ứng dụng“Hôm nay tôi đi...”Sửa lỗi chính tảP(học| hôm_nay tôi đi) = ?Dịch máyP(chơi| hôm_nay tôi đi) = ?Tóm tắt văn bảnBiểu diễn văn bảnTính xác suất của một chuỗiP( hôm_nay tôi đi học ) = ?5Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình unigram6Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình bigram●p(w|w1 w2 … wn) = p(w)●p(w|w1 w2 … wn) = p(w|wn)●p(w) = (count(w) + 1) / (sum count(w’) + V)●p(w|wn) = (count(wn w) + 1)/ (count(w n) + V )p( hôm_nay tôi đi học ) = p() *p(hôm_nay) * p(tôi) * p(đi) * p(học) * p()●Chú ý: không sử dụng đến p(wn)p( hôm_nay tôi đi h ọc ) = p(hôm_nay|)* p(tôi|hôm_nay) * p(đi|tôi) * p(học|đi) * p(|h ọc)78Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình bigram●Chương 6 Mô hình ngôn ngữPerplexityBackup ngram●Đánh giá chất lượng của mô hình ngôn ng ữ9Chương 6 Mô hình ngôn ngữSửa lỗi chính tảChương 6 Mô hình ngôn ngữPerplexity●●●10Mô hình bigramSử dụng tập train để xác định tham s ố cho môhình ngôn ngữ●1-2% lỗi đánh máy văn bản●10-15% lỗi gõ câu truy vấn●20-40% lỗi là từ có trong từ đi ểnTính perplexity trên tập test đ ộc l ập v ới t ập train1112Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuwwbestChương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễunoisy channelw’decoder13Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu14Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu1516Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuChương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu17Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuFrom Jurafsky (2018)18Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu●Xây dựng confusion matrix s ử dụng ph ươngpháp Expectation – MaximizationKernighan, M. D., Church, K. W., and Gale, W. A. (1990). “A spellingcorrection program base on a noisy channel model”. In COLING-90,Helsinki, Vol. II, pp. 205–211.1920
Tìm kiếm theo từ khóa liên quan:
Bài giảng Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên Kỹ thuật lập trình Mô hình ngôn ngữ Mô hình n-gramGợi ý tài liệu liên quan:
-
12 trang 306 0 0
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 274 0 0 -
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 266 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 207 0 0 -
Giới thiệu môn học Ngôn ngữ lập trình C++
5 trang 195 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 192 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 174 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 167 0 0 -
8 trang 163 0 0
-
74 trang 157 0 0