Danh mục

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 6 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Số trang: 6      Loại file: pdf      Dung lượng: 174.94 KB      Lượt xem: 11      Lượt tải: 0    
Thư viện của tui

Phí tải xuống: 3,000 VND Tải xuống file đầy đủ (6 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 6: Mô hình ngôn ngữ" cung cấp cho người học các kiến thức: Mô hình ngôn ngữ, mô hình n-gram, Perplexity, sửa lỗi chính tả. Mời các bạn cùng tham khảo nội dung chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 6 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 6 Mô hình ngôn ngữMô hình ngôn ngữMô hình n-gramPerplexityIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHNSửa lỗi chính tả2Chương 6 Mô hình ngôn ngữMô hình ngôn ngữINFORMATION EXTRACTIONNATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONS`NATURAL LANGUAGE GENERATIONDATA + LINGUISTICS + MACHINE LEARNING3From Dan Jurafsky 20184Chương 6 Mô hình ngôn ngữMô hình ngôn ngữ●●Chương 6 Mô hình ngôn ngữMô hình ngôn ngữTìm từ tiếp theo biết các từ đ ằng tr ước●Ứng dụng“Hôm nay tôi đi...”Sửa lỗi chính tảP(học| hôm_nay tôi đi) = ?Dịch máyP(chơi| hôm_nay tôi đi) = ?Tóm tắt văn bảnBiểu diễn văn bảnTính xác suất của một chuỗiP( hôm_nay tôi đi học ) = ?5Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình unigram6Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình bigram●p(w|w1 w2 … wn) = p(w)●p(w|w1 w2 … wn) = p(w|wn)●p(w) = (count(w) + 1) / (sum count(w’) + V)●p(w|wn) = (count(wn w) + 1)/ (count(w n) + V )p( hôm_nay tôi đi học ) = p() *p(hôm_nay) * p(tôi) * p(đi) * p(học) * p()●Chú ý: không sử dụng đến p(wn)p( hôm_nay tôi đi h ọc ) = p(hôm_nay|)* p(tôi|hôm_nay) * p(đi|tôi) * p(học|đi) * p(|h ọc)78Chương 6 Mô hình ngôn ngữMô hình n-gramMô hình bigram●Chương 6 Mô hình ngôn ngữPerplexityBackup ngram●Đánh giá chất lượng của mô hình ngôn ng ữ9Chương 6 Mô hình ngôn ngữSửa lỗi chính tảChương 6 Mô hình ngôn ngữPerplexity●●●10Mô hình bigramSử dụng tập train để xác định tham s ố cho môhình ngôn ngữ●1-2% lỗi đánh máy văn bản●10-15% lỗi gõ câu truy vấn●20-40% lỗi là từ có trong từ đi ểnTính perplexity trên tập test đ ộc l ập v ới t ập train1112Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuwwbestChương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễunoisy channelw’decoder13Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu14Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu1516Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuChương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu17Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễuFrom Jurafsky (2018)18Chương 6 Mô hình ngôn ngữSửa lỗi chính tảMô hình kênh nhiễu●Xây dựng confusion matrix s ử dụng ph ươngpháp Expectation – MaximizationKernighan, M. D., Church, K. W., and Gale, W. A. (1990). “A spellingcorrection program base on a noisy channel model”. In COLING-90,Helsinki, Vol. II, pp. 205–211.1920

Tài liệu được xem nhiều: