Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 3 - Lê Thanh Hương
Số trang: 13
Loại file: pdf
Dung lượng: 666.63 KB
Lượt xem: 15
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài này tập trung giảng về gán nhãn từ loại. Những nội dung chính được đề cập trong bài gồm có: Tại sao cần gán nhãn? Tập từ loại tiếng Anh, lớp từ mở trong tiếng Anh, tập nhãn cho tiếng Anh, các phương pháp gán nhãn từ loại, các cách tiếp cận, dán nhãn dựa trên xác suất,... và các nội dung liên quan khác. Mời các bạn cùng tham khảo
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 3 - Lê Thanh HươngĐịnh nghĩaGán nhãn từ loạizGán nhãn từ loại (Part of Speech tagging - POStagging): mỗi từ trong câu được gán nhãn thẻ từ loạitương ứng của nózLê Thanh HươngBộ môn Hệ thống Thông tinViện CNTT &TT – Trường ĐHBKHNEmail: huonglt-fit@mail.hut.edu.vnzVào : 1 đoạn văn bản đã tách từ + tập nhãnRa: cách gán nhãn chính xác nhấtVí dụ 1Ví dụ 2Ví dụ 3Ví dụ 4Ví dụ 5¾ Gán nhãn làm cho việc phân tích văn bản dễ dàng hơn1Tập từ loại tiếng AnhTại sao cần gán nhãn?zzz2Dễ thực hiện: có thể thực hiện bằng nhiều phương phápkhác nhauz Các phương pháp sử dụng ngữ cảnh có thể đem lạikết quả tốtz MặcMặ dù nênê ththực hiệhiện bằbằng phânhâ tíchtí h vănă bảbảnCác ứng dụng:z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead –N [led], V: [li:d]z Tiền xử lý cho PTCP. PTCP thực hiện việc gán nhãntốt hơn nhưng đắt hơnz Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v…Dễ đánh giá (có bao nhiêu thẻ được gán nhãn đúng?) 3zLớp đóng (các từ chức năng): số lượng cố địnhzzzzzzzGiới từ (Prepositions): on, under, over,…Tiểu từ (Particles): abroad, about, around, before, in,instead, since, without,…Mạo từ (Articles): a, an, theLiên từ (Conjunctions): and, or, but, that,…Đại từ (Pronouns): you, me, I, your, what, who,…Trợ động từ (Auxiliary verbs): can, will, may, should,…Lớp mở: có thể có thêm từ mới4Lớp từ mở trong tiếng AnhTập nhãn cho tiếng AnhProper nouns: IBM, Coloradonounscount nouns: book, ticketcommon nounsverbsauxiliariesmass nouns: snow, saltzColor: red, whiteopenp classadjectivestập ngữ liệu Brown: 87 nhãn3 tập thường được sử dụng:z...¾Age: old, young¾Value: good, bad¾Nhỏ: 45 nhãn - Penn treebank (slide sau)Trung bình: 61 nhãn, British national corpusLớn: 146 nhãn, C7Locatives adverbs: home, here, downhilladverbsDegree adverbs: extremely, very, somewhatManner adverbs: slowly, delicatelyTemporal adverbs: yesterday, Monday56Penn Treebank – ví dụzThe grand jury commented on a number ofother topics.Ö The/DT grand/JJ jury/NN commented/VBDon/IN a/DT number/NN of/IN other/JJtopics/NNS ./.I know that blocks the sun.He always books the violin concert tickets early.He says that book is interesting.7Khó khăn trong gán nhãn từloại?8Các phương pháp gán nhãn từloạizDựa trên xác suất: dựa trên xác suất lớnnhất, dựa trên mô hình Markov ẩn (hiddenmarkov model – HMM)Pr (Det(Det-N)N) > Pr (Det-Det)(Det Det)zDựa trên luậtIf Then … … là xử lý nhập nhằng910Gán nhãn dựa trên xác suấtCác cách tiếp cậnzSử dụng HMM : “Sử dụng tất cả thông tin đãcó và đoán”Cho câu hoặc 1 xâu các từ, gán nhãn từ loạithường xảy ra nhất cho các từ trong xâu đó.zDựaự trên ràngg buộcộ ngữg ppháp:p “khônggđoán, chỉ loại trừ những khả năng sai”Cách thực hiện:zzHidden Markov model (HMM):Chọn thẻ từ loại làm tối đa xác suất:P(từ|từ loại)•P(từ loại| n từ loại phía trước)Dựa trên chuyển đổi: “Đoán trước, sau đócó thể thay đổi”11The/DT grand/JJ jury/NN commented/VBD on/IN a/DTnumber/NN of/IN other/JJ topics/NNS ./.⇒ P(jury|NN) = 1/212Gán nhãn HMMVí dụ -HMMszCông thức Bigram HMM: chọn ti cho wi có nhiềukhả năng nhất khi biết ti-1 và wi :(1)ti = argmaxj P(tj | ti-1 , wi)zGiả thiết đơn giản hóa HMM: vấn đề gán nhãncó thể giải quyết bằng cách dựa trên các từ vàthẻ từ loại bên cạnh nóti = argmaxj P(tj | tj-1 )P(wi | tj )Thực hiện học có giám sát, sau đó suy diễn để xácđịnh thẻ từ loại(2)xs chuỗi thẻxs từ thường xuất hiện với thẻ tj(các thẻ đồng xuất hiện)13Giả sử chúng ta có tất cả các từloại trừ từ raceVí dụ1.2.zz14Secretariat/NNP is/VBZ expected/VBN to/TO race/VBtomorrow/NNPeople/NNS continue/VBP to/TO inquire/VB the/DTreason/NN for/IN the/DT race/NN for/IN outer/JJspace/NNKhông thể đánh giá bằng cách chỉ đếm từ trong tập ngữliệu (và chuẩn hóa)Muốn 1 động từ theo sau TO nhiều hơn 1 danh từ (torace, to walk). Nhưng 1 danh từ cũng có thể theo sauTO (run to school)I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ? the/DTsun/NN.zzzChỉ nhìn vào từ đứng trước(bigram):to/TO race/??? NN or VB?the/DT race/???Áp dụng (2): ti = argmaxj P(tj | tj-1 )P(wi | tj )Chọn thẻ có xác suất lớn hơn giữa 2 xác suất:P(VB|TO)P(race|VB) hoặc P(NN|TO)P(race|NN)xác suất của 1 từ là race khi biết từ loại là VB.15Tính xác suấtBài tậpXét P(VB|TO) và P(NN|TO)zzz16zI know that blocks the sun.He always books the violin concert tickets early.He says that book is interesting.zI/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN.zHe/PP always/RB books/VBZ the/DT violin/NNconcert/NN tickets/NNS early/RB.zHe/PP says/VBZ that/WDT book/NN is/VBZinteresting/JJ.zI know that block blocks the sun.I/PP know/VBP that/DT block/NN blocks/NNS?VBZ?the/DT sun/NN.zTừ tập ngữ liệu BrownP(NN|TO ...
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 3 - Lê Thanh HươngĐịnh nghĩaGán nhãn từ loạizGán nhãn từ loại (Part of Speech tagging - POStagging): mỗi từ trong câu được gán nhãn thẻ từ loạitương ứng của nózLê Thanh HươngBộ môn Hệ thống Thông tinViện CNTT &TT – Trường ĐHBKHNEmail: huonglt-fit@mail.hut.edu.vnzVào : 1 đoạn văn bản đã tách từ + tập nhãnRa: cách gán nhãn chính xác nhấtVí dụ 1Ví dụ 2Ví dụ 3Ví dụ 4Ví dụ 5¾ Gán nhãn làm cho việc phân tích văn bản dễ dàng hơn1Tập từ loại tiếng AnhTại sao cần gán nhãn?zzz2Dễ thực hiện: có thể thực hiện bằng nhiều phương phápkhác nhauz Các phương pháp sử dụng ngữ cảnh có thể đem lạikết quả tốtz MặcMặ dù nênê ththực hiệhiện bằbằng phânhâ tíchtí h vănă bảbảnCác ứng dụng:z Text-to-speech: record - N: [‘reko:d], V: [ri’ko:d]; lead –N [led], V: [li:d]z Tiền xử lý cho PTCP. PTCP thực hiện việc gán nhãntốt hơn nhưng đắt hơnz Nhận dạng tiếng nói, PTCP, tìm kiếm, v.v…Dễ đánh giá (có bao nhiêu thẻ được gán nhãn đúng?) 3zLớp đóng (các từ chức năng): số lượng cố địnhzzzzzzzGiới từ (Prepositions): on, under, over,…Tiểu từ (Particles): abroad, about, around, before, in,instead, since, without,…Mạo từ (Articles): a, an, theLiên từ (Conjunctions): and, or, but, that,…Đại từ (Pronouns): you, me, I, your, what, who,…Trợ động từ (Auxiliary verbs): can, will, may, should,…Lớp mở: có thể có thêm từ mới4Lớp từ mở trong tiếng AnhTập nhãn cho tiếng AnhProper nouns: IBM, Coloradonounscount nouns: book, ticketcommon nounsverbsauxiliariesmass nouns: snow, saltzColor: red, whiteopenp classadjectivestập ngữ liệu Brown: 87 nhãn3 tập thường được sử dụng:z...¾Age: old, young¾Value: good, bad¾Nhỏ: 45 nhãn - Penn treebank (slide sau)Trung bình: 61 nhãn, British national corpusLớn: 146 nhãn, C7Locatives adverbs: home, here, downhilladverbsDegree adverbs: extremely, very, somewhatManner adverbs: slowly, delicatelyTemporal adverbs: yesterday, Monday56Penn Treebank – ví dụzThe grand jury commented on a number ofother topics.Ö The/DT grand/JJ jury/NN commented/VBDon/IN a/DT number/NN of/IN other/JJtopics/NNS ./.I know that blocks the sun.He always books the violin concert tickets early.He says that book is interesting.7Khó khăn trong gán nhãn từloại?8Các phương pháp gán nhãn từloạizDựa trên xác suất: dựa trên xác suất lớnnhất, dựa trên mô hình Markov ẩn (hiddenmarkov model – HMM)Pr (Det(Det-N)N) > Pr (Det-Det)(Det Det)zDựa trên luậtIf Then … … là xử lý nhập nhằng910Gán nhãn dựa trên xác suấtCác cách tiếp cậnzSử dụng HMM : “Sử dụng tất cả thông tin đãcó và đoán”Cho câu hoặc 1 xâu các từ, gán nhãn từ loạithường xảy ra nhất cho các từ trong xâu đó.zDựaự trên ràngg buộcộ ngữg ppháp:p “khônggđoán, chỉ loại trừ những khả năng sai”Cách thực hiện:zzHidden Markov model (HMM):Chọn thẻ từ loại làm tối đa xác suất:P(từ|từ loại)•P(từ loại| n từ loại phía trước)Dựa trên chuyển đổi: “Đoán trước, sau đócó thể thay đổi”11The/DT grand/JJ jury/NN commented/VBD on/IN a/DTnumber/NN of/IN other/JJ topics/NNS ./.⇒ P(jury|NN) = 1/212Gán nhãn HMMVí dụ -HMMszCông thức Bigram HMM: chọn ti cho wi có nhiềukhả năng nhất khi biết ti-1 và wi :(1)ti = argmaxj P(tj | ti-1 , wi)zGiả thiết đơn giản hóa HMM: vấn đề gán nhãncó thể giải quyết bằng cách dựa trên các từ vàthẻ từ loại bên cạnh nóti = argmaxj P(tj | tj-1 )P(wi | tj )Thực hiện học có giám sát, sau đó suy diễn để xácđịnh thẻ từ loại(2)xs chuỗi thẻxs từ thường xuất hiện với thẻ tj(các thẻ đồng xuất hiện)13Giả sử chúng ta có tất cả các từloại trừ từ raceVí dụ1.2.zz14Secretariat/NNP is/VBZ expected/VBN to/TO race/VBtomorrow/NNPeople/NNS continue/VBP to/TO inquire/VB the/DTreason/NN for/IN the/DT race/NN for/IN outer/JJspace/NNKhông thể đánh giá bằng cách chỉ đếm từ trong tập ngữliệu (và chuẩn hóa)Muốn 1 động từ theo sau TO nhiều hơn 1 danh từ (torace, to walk). Nhưng 1 danh từ cũng có thể theo sauTO (run to school)I/PP know/VBP that/WDT block/NN blocks/NNS?VBZ? the/DTsun/NN.zzzChỉ nhìn vào từ đứng trước(bigram):to/TO race/??? NN or VB?the/DT race/???Áp dụng (2): ti = argmaxj P(tj | tj-1 )P(wi | tj )Chọn thẻ có xác suất lớn hơn giữa 2 xác suất:P(VB|TO)P(race|VB) hoặc P(NN|TO)P(race|NN)xác suất của 1 từ là race khi biết từ loại là VB.15Tính xác suấtBài tậpXét P(VB|TO) và P(NN|TO)zzz16zI know that blocks the sun.He always books the violin concert tickets early.He says that book is interesting.zI/PP know/VBP that/WDT blocks/VBZ the/DT sun/NN.zHe/PP always/RB books/VBZ the/DT violin/NNconcert/NN tickets/NNS early/RB.zHe/PP says/VBZ that/WDT book/NN is/VBZinteresting/JJ.zI know that block blocks the sun.I/PP know/VBP that/DT block/NN blocks/NNS?VBZ?the/DT sun/NN.zTừ tập ngữ liệu BrownP(NN|TO ...
Tìm kiếm theo từ khóa liên quan:
Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ Bài giảng Xử lý ngôn ngữ tự nhiên Natural Language Processing Ngôn ngữ lập trình Gán nhãn từ loạiGợi ý tài liệu liên quan:
-
12 trang 306 0 0
-
Giáo trình Lập trình hướng đối tượng: Phần 2
154 trang 276 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 273 0 0 -
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 266 0 0 -
Bài thuyết trình Ngôn ngữ lập trình: Hệ điều hành Window Mobile
30 trang 265 0 0 -
Giáo trình Lập trình cơ bản với C++: Phần 1
77 trang 232 0 0 -
Bài giảng Một số hướng nghiên cứu và ứng dụng - Lê Thanh Hương
13 trang 226 0 0 -
Giáo án Tin học lớp 11 (Trọn bộ cả năm)
125 trang 218 1 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 207 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 192 0 0