Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)
Số trang: 5
Loại file: pdf
Dung lượng: 399.41 KB
Lượt xem: 21
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 8: Trích rút thông tin" cung cấp cho người học các kiến thức: Trích rút thuật ngữ, trích rút quan hệ, phương pháp Snowball, phương pháp hướng dẫn từ xa. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 8 Trích rút thông tinTrích rút thuật ngữTrích rút quan hệPhương pháp SnowballIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHNPhương pháp hướng dẫn từ xa2Chương 8 Trích rút thông tinTrích rút thuật ngữINFORMATION EXTRACTION●NATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONS●Làm sao biết “trí tuệ nhân t ạo” là thu ật ng ữtrong lĩnh vực CNTT?Làm sao trích rút các thuật ngữ từ một tập vănbản trong lĩnh vực CNTT?NATURAL LANGUAGE GENERATIONDATA + LINGUISTICS + MACHINE LEARNING34Chương 8 Trích rút thông tinTrích rút thuật ngữTạo ứng cử viênChương 8 Trích rút thông tinTrích rút thuật ngữ●B1: Tạo các tập ứng cử viên●B2: Xếp hạng các ứng cử viên●●Tiền xử lý:–Tách từ–Loại bỏ từ dừngTạo ứng cử viên–Cách 1: sử dụng n-gram (n = 2, 3, 4)–Cách 2: Sử dụng thông tin cú pháp●●●Từ loạiCụm danh từMẫu ngôn ngữ (vd N A, N N)5Chương 8 Trích rút thông tinTrích rút thuật ngữXếp hạng ứng cử viên●PMI(w1, w2) = log (p(w1, w2) / (p(w1) * p(w2))●p(w1, w2) = count(w1,w2) / D●p(w1) = count(w1) / N6Chương 8 Trích rút thông tinTrích rút quan hệNam châmphát-hànhbao-gồmBức tườngthành-viênNgười mộng-dugiáo-dụcTrần LậpĐHXDnơi sinhđịa-điểmHà Nội7quốc-tịchthủ-đô8Chương 8 Trích rút thông tinTrích rút quan hệ●Chương 8 Trích rút thông tinTrích rút quan hệThực thể có tên●Quan hệ (arg1, relation, arg2)PERSON: POLITICIAN, SCIENTIST, MUSICIAN(Bức Tường, phát hành, Nam châm)PRODUCT: MOVIE, SONG, BRAND(Hà Nội, thủ đô của, Việt Nam)ORG: CORP, PARTY, GPE9Chương 8 Trích rút thông tinTrích rút quan hệSnowball●10Chương 8 Trích rút thông tinTrích rút quan hệSnowballB1: Cung cấp các ví dụ khởi đầu●B2: Tìm sự xuất hiện trong văn b ản“computer servers at Microsoft’s headquarters in Redmond”1112Chương 8 Trích rút thông tinTrích rút quan hệSnowball●Chương 8 Trích rút thông tinTrích rút quan hệSnowballB3: Xây dựng pattern●“computer servers at Microsoft’s headquarters in Redmond”B2*: Tìm ví dụ mới“Baidu’s headquarters in Beijing”’s headquarters in ’s headquarters in 13Chương 8 Trích rút thông tinTrích rút quan hệSnowball●14Chương 8 Trích rút thông tinTrích rút quan hệDistant supervisionB3*: Xây dựng pattern●Sử dụng ví dụ ban đầu từ một cơ s ở tri th ức(Freebase/Wikipedia)“Beijing-based Baidu”-based 1516Q&Ahieunk@soict.hust.edu.vn17
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 8 Trích rút thông tinTrích rút thuật ngữTrích rút quan hệPhương pháp SnowballIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHNPhương pháp hướng dẫn từ xa2Chương 8 Trích rút thông tinTrích rút thuật ngữINFORMATION EXTRACTION●NATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONS●Làm sao biết “trí tuệ nhân t ạo” là thu ật ng ữtrong lĩnh vực CNTT?Làm sao trích rút các thuật ngữ từ một tập vănbản trong lĩnh vực CNTT?NATURAL LANGUAGE GENERATIONDATA + LINGUISTICS + MACHINE LEARNING34Chương 8 Trích rút thông tinTrích rút thuật ngữTạo ứng cử viênChương 8 Trích rút thông tinTrích rút thuật ngữ●B1: Tạo các tập ứng cử viên●B2: Xếp hạng các ứng cử viên●●Tiền xử lý:–Tách từ–Loại bỏ từ dừngTạo ứng cử viên–Cách 1: sử dụng n-gram (n = 2, 3, 4)–Cách 2: Sử dụng thông tin cú pháp●●●Từ loạiCụm danh từMẫu ngôn ngữ (vd N A, N N)5Chương 8 Trích rút thông tinTrích rút thuật ngữXếp hạng ứng cử viên●PMI(w1, w2) = log (p(w1, w2) / (p(w1) * p(w2))●p(w1, w2) = count(w1,w2) / D●p(w1) = count(w1) / N6Chương 8 Trích rút thông tinTrích rút quan hệNam châmphát-hànhbao-gồmBức tườngthành-viênNgười mộng-dugiáo-dụcTrần LậpĐHXDnơi sinhđịa-điểmHà Nội7quốc-tịchthủ-đô8Chương 8 Trích rút thông tinTrích rút quan hệ●Chương 8 Trích rút thông tinTrích rút quan hệThực thể có tên●Quan hệ (arg1, relation, arg2)PERSON: POLITICIAN, SCIENTIST, MUSICIAN(Bức Tường, phát hành, Nam châm)PRODUCT: MOVIE, SONG, BRAND(Hà Nội, thủ đô của, Việt Nam)ORG: CORP, PARTY, GPE9Chương 8 Trích rút thông tinTrích rút quan hệSnowball●10Chương 8 Trích rút thông tinTrích rút quan hệSnowballB1: Cung cấp các ví dụ khởi đầu●B2: Tìm sự xuất hiện trong văn b ản“computer servers at Microsoft’s headquarters in Redmond”1112Chương 8 Trích rút thông tinTrích rút quan hệSnowball●Chương 8 Trích rút thông tinTrích rút quan hệSnowballB3: Xây dựng pattern●“computer servers at Microsoft’s headquarters in Redmond”B2*: Tìm ví dụ mới“Baidu’s headquarters in Beijing”’s headquarters in ’s headquarters in 13Chương 8 Trích rút thông tinTrích rút quan hệSnowball●14Chương 8 Trích rút thông tinTrích rút quan hệDistant supervisionB3*: Xây dựng pattern●Sử dụng ví dụ ban đầu từ một cơ s ở tri th ức(Freebase/Wikipedia)“Beijing-based Baidu”-based 1516Q&Ahieunk@soict.hust.edu.vn17
Tìm kiếm theo từ khóa liên quan:
Bài giảng Xử lý ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên Ngôn ngữ tự nhiên Kỹ thuật lập trình Trích rút thông tin Phương pháp SnowballTài liệu liên quan:
-
12 trang 319 0 0
-
Kỹ thuật lập trình trên Visual Basic 2005
148 trang 281 0 0 -
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 276 0 0 -
NGÂN HÀNG CÂU HỎI TRẮC NGHIỆM THIẾT KẾ WEB
8 trang 224 0 0 -
Giới thiệu môn học Ngôn ngữ lập trình C++
5 trang 207 0 0 -
Giáo trình Lập trình logic trong prolog: Phần 1
114 trang 205 0 0 -
Bài giảng Nhập môn về lập trình - Chương 1: Giới thiệu về máy tính và lập trình
30 trang 178 0 0 -
Xây dựng ontology trợ giúp ra quyết định về đào tạo cho các trường Đại học ở Việt Nam
10 trang 177 0 0 -
8 trang 166 0 0
-
74 trang 158 0 0