Danh mục

Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)

Số trang: 5      Loại file: pdf      Dung lượng: 399.41 KB      Lượt xem: 21      Lượt tải: 0    
Jamona

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí Tải xuống file đầy đủ (5 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng "Xử lý ngôn ngữ tự nhiên - Chương 8: Trích rút thông tin" cung cấp cho người học các kiến thức: Trích rút thuật ngữ, trích rút quan hệ, phương pháp Snowball, phương pháp hướng dẫn từ xa. Mời các bạn cùng tham khảo.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên: Chương 8 - Nguyễn Kiêm Hiếu (ĐH Bách khoa Hà Nội)Chương 8 Trích rút thông tinTrích rút thuật ngữTrích rút quan hệPhương pháp SnowballIT4772 Xử lý ngôn ngữ tự nhiênViện CNTT-TT, ĐHBKHNPhương pháp hướng dẫn từ xa2Chương 8 Trích rút thông tinTrích rút thuật ngữINFORMATION EXTRACTION●NATURAL LANGUAGE UNDERSTANDINGEND-TO-ENDAPPLICATIONS●Làm sao biết “trí tuệ nhân t ạo” là thu ật ng ữtrong lĩnh vực CNTT?Làm sao trích rút các thuật ngữ từ một tập vănbản trong lĩnh vực CNTT?NATURAL LANGUAGE GENERATIONDATA + LINGUISTICS + MACHINE LEARNING34Chương 8 Trích rút thông tinTrích rút thuật ngữTạo ứng cử viênChương 8 Trích rút thông tinTrích rút thuật ngữ●B1: Tạo các tập ứng cử viên●B2: Xếp hạng các ứng cử viên●●Tiền xử lý:–Tách từ–Loại bỏ từ dừngTạo ứng cử viên–Cách 1: sử dụng n-gram (n = 2, 3, 4)–Cách 2: Sử dụng thông tin cú pháp●●●Từ loạiCụm danh từMẫu ngôn ngữ (vd N A, N N)5Chương 8 Trích rút thông tinTrích rút thuật ngữXếp hạng ứng cử viên●PMI(w1, w2) = log (p(w1, w2) / (p(w1) * p(w2))●p(w1, w2) = count(w1,w2) / D●p(w1) = count(w1) / N6Chương 8 Trích rút thông tinTrích rút quan hệNam châmphát-hànhbao-gồmBức tườngthành-viênNgười mộng-dugiáo-dụcTrần LậpĐHXDnơi sinhđịa-điểmHà Nội7quốc-tịchthủ-đô8Chương 8 Trích rút thông tinTrích rút quan hệ●Chương 8 Trích rút thông tinTrích rút quan hệThực thể có tên●Quan hệ (arg1, relation, arg2)PERSON: POLITICIAN, SCIENTIST, MUSICIAN(Bức Tường, phát hành, Nam châm)PRODUCT: MOVIE, SONG, BRAND(Hà Nội, thủ đô của, Việt Nam)ORG: CORP, PARTY, GPE9Chương 8 Trích rút thông tinTrích rút quan hệSnowball●10Chương 8 Trích rút thông tinTrích rút quan hệSnowballB1: Cung cấp các ví dụ khởi đầu●B2: Tìm sự xuất hiện trong văn b ản“computer servers at Microsoft’s headquarters in Redmond”1112Chương 8 Trích rút thông tinTrích rút quan hệSnowball●Chương 8 Trích rút thông tinTrích rút quan hệSnowballB3: Xây dựng pattern●“computer servers at Microsoft’s headquarters in Redmond”B2*: Tìm ví dụ mới“Baidu’s headquarters in Beijing”’s headquarters in ’s headquarters in 13Chương 8 Trích rút thông tinTrích rút quan hệSnowball●14Chương 8 Trích rút thông tinTrích rút quan hệDistant supervisionB3*: Xây dựng pattern●Sử dụng ví dụ ban đầu từ một cơ s ở tri th ức(Freebase/Wikipedia)“Beijing-based Baidu”-based 1516Q&Ahieunk@soict.hust.edu.vn17

Tài liệu được xem nhiều: