Danh mục

Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 2 - Lê Thanh Hương

Số trang: 5      Loại file: pdf      Dung lượng: 335.17 KB      Lượt xem: 10      Lượt tải: 0    
tailieu_vip

Phí tải xuống: miễn phí Tải xuống file đầy đủ (5 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài 2 bao gồm những nội dung kiến thức cơ bản về tách từ tiếng Việt. Đây là bước xử lý quan trọng đối với các hệ thống xử lý ngôn ngữ tự nhiên, đặc biệt là đối với các ngôn ngữ đơn lập. Với các ngôn ngữ đơn lập, một từ có thể có một hoặc nhiều âm tiết. Vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. Mời các bạn cùng tham khảo bài giảng để biết thêm chi tiết.
Nội dung trích xuất từ tài liệu:
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 2 - Lê Thanh HươngTách từTách từ tiếng ViệtzzLê Thanh HươngBộ môn Hệ thống Thông tinViện CNTT &TT – Trường ĐHBKHNEmail: huonglt-fit@mail.hut.edu.vnz¾Mục đích: xác định ranh giới của các từ trong câu.Là bước xử lý quan trọng đối với các hệ thống XLNNTN,đặc biệt là đối với các ngôn ngữ đơn lập, ví dụ: âm tiếtTrung Quốc, âm tiết Nhật, âm tiết Thái, và tiếng Việt.Với các ngôn ngữ đơn lập, một từ có thểể có một hoặcnhiều âm tiết.Vấn đề của bài toán tách từ là khử được sự nhập nhằngtrong ranh giới từ.1Từ vựngzz2Từ vựngtiếng Việt là ngôn ngữ không biến hìnhTừ điển từ tiếng Việt (Vietlex): >40.000 từ,trong đó:zzzzz81.55%8155% ââm tiết là từ : từ đơnđ15.69% các từ trong từ điển là từ đơn70.72% từ ghép có 2 âm tiết13.59% từ ghép ≥ 3 âm tiết1.04% từ ghép ≥ 4 âm tiếtĐộ dài#%16,30315.69228,41670.72342,25922592,7845 625.626.9354191.04Tổng40,181100Bảng 1. Độ dài của từ tính theo âm tiết3Qui tắc cấu tạo từ tiếng ViệtzzQui tắc cấu tạo từ tiếng ViệtTừ đơn: dùng một âm tiết làm một từ.zzVí dụ: tôi, bác, người, cây, hoa, đi, chạy, vì, đã, à, nhỉ, nhé...Từ ghép: tổ hợp (ghép) các âm tiết lại, giữa các âm tiếtđó có quan hệ về nghĩa với nhau.zz4zTừ ghép đẳngẳ lập. cácá thànhà tốố cấuấ tạo cóó quan hệệ bìnhì đẳngẳ vớiớnhau về nghĩa.z Ví dụ: chợ búa, bếp núcTừ ghép chính phụ. các thành tố cấu tạo này phụ thuộc vào thànhtố cấu tạo kia. Thành tố phụ có vai trò phân loại, chuyên biệt hoávà sắc thái hoá cho thành tố chính.z Ví dụ: tàu hoả, đường sắt, xấu bụng, tốt mã, ngay đơ, thằngtắp, sưng vù...5Từ láy: các yếu tố cấu tạo có thành phần ngữ âm được lặplại; nhưng vừa lặp vừa biến đổi. Một từ được lặp lại cũng chota từ láy.Biến thể của từ: được coi là dạng lâm thời biến động hoặcdạng lờilời nóinói của từ.zzRút gọn một từ dài thành từ ngắn hơnz ki-lô-gam → ki lô/ kí lôLâm thời phá vỡ cấu trúc của từ, phân bố lại yếu tố tạo từ vớinhững yếu tố khác ngoài từ chen vào. Ví dụ:z khổ sở → lo khổ lo sởz ngặt nghẽo → cười ngặt cười nghẽoz danh lợi + ham chuộng → ham danh chuộng lợi6Các hướng tiếp cậnQui tắc cấu tạo từ tiếng ViệtzzzCác diễn tả gồm nhiều từ (vd, “bởi vì”) cũng được coi là1 từTên riêng: tên người và vị trí được coi là 1 đơn vị từvựngCác mẫuẫ thường xuyên: số,ố thời gianzzzTiếp cận dựa trên từ điểnTiếp cận theo phương pháp thống kêKết hợp hai phương pháp trên.7Các phương phápzzzzzzz8Tiếp cận dựa trên từ điểnSo khớp từ dài nhất (Longest Matching)Học dựa trên sự cải biến (Transformation-basedLearning – TBL)Chuyển đổi trạng thái trọng số hữu hạn (Weighted FiniteState Transducer – WFST)Độ hỗn loạn cực đại (Maximum Entropy – ME)Học máy sử dụng mô hình Markov ẩn (Hidden MarkovModels- HMM)Học máy sử dụng vectơ hỗ trợ (Support VectorMachines)Kết hợp một số phương pháp trênz Xây dựng từ điểnz Mỗi mục từ lưu thông tin về từ, từ loại, nghĩa loạiz Tổ chức sao cho tốn ít bộ nhớ và thuận tiện trong việctìm kiếmz Mã hóa từ điển: Từ loại và nghĩa loại kiểu byte được lưudưới dạng một ký tự.z VD: danh từ -112 – p, - 115 – s9Tiếp cận dựa trên từ điểnzTìm từ trong từ điểnPhân trang theo hai chữ cái đầu của từ, sắp tăng. Với mỗi trang,các từ lại được sắp theo vần ABC.Paragraphbàzzn21ba......10xeContent¾1bao2bà ngoạibài tậpnxe cộxe đạp11Độ dài tối đa của từ? 3? 4? 5?Vấn đề: không xử lý được các tổ hợp từ cốđịnh, vd ông chẳng bà chuộc“Đ ra tất cảĐưaả cácá từ ghéphé cóó ttrong từ điểđiểntrùng với phần đầu của xâu vào12Tìm từ trong từ điểnPhân giải nhập nhằngNếu nhà máy nghỉ thì ta vềVị trí từ:012345 67z Ta có bảng sau:zLấy tất cả các cách phân tích, nếu phân tíchcú pháp cho ra cây đúng thì đó là cách phântích đúng.zzzKý hiệu:z - LTz - ĐgT - DT - ĐaT13Cách tiếp cận lai14Biểu thức chính qui2008.>z Kết hợp phân tích automat hữu hạn + biểu thức chínhquy + so khớp từ dài nhất + thống kê (để giải quyết nhậpnhằng)zlà một khuôn mẫu được so sánh với một chuỗizCác ký tự đặc biệt:z * - bất cứ chuỗi ký tự nào, kể cả không có gìz x – ít nhất 1 ký tựz + - chuỗi trong ngoặc xuất hiện ít nhất 1 lầnVí dụ:dz Email: x@x(.x)+z dir *.txtz ‘*John’ -> ‘John’, ‘Ajohn’, “Decker John”zzBiểu thức chính quy được sử dụng đặc biệt nhiều trong:* Phân tích cú pháp* Xác nhận tính hợp lệ của dữ liệu* Xử lý chuỗi* Tách dữ liệu và tạo báo cáo15Giới thiệu phi hình thức vềautomat hữu hạnAutomat hữu hạnzLớp ngôn ngữ chính qui, được đoán nhận bởi máy ảo,gọi tên là automat hữu hạn.zzz16zAutomat hữu hạn đơn định (Deterministic Finite Automat a– DFAAutomat hữu hạn không đơn định (Nondeterministic FiniteAutomat a–a NFA)Automat hữu hạn không đơn định, chấp nhận phép truyền rỗng(ε-NFA)1 ...

Tài liệu được xem nhiều: