thiết kế hệ thống trả lời tự động, chương 9
Số trang: 11
Loại file: pdf
Dung lượng: 252.65 KB
Lượt xem: 21
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Quá trình chuẩn hóa văn bản thường không đơn giản. Lý do là các văn bản thường chứa nhiều từ cùng chữ, số và viết tắt ñòi hỏi hiểu ñể diễn ñạt lại trong văn bản ñầy đủ. Trong một số ngôn ngữ, các từ có thể được phát âm khác nhau từy theo ngữ cảnh. đa số hệ thống tổng hợp giọng nói không tạo ra thể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có công nghệ ñáng tin cậy. Thay vào ñó, nhiều cách lần mò ñược dùng ñể phân biệt các cách...
Nội dung trích xuất từ tài liệu:
thiết kế hệ thống trả lời tự động, chương 9Chương 9: Kỹ thuật ngoại diện1. Chuẩn hóa văn bản. Quá trình chuẩn hóa văn bản thường không ñơn giản. Lý do làcácc văn bản thường chứa nhiều từ cùng chữ, số và viết tắt ñòi hỏihiểu ñể diễn ñạt lại trong văn bản ñầy ñủ. Trong một số ngôn ngữ, các từ có thể ñược phát âm khác nhautừy theo ngữ cảnh. ða số hệ thống tổng hợp giọng nói không tạo rathể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có côngnghệ ñáng tin cậy. Thay vào ñó, nhiều cách lần mò ñược dùng ñểphân biệt các cách phát âm, như tìm các từ kế cận hay dùng thốngkê về tần số xuất hiện. Việc chọn cách phát âm số cũng là một vấn ñề. Lý do là cũngcó nhiều cách phất âm số từy theo văn cảnh. Như 1325 có thể ñọcmột nghìn ba trăm hai mươi nhăm nếu nó là một số tự nhiên,nhưng cũng có thể là một ba hai năm nếu nó là bốn số mật mãngân khoản. Thường hệ thống tổng hợp giọng nói có thể ñoán văncảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh,hoặc dùng trường hợp mặc ñịnh khi không thể phân ñịnh. Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, từy thuộc quyước của người viết.2. Chuyển Văn bản sang âm vị. Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản ñể xácñịnh cách phát âm cho một từ, một quá trình còn ñược gọi là chuyểnñổi văn bản-sang- âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữdùng bởi các nhà ngôn ngữ học ñể mô tả các âm khác nhau trongngôn ngữ. Cách thứ nhất, và ñơn giản nhất, là dựa vào từ ñiển, sử dụngmột từ ñiển lớn chứa tất cả các từ của một ngôn ngữ và chứa cáchphát âm ñúng tương ứng cho từng từ, lưu trong máy tính. Việc xácñịnh cách phát âm ñúng cho một từ chỉ ñơn giản là tra trong từ ñiểnvà thay ñoạn văn bản bằng mã phát âm ñã ghi trong từ ñiển. Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âmñể tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc. Mỗi cách ñều có ưu ñiểm và nhược ñiểm. cách dựa trên từñiển nhanh và chính xác, nhưng sẽ không hoạt ñộng nếu từ cần phátâm không có trong từ ñiển và lượng từ vựng cần lưu là lớn. Cáchdùng quy tắc hoạt ñộng với mọi văn bản (miễn là phù hợp với quytắc) nhưng ñộ phức tạp của các quy tắc có thể tăng cao nếu ngônngữ có nhiều trường hợp bất quy tắc trong phát âm. Hầu hết cáchệ thống tổng hợp giọng nói ñều dùng kết hợp cả hai cách. Một số ngôn ngữ, như tiếng Tây Ban Nha hay tiếng Việt cóhệ thống viết dựa trên cách phát âm một cách rất có quy tắc, vàviệc tiên ñoán cách phát âm từ cách viết thường có tỷ lệ thành côngcao. Các hệ thống tổng hợp giọng nói cho các ngôn ngữ này thườngdùng chủ yếu cách dựa trên quy tắc, chỉ tra từ ñiển một vài từ ñặcbiệt như tên vay mượn từ nước ngoài. Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rấtbất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếutrên từ ñiển và dùng các quy tắc cho những từ không có trong từñiển.2. 2. 6 Giải thuật TD-PSOLA. Như ñã ñề cập trong phần trước, người ta có thể tổng hợptiếng nói theo nhiều phương pháp như mô phỏng hệ thống phát âmcủa con người, tổng hợp formant và tổng hợp ghép nối. Mỗi phươngpháp ñều có những ưu, nhược ñiểm riêng. Phương pháp mô phỏnghệ thống phát âm của con người cho chất lượng tốt, song rất khómô phỏng một cách hoàn hảo bộ máy phát âm. Phương pháptổng hợp bằng formant lại không cho chất lượng cao. Trong baphương pháp này thì tổng hợp tiếng nói bằng ghép nối ñược sử dụngrộng rãi hơn cả. PSOLA là giải thuật dùng cho phương pháp ghépnối. Trước hết tiếng nói ñược phân tích thành các tín hiệu thànhphần, sau ñó, khi cộng xếp chồng các thành phần này ta sẽ ñược tínhiệu tiếng nói tổng hợp. Phương pháp này thao tác trực tiếp với tínhiệu trên miền thời gian nên có chi phí tính toán thấp. Người ta kéodãn thời gian trong tín hiệu tổng hợp bằng cách lặp lại các ñoạn tínhiệu thành phần.PSOLA có thể hiểu nhưsau:• Tổng hợp tín hiệu từ các thành phần, trong ñó mỗi thànhphần có một tần số cơ bản.• Tổng hợp dựa trên mô hình nguồn-lọc (source-filter). Vớiphương pháp này tín hiệu phải ñiều hoà (harmonic) và phải thíchhợp cho việc phân tích thành các tín hiệu thành phần khi sử dụngcửa sổ, ñiều này có nghĩa là năng lượng của tín hiệu phải tập trungxung quanh một khoảng thời gian nào ñó trong mỗi chu kỳ. a. Phân tích PSOLA Phân tích PSOLA bao gồm việc phân tích một tín hiệu s(t)thành các tín hiệu thành phần si(t) bằng cách sử dụng cửa sổ h(t) : si(t) =h( t − mi)s(t)trong ñó miñược gọi là các ñiểm mốc (markers) phải thoả mãn các ñiềukiệnsau: mi− mi-1 phải gần với chu kỳ cơ bản. Phải gần với ñiểm có biên ñộ cực ñại (maxima energy). ðiềukiện này ñược ñưa ra ñể tránh làm hỏng tín hiệu khi lấy cửa sổ. Saukhi tìm ñược chu kỳ cơ bản T 0(t) và hàm năng lượng e(t). b. Tổng hợp PSOLATổng hợp PSOLA ñược thực hiện bằng cách cộng xếp chồng các tín hiệuthành phần ...
Nội dung trích xuất từ tài liệu:
thiết kế hệ thống trả lời tự động, chương 9Chương 9: Kỹ thuật ngoại diện1. Chuẩn hóa văn bản. Quá trình chuẩn hóa văn bản thường không ñơn giản. Lý do làcácc văn bản thường chứa nhiều từ cùng chữ, số và viết tắt ñòi hỏihiểu ñể diễn ñạt lại trong văn bản ñầy ñủ. Trong một số ngôn ngữ, các từ có thể ñược phát âm khác nhautừy theo ngữ cảnh. ða số hệ thống tổng hợp giọng nói không tạo rathể hiện văn phạm cho văn bản, vì quá trình này hiện chưa có côngnghệ ñáng tin cậy. Thay vào ñó, nhiều cách lần mò ñược dùng ñểphân biệt các cách phát âm, như tìm các từ kế cận hay dùng thốngkê về tần số xuất hiện. Việc chọn cách phát âm số cũng là một vấn ñề. Lý do là cũngcó nhiều cách phất âm số từy theo văn cảnh. Như 1325 có thể ñọcmột nghìn ba trăm hai mươi nhăm nếu nó là một số tự nhiên,nhưng cũng có thể là một ba hai năm nếu nó là bốn số mật mãngân khoản. Thường hệ thống tổng hợp giọng nói có thể ñoán văncảnh bằng việc quan sát các từ kế cận, các số hay dấu câu bên cạnh,hoặc dùng trường hợp mặc ñịnh khi không thể phân ñịnh. Tương tự, các cách viết tắt cũng có thể mang nhiều nghĩa, từy thuộc quyước của người viết.2. Chuyển Văn bản sang âm vị. Các hệ thống tổng hợp giọng nói dùng hai cách cơ bản ñể xácñịnh cách phát âm cho một từ, một quá trình còn ñược gọi là chuyểnñổi văn bản-sang- âm vị hay tự vị-sang-âm vị, vì âm vị là thuật ngữdùng bởi các nhà ngôn ngữ học ñể mô tả các âm khác nhau trongngôn ngữ. Cách thứ nhất, và ñơn giản nhất, là dựa vào từ ñiển, sử dụngmột từ ñiển lớn chứa tất cả các từ của một ngôn ngữ và chứa cáchphát âm ñúng tương ứng cho từng từ, lưu trong máy tính. Việc xácñịnh cách phát âm ñúng cho một từ chỉ ñơn giản là tra trong từ ñiểnvà thay ñoạn văn bản bằng mã phát âm ñã ghi trong từ ñiển. Cách thứ hai là dựa trên quy tắc, sử dụng các quy tắc phát âmñể tìm ra cách phát âm tương ứng cho mỗi từ phù hợp với quy tắc. Mỗi cách ñều có ưu ñiểm và nhược ñiểm. cách dựa trên từñiển nhanh và chính xác, nhưng sẽ không hoạt ñộng nếu từ cần phátâm không có trong từ ñiển và lượng từ vựng cần lưu là lớn. Cáchdùng quy tắc hoạt ñộng với mọi văn bản (miễn là phù hợp với quytắc) nhưng ñộ phức tạp của các quy tắc có thể tăng cao nếu ngônngữ có nhiều trường hợp bất quy tắc trong phát âm. Hầu hết cáchệ thống tổng hợp giọng nói ñều dùng kết hợp cả hai cách. Một số ngôn ngữ, như tiếng Tây Ban Nha hay tiếng Việt cóhệ thống viết dựa trên cách phát âm một cách rất có quy tắc, vàviệc tiên ñoán cách phát âm từ cách viết thường có tỷ lệ thành côngcao. Các hệ thống tổng hợp giọng nói cho các ngôn ngữ này thườngdùng chủ yếu cách dựa trên quy tắc, chỉ tra từ ñiển một vài từ ñặcbiệt như tên vay mượn từ nước ngoài. Một số ngôn ngữ khác, như tiếng Anh, có hệ thống phát âm rấtbất quy tắc, thường cần hệ thống tổng hợp giọng nói dựa chủ yếutrên từ ñiển và dùng các quy tắc cho những từ không có trong từñiển.2. 2. 6 Giải thuật TD-PSOLA. Như ñã ñề cập trong phần trước, người ta có thể tổng hợptiếng nói theo nhiều phương pháp như mô phỏng hệ thống phát âmcủa con người, tổng hợp formant và tổng hợp ghép nối. Mỗi phươngpháp ñều có những ưu, nhược ñiểm riêng. Phương pháp mô phỏnghệ thống phát âm của con người cho chất lượng tốt, song rất khómô phỏng một cách hoàn hảo bộ máy phát âm. Phương pháptổng hợp bằng formant lại không cho chất lượng cao. Trong baphương pháp này thì tổng hợp tiếng nói bằng ghép nối ñược sử dụngrộng rãi hơn cả. PSOLA là giải thuật dùng cho phương pháp ghépnối. Trước hết tiếng nói ñược phân tích thành các tín hiệu thànhphần, sau ñó, khi cộng xếp chồng các thành phần này ta sẽ ñược tínhiệu tiếng nói tổng hợp. Phương pháp này thao tác trực tiếp với tínhiệu trên miền thời gian nên có chi phí tính toán thấp. Người ta kéodãn thời gian trong tín hiệu tổng hợp bằng cách lặp lại các ñoạn tínhiệu thành phần.PSOLA có thể hiểu nhưsau:• Tổng hợp tín hiệu từ các thành phần, trong ñó mỗi thànhphần có một tần số cơ bản.• Tổng hợp dựa trên mô hình nguồn-lọc (source-filter). Vớiphương pháp này tín hiệu phải ñiều hoà (harmonic) và phải thíchhợp cho việc phân tích thành các tín hiệu thành phần khi sử dụngcửa sổ, ñiều này có nghĩa là năng lượng của tín hiệu phải tập trungxung quanh một khoảng thời gian nào ñó trong mỗi chu kỳ. a. Phân tích PSOLA Phân tích PSOLA bao gồm việc phân tích một tín hiệu s(t)thành các tín hiệu thành phần si(t) bằng cách sử dụng cửa sổ h(t) : si(t) =h( t − mi)s(t)trong ñó miñược gọi là các ñiểm mốc (markers) phải thoả mãn các ñiềukiệnsau: mi− mi-1 phải gần với chu kỳ cơ bản. Phải gần với ñiểm có biên ñộ cực ñại (maxima energy). ðiềukiện này ñược ñưa ra ñể tránh làm hỏng tín hiệu khi lấy cửa sổ. Saukhi tìm ñược chu kỳ cơ bản T 0(t) và hàm năng lượng e(t). b. Tổng hợp PSOLATổng hợp PSOLA ñược thực hiện bằng cách cộng xếp chồng các tín hiệuthành phần ...
Tìm kiếm theo từ khóa liên quan:
hệ thống trả lời tự động hệ thống SMS dịch vụ di động hệ thống điện thoại tổng đàiGợi ý tài liệu liên quan:
-
Gia cố dầm bê tông cốt thép bằng công nghệ FRP và ứng dụng vào dầm đỡ cột anten dây co trên mái nhà
7 trang 37 0 0 -
Hệ thống viễn thông điện tử, Chương 5
8 trang 28 0 0 -
Hệ thống viễn thông điện tử, Chương 6
11 trang 23 0 0 -
Đề tài nghiên cứu chất lượng dịch vụ di động của công ty Viettel
18 trang 23 0 0 -
Đồ án tốt nghiệp kỹ sư : Xây dựng hệ thống trả lời tự động
74 trang 22 0 0 -
Kiểm tra viễn thông về Tổng Đài
2 trang 21 0 0 -
Bài giảng thông tin di động - Chương 1
18 trang 21 0 0 -
Bài giảng HỆ THỐNG VIỄN THÔNG - Chương 4
39 trang 20 0 0 -
thiết kế hệ thống trả lời tự động, chương 11
4 trang 19 0 0 -
LUẬN VĂN: TÌM HIỂU VỀ TIẾP CẬN THEME VÀ ỨNG DỤNG CỦA CÁCH TIẾP CẬN VÀO XÂY DỰNG HỆ THỐNG ĐIỆN THOẠI
101 trang 18 0 0