Xử lý tiếng nói - Speech Synthesis

Số trang: 14 Loại file: pdf Dung lượng: 277.15 KB Lượt xem: 7 Lượt tải: 0

10.10.2023

Phí tải xuống: miễn phí

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Tổng hợp tiếng nóiThành phần tổng hợp tiếng nói của một hệ thống TTS có chức năng tạo ra dạng sóng tiếng nói tương ứng với văn bản Dữ liệu vào thường là âm vị đã được chuyển đổi và ngữ âm tương ứng của câu nói. à ữâ ứ ủ â ói Ngoài ra, dữ liệu vào có thể gồm văn bản thô cùng với các thẻ đánh dấu để có chất lượng tiếng nói tốt hơnPhân loại các hệ thống tổng hợp ạ ệ g g ợp tiếng nóiCác hệ thống tổng hợp tiếng nói gồm 3...
Nội dung trích xuất từ tài liệu:
Xử lý tiếng nói - Speech Synthesis Bài 5: Tổng hợp tiếng nóiThành phần tổng hợp tiếng nói của một hệthống TTS có chức năng tạo ra dạng sóngtiếng nói tương ứng với văn bảnDữ liệu vào thường là âm vị đã được chuyểnđổi và ngữ âm tương ứng của câu nói. à ữâ ứ ủ â óiNgoài ra, dữ liệu vào có thể gồm văn bảnthô cùng với các thẻ đánh dấu để có chấtlượng tiếng nói tốt hơnPhân loại các hệ thống tổng hợp ạ ệ g g ợptiếng nói Các hệ thống tổng hợp tiếng nói gồm 3 loại: – Tổng hợp tiếng nói dựa vào đặc điểm âm học – Tổng hợp tiếng nói dựa vào Formant – Tổng hợp tiếng nói dựa vào sự ghép nốiTổng hợp tiếng nói dựa vào đặc g ợp g ự ặđiểm âm học Là một mô hình tổng hợp tiếng nói dựa vào luật Sử dụng các tham số để mô hình chuyển động của bộ phận trong bộ máy âm học và sự thay đổi áp suất không khí h á ấ khôTổng hợp tiếng nói dựa vào Formant Ta có thể tổng hợp một nguyên âm có âm ổn định bằng cách cho một sóng tuần hoàn đi qua một bộ lọc với tần số formant của ống âm học Đối với các phụ âm, âm vô thanh, ta có thể ới á h â â ô h h ó hể dùng nhiễu ngẫu nhiên đi qua bộ lọc để tạo ra âm Trong thực tế, âm tiếng nói là thay đổi liên tục, thế, tục vì thế ta phải thay đổi nguồn kích thích và tần số formant theo thời gianPhương pháp này còn được gọi là tổng hợpdựa vào các luật để thay đổi nguồn kíchthích, tần số formant, và các tham số để ểchuyển từ âm này sang âm khácTổng hợp tiếng nói dựa vào sự ghép nối Tiếng nói được tổng hợp bằng sự ghép nối các âm đã được lưu trữ từ trước tương ứng với các âm vị Mỗi âm đã được lưu từ trước giống với âm trong tự nhiên, vì thế, tiếng nói được tổng hiê ì hế iế ói đ ổ hợp có chất lượng cao T nhiên, nếu h i đ Tuy hiê ế hai đoạn â khác nhau âm khá h được ghép nối lại có thể dẫn đến sự không liên tục trong ngữ điệu và phổ tần sốCác vấn đề khi tổng hợp tiếng nói g ợp gdựa vào sự ghép nối Sử dụng đơn vị tiếng nói loại nào: âm vị, âm tiết, từ, cụm từ, … Xây dựng cơ sở dữ liệu đơn vị tiếng nói từ các âm thu được bằng ghi âm: độ dài ngắn của từng đơn vị tiếng nói, số lượng đơn vị, … ủ ừ đ ị iế ói ố l đ ị Lựa chọn cách phát âm tốt nhất từ dữ liệu đã cóó Biến đổi ngữ điệu các âm đã có để thu được ngữ điệu mong muốnĐơn vị âm Đơn vị âm là đại diện cho một khoảng tiếng nói nhỏ nhất được sử dụng trong sự ghép nối Thể hiện là một khoảng tiếng nói đã được tạo ra tương ứ với đơn vị âm của nó. Hệ ứng ới đ ịâ ủ ó thống TTS có thể có nhiều thể hiện cho một đơn vị âm để sử dụng ghép nốiSo sánh các loại đơn vị âmCác khó khăn khi lựa chọn đơn vị âm Tăng sự chính xác ghép nối: – Giảm số lượng ghép nối, vì thế, cần các đơn vị âm dài như từ hoặc cụm từ – Tuy nhiên, cách này đòi hỏi số lượng nhiều đơn vị âm và thể hiện của nó, không phải lúc nào nó cũng thực hiện được Tăng sự chính xác của ngữ điệu: g ự g ệ – Bằng cách thay đổi tần số cơ bản và khoảng thời gian của các đơn vị âm đã cóĐơn vị âm đã có có thể tạo ra được đơn vịâm khác– Nếu sử dụng đơn vị âm như từ hoặc cụm từ sẽ khó tổng hợp các nội dung bất kỳĐơn ị âĐơ vị âm có thể được huấn luyện ó đượ h ấ l ệ– Các đơn vị âm đã có được dùng để huấn luyện có thể đánh giá chính xác các đơn vị âm nhận được sau nàyVí dụThay đổi ngữ điệu đơn vị âm khi ghép nối Ngữ điệu của các đơn vị âm đã có thường không đáp ứng được yêu cầu Mục đích: thay đổi cường độ âm, thời gian phát âm, tần số cơ bản của đơn vị âmPhương pháp OLA- Overlap and Add OLA- ...