thiết kế hệ thống trả lời tự động, chương 8

Số trang: 12 Loại file: pdf Dung lượng: 186.50 KB Lượt xem: 15 Lượt tải: 0

Thư viện của tui

Phí tải xuống: 1,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Hai tính chất quan trọng của chất lượng hệ thống tổng hợp giọng nói là mức độ tự nhiên và mức độ dễ nghe. Mức độ tự nhiên của giọng nói tổng hợp chỉ ñến sự giống nhau giữa giọng tổng hợp và giọng nói tự nhiên của người thật. Mức độ dễ nghe chỉ ñến việc câu phát âm có thể hiểu được dễ dàng không. Một máy tổng hợp giọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe, và mục tiêu xây dựng máy tổng hợp giọng nói là làm gia tăng đến mức tối đa...
Nội dung trích xuất từ tài liệu:
thiết kế hệ thống trả lời tự động, chương 8 Chương 8: Công nghệ tổng hợp giọng nói Hai tính chất quan trọng của chất lượng hệ thống tổng hợpgiọng nói là mức ñộ tự nhiên và mức ñộ dễ nghe. Mức ñộ tự nhiêncủa giọng nói tổng hợp chỉ ñến sự giống nhau giữa giọng tổng hợpvà giọng nói tự nhiên của người thật. Mức ñộ dễ nghe chỉ ñến việccâu phát âm có thể hiểu ñược dễ dàng không. Một máy tổng hợpgiọng nói lý tưởng cần vừa tự nhiên vừa dễ nghe, và mục tiêu xâydựng máy tổng hợp giọng nói là làm gia tăng ñến mức tối ña hai tínhchất này. Một số hệ thống thiên về mức ñộ dễ nghe hơn, hoặc mứcñộ tự nhiên hơn; từy thuộc vào mục ñích mà công nghệ ñược lựachọn. Có hai công nghệ chính ñược dùng là tổng hợp ghép nối vàtổng hợp cộng hưởng tần số; ngoài ra cũng có một số công nghệkhác.2. 2. 4. 1. Tổng hợp ghép nối. Tổng hợp ghép nối dựa trên việc nối vào nhau các ñoạn của mộtgiọng nói ñã ñược ghi âm. Thông thường, tổng hợp ghép nối tạo ragiọng nói tương ñối tự nhiên. Tuy nhiên, giọng nói tự nhiên ñượcghi âm có sự thay ñổi từ lần phát âm này sang lần phát âm khác, vàcông nghệ tự ñộng hóa việc ghép nối các ñoạn của sóng âm thỉnhthoảng tạo ra những tiếng cọ xát không tự nhiên ở phần ghép nối. Cóba kiểu tổng hợp ghép nối.a. Tổng hợp chọn ñơn vị. Tổng hợp chọn ñơn vị dùng một cơ sở dữ liệu lớn các giọng nóighi âm (thông thường dài hơn 1 giờ ñồng hồ ghi âm). Trong lúc ghiâm, mỗi câu phát biểu ñược tách ra thành các ñơn vị khác như: cácâm tỏ lời ñơn lẻ, âm tiết, hình vị, từ, nhóm từ, và câu văn. Thôngthường, việc tách ra như vậy cần một máy nhận dạng tiếng nói ñượcñặt ở chế ñộ khớp với văn bản viết tương ứng với ñoạn ghi âm, vàdùng ñến hiển thị sóng âm và phổ âm thanh. Một bảng tra các ñơn vịñược lập ra dựa trên các phần ñã tách và các thông số âm học nhưtần số cơ bản, thời lượng, vị trí của âm tiết, và âm tỏ lời gần ñó. Khichạy, các câu phát biểu ñược tạo ra bằng cách xác ñịnh chuỗi ñơn vịphù hợp nhất từ cơ sở dữ liệu. Quá trình này ñược gọi là chọn ñơnvị, và thường cần dùng ñến cây quyết ñịnh ñể thực hiện. Kỹ thuật chọn ñơn vị tạo ra ñộ tự nhiên cao do không áp dụngcác kỹ thuật xử lý tín hiệu số lên các ñoạn giọng nói ñã ghi âm, tuyrằng một số hệ thống có thể áp dụng xử lý tín hiệu tại các ñoạn nốigiữa các ñơn vị ñể làm liền mạch kết quả sau khi ghép nối. Thực tế,các hệ thống chọn ñơn vị có thể tạo ra giọng nói không thể phân biệtñược với người thật. Tuy nhiên, ñể ñạt ñộ tự nhiên cao, thường cầnmột cơ sở dữ liệu lớn chứa các ñơn vị ñể lựa chọn; có thể lên tớivài gigabyte, tương ñương với hàng chục giờ ghi âm.b. Tổng hợp âm kép. Tổng hợp âm kép dùng một cơ sở dữ liệu giọng nói nhỏ chứatất cả các âm kép (chuyển tiếp âm thanh) xuất hiện trong ngôn ngữñang xét. Số lượng âm kép phụ thuộc vào ñặc tính ghép âm họccủa ngôn ngữ: tiếng Tây Ban Nha có 800 âm kép, tiếng ðức có2500. Trong tổng hợp âm kép, chỉ có một ví dụ của âm kép ñượcchứa trong cơ sở dữ liệu. Khi chạy, lời văn ñược chồng lên các ñơnvị này bằng kỹ thuật xử lý tín hiệu số như mã tiên ñoán tuyếntính, PSOLA hay MBROLA. Hình 2.5 Biến ñổi tần số ñể tạo ra thanh ñiệu. Chất lượng của âm thanh tổng hợp theo cách này thườngkhông cao bằng phương pháp chọn ñơn vị nhưng tự nhiên hơn tổnghợp cộng hưởng tần số. Tổng hợp âm kép tạo ra các tiếng cọ xát ởphần ghép nối và ñôi khi giọng nói kiểu robot do các kỹ thuật xử lýtín hiệu số gây ra. Lợi thế của phương pháp này là kích thước cơ sởdữ liệu nhỏ. Các ứng dụng thương mại của phương pháp này ñang ítdần, tuy nhiên có nhiều hệ thống như này ñược phân phát tự do, vàphục vụ cho nghiên cứu.c. Tổng hợp chuyên ngành. Tổng hợp chuyên biệt ghép nối các từ và ñoạn văn ñã ñượcghi âm ñể tạo ra lời phát biểu. Nó ñược dùng trong các ứng dụng cócác văn bản chuyên biệt cho một chuyên ngành, sự dụng lượng từvựng hạn chế, như các thông báo chuyến bay hay dự báo thời tiết. Công nghệ này rất ñơn giản, và ñã ñược thương mại hóa từlâu, ñã ñi vào các ñồ vật như ñồng hồ biết nói hay máy tính bỏ túibiết nói. Mức ñộ tự nhiên của các hệ thống này có thể rất cao vì sốlượng các câu nói không nhiều và khớp với lời văn và âm ñiệu củagiọng nói ghi âm. Tuy nhiên các hệ thống này bị hạn chế bởi cơ sởdữ liệu chuyên ngành, không phục vụ mọi mục ñích mà chỉ hoạtñộng với các câu nói mà chúng ñã ñược lập trình sẵn.2. 2. 4. 2. Tổng hợp cộng hưởng tần số. Tổng hợp cộng hưởng tần số không sử dụng bất cứ mẫu giọngthật nào khi chạy. Thay vào ñó, tín hiệu âm thanh cho ra dựa trênmột mô hình âm thanh. Các thông số như tần số cơ bản, sự phát âm,và mức ñộ tiếng ồn ñược thay ñổi theo thời gian ñể tạo ra dạng sóngcho giọng nói nhân tạo. Phương pháp này ñôi khi còn ñược gọi làtổng hợp dựa trên quy tắc, dù cho nhiều hệ thống ghép nối mẫu âmthanh thật cũng có dùng các thành phần dựa trên quytắc. Nhiều hệ thống dựa trên tổng hợp cộng hưởng tần số tạo ragiọng nói nhân tạo ...