Thuật toán ước lượng các điểm đánh dấu pitch của sóng tiếng nói trong miền thời gian dựa trên tập đỉnh của tín hiệu tổng tích lũy

Số trang: 15 Loại file: pdf Dung lượng: 1.16 MB Lượt xem: 10 Lượt tải: 0

10.10.2023

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong bài viết này, chỉ sử dụng các bước tiền xử lý đơn giản trên tập các đỉnh của tín hiệu tổng tích lũy của sóng tiếng nói hữu thanh, chúng tôi đã đề xuất một thuật toán mới để ước lượng các điểm PM mà không cần phải thực hiện bước ước lượng các giá trị F0. Thực nghiệm đã chứng tỏ phương pháp đề xuất cho kết quả tương đương với các phương pháp truyền thống.
Nội dung trích xuất từ tài liệu:
Thuật toán ước lượng các điểm đánh dấu pitch của sóng tiếng nói trong miền thời gian dựa trên tập đỉnh của tín hiệu tổng tích lũy Nghiên cứu khoa học công nghệ THUẬT TOÁN ƯỚC LƯỢNG CÁC ĐIỂM ĐÁNH DẤU PITCH CỦA SÓNG TIẾNG NÓI TRONG MIỀN THỜI GIAN DỰA TRÊN TẬP ĐỈNH CỦA TÍN HIỆU TỔNG TÍCH LŨY Tạ Yên Thái1*, Nguyễn Văn Hùng2, Vũ Thị Hải Hà3, Đặng Duy An4 Tóm tắt: Để định vị các điểm đánh dấu pitch (PM) của sóng tiếng nói, các thuật toán đã biết đều phải ước lượng các giá trị của đường F0 trước đó. Đây là một bước yêu cầu sử dụng các mô hình phức tạp và không được diễn giải một cách trực quan. Trong bài báo này, chỉ sử dụng các bước tiền xử lý đơn giản trên tập các đỉnh của tín hiệu tổng tích lũy của sóng tiếng nói hữu thanh, chúng tôi đã đề xuất một thuật toán mới để ước lượng các điểm PM mà không cần phải thực hiện bước ước lượng các giá trị F0. Thực nghiệm đã chứng tỏ phương pháp đề xuất cho kết quả tương đương với các phương pháp truyền thống. Ngoài ra bài báo cũng đề xuất một áp dụng của thuật toán mới để tổng hợp đường F0 của các âm tiết tiếng Việt dựa trên biểu diễn thanh điệu dạng qTA của Xu. Từ khóa: Hữu thanh/vô thanh; Điểm đánh dấu chu kỳ pitch; Epoch; Pulse, Đỉnh; Tổng tích lũy; Cộng chồng đồng bộ; Tổng hợp tiếng nói; Mô hình Xu; Lương hóa xấp xỉ hướng đích qTA. 1. MỞ ĐẦU Để biến đổi đường F0 của một ngữ đoạn âm thanh, âm tiết thành một ngữ đoạn có đường F0 thay đổi, âm tiết mang thanh điệu khác, chúng ta cần xác định dạng đường F0 đích và các điểm đánh dấu pitch (PM-Pitch mark, hoặc các Pulse) của âm thanh gốc [1, 2], sau đó sử dụng một công cụ nắn chỉnh đường F0 chẳng hạn thuật toán PSOLA [3]. Do vậy việc xác định giá trị đường F0 của ngữ đoạn tiếng nói, các điểm PM và cách điệu nó để khái quát cho đường F0 âm thanh đích là điểm quan trọng để tổng hợp tiếng Việt [3]. Vấn đề ước lượng giá trị F0 cũng như xác định các điểm đánh dấu chu kỳ pitch (các điểm PM, cũng còn gọi là các điểm đánh dấu chu kỳ F0) hiện nay vẫn là vấn đề mở, có rất nhiều thuật toán để ước lượng F0 và xác định các điểm PM, xem chẳng hạn [2, 4-7]. Ngoài ra, hầu hết phương pháp đều dựa trên thuật toán quy hoạch động kiểu Talkin [6], kỹ thuật xác định PM dựa trên nhiều giai đoạn [2], kỹ thuật xác định PM trong miền tần số [7] v.v... Các tiếp cận xác định các điểm PM của sóng tiếng nói, nói chung lựa chọn các điểm PM dựa trên các điểm đỉnh hoặc thung lũng của sóng tiếng nói [7,8]. Ngoài ra còn có tiếp cận dựa trên các điểm Pulse (xung) kiểu phần mềm Praat [9]. Các điểm Pulse của Praat được xác định xung quanh các điểm tại đó tín hiệu tiếng nói đổi dấu từ âm sang dương, các điểm thung lũng hoặc đôi khi là các đỉnh. Các phương pháp xác định các điểm PM hiện nay đều bao gồm hai bước: đầu tiên là ước lượng các giá trị F0 của phần tiếng nói hữu thanh (tạm gọi là các giá trị F0 ”thô”), sau đó mới định vị các điểm PM. Điều này xuất phát từ nguyên nhân là biên độ tín hiệu tiếng nói miền thời gian thường rất biến đổi xung quanh các điểm PM. Một điểm PM không nhất thiết là điểm có biên độ lớn hơn so với một đỉnh sóng tiếng nói khác ở kề nó. Vì vậy, nếu có thể xác định được các điểm PM dựa trên trực tiếp sóng tiếng nói và không cần phân chia tín hiệu tiếng nói đầu vào thành các khung (yêu cầu bắt buộc khi cần ước lượng F0) thì việc tính toán sẽ rất đơn giản, không phải vận dụng các phép biến đổi tín hiệu sang miền tần số và kết quả các điểm PM cũng không bị ảnh hưởng của tham số độ dài một khung. Đây chính là tiếp cận mới được chúng tôi đề xuất trong bài báo này. Phần còn lại của bài báo được tổ chức như sau: Phần 2, trình bày một số nghiên cứu liên quan của thuật toán Talkin theo tiếp cận tối ưu hàm mục tiêu dạng quy hoạch động, Tạp chí Nghiên cứu KH&CN quân sự, Số 58, 12 - 2018 147 Công nghệ thông tin & Cơ sở toán học cho tin học tiếp cận xác định các điểm chu kỳ dựa trên các điểm Pulse của Praat; Phần 3 là đề xuất thuật toán sử dụng tín hiệu tổng tích lũy để xác định các điểm PM; Các kết quả thực nghiệm đưa ra trong phần 4; Kết luận được cho trong phần 5. 2. NGHIÊN CỨU LIÊN QUAN Trong các công trình [2,6,8,9,10,11] các thuật toán định vị các điểm PM thường gồm hai bước xử lý, trong đó bước đầu tiên là ước lượng các giá trị F0 thô bằng việc bằng việc sử dụng hệ số tự tương quan ( nói chung giá trị F0 thô được ước lượng ở bước này là không tạo ra một đường trơn). Tín hiệu tiếng nói đầu vào được chia thành các khung thời gian ngắn (gọi là frame) có độ dài như nhau và nằm trong khoảng 10-30 ms (mili giây), hai khung liên tiếp chồng lên nhau với độ dài chồng lên nhau là hằng số P (P thuộc khoảng 5-15ms). Trên mỗi khung thời gian ngắn framet, ta tính các hệ số tự tương quan sau: def M 1 k (1) k  0, M  1, Rk ,t   i 0 framet (i) framet (k  i ),1  t  T , ở đây {frame t (i)}iM 01 là các mẫu tín hiệu tiếng nói của framet , M là số lượng mẫu của framet và T là số lượng khung. Tiếp theo, chúng ta có thể ước lượng một giá trị F0 của khung tính hiệu ngắn framet như sau: fs F0 (t )  , ở đây fs là tần số lấy mẫu của tín hiệu tiếng nói và k0,t def k0,t  arg max{R k ,t } . 1 k  M 1 Độ chính xác của ước lượng F0 thô theo công thức trên phụ thuộc vào tham số độ dài của một khung (với tiếng nói có tần số F0 thấp như giọng nam chẳng hạn tham số độ dài cửa sổ phải đủ lớn), ngoài ra có thể k0,t không là đỉnh phù hợp [6]. Về một phương pháp chuẩn hóa hệ ...