![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Xây dựng mô hình thích ứng giọng nói trong tổng hợp tiếng nói tiếng Việt
Số trang: 3
Loại file: pdf
Dung lượng: 400.60 KB
Lượt xem: 9
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết Xây dựng mô hình thích ứng giọng nói trong tổng hợp tiếng nói tiếng Việt nghiên cứu xây dựng mô hình thích ứng giọng nói cho bài toán tổng hợp tiếng nói tiếng Việt dựa trên hai phương pháp là phương pháp học chuyển giao và phương pháp véc tơ mã hóa người nói.
Nội dung trích xuất từ tài liệu:
Xây dựng mô hình thích ứng giọng nói trong tổng hợp tiếng nói tiếng Việt Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 XÂY DỰNG MÔ HÌNH THÍCH ỨNG GIỌNG NÓI TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Phan Trung Kiên1,2, Đỗ Văn Hải1,31 Trung tâm Không gian Mạng Viettel, 2Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội, 3 Khoa CNTT, Trường Đại học Thủy Lợi1. GIỚI THIỆU CHUNG - Xây dựng mô hình gốc (Build base model). Tổng hợp tiếng nói là một lĩnh vực đã được - Thích ứng (Adaptation).nghiên cứu từ lâu và có nhiều ứng dụng trongđời sống. Hệ thống tổng hợp tiếng nói giúpchuyển đổi từ văn bản sang giọng nói conngười. Một ví dụ điển hình nhất của tổng hợptiếng nói đó là giọng đọc của Google Dịch. Tuy nhiên, hiện nay chi phí phát triển cáchệ thống này là lớn dẫn tới sự thiếu sự đadạng về giọng nói trong các hệ thống. Vì vậycác phương pháp thích ứng giọng nói đãđược phát triển để giải quyết các vấn đề nêutrên. Thích ứng giọng nói (SA - Speaker Hình 1. Hai bước trong quá trình thích ứngAdaptation) có nhiệm vụ tạo ra giọng nói giọng nói.mới cho hệ thống tổng hợp tiếng nói bằng Để xây dựng mô hình gốc, chúng tôi sửcách điều chỉnh các tham số của một mô hình dụng kiến trúc Merlin [4]. Đây là kiến trúcban đầu với một lượng ít dữ liệu ghi âm của tổng hợp tiếng nói phổ biến hiện nay dựa trênngười nói mới. mạng nơ ron học sâu tiên tiến. Như mô tả ở Nhiều phương pháp đã được đề xuất và trên hình 2, kiến trúc Merlin bao gồm 3mang lại hiệu quả nhất định cho thích ứng thành phần:giọng nói, ví dụ như: học chuyển giao - Trích chọn đặc trưng ngôn ngữ(Transfer Learning), sử dụng véc tơ mã hóa (Linguistic Features Extraction).người nói (Speaker Embedding) [1], Learning - Tạo đặc trưng âm học (ParameterHidden Unit Contribution (LHUC) [2], Feature Generation).Space Transformation (FST) [3], … - Tạo tín hiệu tiếng nói (Waveform Trong bài báo này, chúng tôi nghiên cứu Generation).xây dựng mô hình thích ứng giọng nói chobài toán tổng hợp tiếng nói tiếng Việt dựatrên hai phương pháp là phương pháp họcchuyển giao và phương pháp véc tơ mã hóangười nói.2. PHƯƠNG PHÁP NGHIÊN CỨU Như thấy ở (hình 1), quá trình SA được Hình 2. Mô hình Merlin.chia làm hai thành phần: 105Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 2.1. Phương pháp học chuyển giao b) Mã hóa người nói bằng x-vector X-vector là véc tơ được trích xuất từ mô hình Với phương pháp này, chúng tôi giữ nguyên TDNN [5]. X-vector thu được từ quá trình trênkiến trúc của Merlin cho cả hai bước huấn là một véc tơ 200 chiều chưa thông tin mã hóaluyện mô hình gốc và thích ứng. Đối với mô của người nói. Do số chiều này là khá lớn nếuhình gốc chúng tôi thử nghiệm theo 2 hướng: so sánh tỷ lệ với các đặc trưng ngôn ngữ được - Xây dựng mô hình gốc một người nói sử dụng. Do đó, phương pháp phân tích thành(OS - One speaker): Mô hình gốc sẽ được phần chính (PCA) được sử dụng để giảm sốhuấn luyện trên bộ dữ liệu bao gồm một chiều véc tơ xuống còn 25 chiều.người nói. - Xây dựng mô hình gốc nhiều người nói - 3. KẾT QUẢ NGHIÊN CỨUhay còn gọi là mô hình giọng trung bình(AVM - Average voice model): Mô hình gốc 3.1. Dữ liệu cho xây dựng mô hình gốcsẽ được huấn luyện trên bộ dữ liệu bao gồm Dữ liệu huấn luyện được chuẩn bị bao gồm:nhiều người nói. - Dữ liệu cho mô hình gốc một người nói: 2.2. Phương pháp véc tơ mã hóa người nói bao gồm 8 giờ 35 phút giọng nói nữ với phương ngữ miền Nam. - Dữ liệu cho mô hình giọng trung bình: bao gồm 20 giờ 30 phút giọng nói của 60 người. Trong đó có 30 nam, 30 nữ, mỗi người thu âm 160 câu. 3.2. Dữ liệu cho thích ứng giọng nói Để đánh giá được hiệu quả c ...
Nội dung trích xuất từ tài liệu:
Xây dựng mô hình thích ứng giọng nói trong tổng hợp tiếng nói tiếng Việt Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 XÂY DỰNG MÔ HÌNH THÍCH ỨNG GIỌNG NÓI TRONG TỔNG HỢP TIẾNG NÓI TIẾNG VIỆT Phan Trung Kiên1,2, Đỗ Văn Hải1,31 Trung tâm Không gian Mạng Viettel, 2Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội, 3 Khoa CNTT, Trường Đại học Thủy Lợi1. GIỚI THIỆU CHUNG - Xây dựng mô hình gốc (Build base model). Tổng hợp tiếng nói là một lĩnh vực đã được - Thích ứng (Adaptation).nghiên cứu từ lâu và có nhiều ứng dụng trongđời sống. Hệ thống tổng hợp tiếng nói giúpchuyển đổi từ văn bản sang giọng nói conngười. Một ví dụ điển hình nhất của tổng hợptiếng nói đó là giọng đọc của Google Dịch. Tuy nhiên, hiện nay chi phí phát triển cáchệ thống này là lớn dẫn tới sự thiếu sự đadạng về giọng nói trong các hệ thống. Vì vậycác phương pháp thích ứng giọng nói đãđược phát triển để giải quyết các vấn đề nêutrên. Thích ứng giọng nói (SA - Speaker Hình 1. Hai bước trong quá trình thích ứngAdaptation) có nhiệm vụ tạo ra giọng nói giọng nói.mới cho hệ thống tổng hợp tiếng nói bằng Để xây dựng mô hình gốc, chúng tôi sửcách điều chỉnh các tham số của một mô hình dụng kiến trúc Merlin [4]. Đây là kiến trúcban đầu với một lượng ít dữ liệu ghi âm của tổng hợp tiếng nói phổ biến hiện nay dựa trênngười nói mới. mạng nơ ron học sâu tiên tiến. Như mô tả ở Nhiều phương pháp đã được đề xuất và trên hình 2, kiến trúc Merlin bao gồm 3mang lại hiệu quả nhất định cho thích ứng thành phần:giọng nói, ví dụ như: học chuyển giao - Trích chọn đặc trưng ngôn ngữ(Transfer Learning), sử dụng véc tơ mã hóa (Linguistic Features Extraction).người nói (Speaker Embedding) [1], Learning - Tạo đặc trưng âm học (ParameterHidden Unit Contribution (LHUC) [2], Feature Generation).Space Transformation (FST) [3], … - Tạo tín hiệu tiếng nói (Waveform Trong bài báo này, chúng tôi nghiên cứu Generation).xây dựng mô hình thích ứng giọng nói chobài toán tổng hợp tiếng nói tiếng Việt dựatrên hai phương pháp là phương pháp họcchuyển giao và phương pháp véc tơ mã hóangười nói.2. PHƯƠNG PHÁP NGHIÊN CỨU Như thấy ở (hình 1), quá trình SA được Hình 2. Mô hình Merlin.chia làm hai thành phần: 105Tuyển tập Hội nghị Khoa học thường niên năm 2020. ISBN: 978-604-82-3869-8 2.1. Phương pháp học chuyển giao b) Mã hóa người nói bằng x-vector X-vector là véc tơ được trích xuất từ mô hình Với phương pháp này, chúng tôi giữ nguyên TDNN [5]. X-vector thu được từ quá trình trênkiến trúc của Merlin cho cả hai bước huấn là một véc tơ 200 chiều chưa thông tin mã hóaluyện mô hình gốc và thích ứng. Đối với mô của người nói. Do số chiều này là khá lớn nếuhình gốc chúng tôi thử nghiệm theo 2 hướng: so sánh tỷ lệ với các đặc trưng ngôn ngữ được - Xây dựng mô hình gốc một người nói sử dụng. Do đó, phương pháp phân tích thành(OS - One speaker): Mô hình gốc sẽ được phần chính (PCA) được sử dụng để giảm sốhuấn luyện trên bộ dữ liệu bao gồm một chiều véc tơ xuống còn 25 chiều.người nói. - Xây dựng mô hình gốc nhiều người nói - 3. KẾT QUẢ NGHIÊN CỨUhay còn gọi là mô hình giọng trung bình(AVM - Average voice model): Mô hình gốc 3.1. Dữ liệu cho xây dựng mô hình gốcsẽ được huấn luyện trên bộ dữ liệu bao gồm Dữ liệu huấn luyện được chuẩn bị bao gồm:nhiều người nói. - Dữ liệu cho mô hình gốc một người nói: 2.2. Phương pháp véc tơ mã hóa người nói bao gồm 8 giờ 35 phút giọng nói nữ với phương ngữ miền Nam. - Dữ liệu cho mô hình giọng trung bình: bao gồm 20 giờ 30 phút giọng nói của 60 người. Trong đó có 30 nam, 30 nữ, mỗi người thu âm 160 câu. 3.2. Dữ liệu cho thích ứng giọng nói Để đánh giá được hiệu quả c ...
Tìm kiếm theo từ khóa liên quan:
Tổng hợp tiếng nói Xây dựng mô hình thích ứng giọng nói Phương pháp véc tơ mã hóa người nói Phương pháp học chuyển giao Phương pháp véc tơ mã hóa người nóiTài liệu liên quan:
-
Một ý kiến nhỏ về cách ghi dấu thanh trên văn bản tiếng Việt
3 trang 40 0 0 -
100 trang 29 0 0
-
Bài giảng Xử lý tiếng nói - Trịnh Văn Loan
30 trang 25 0 0 -
Luận văn Thạc sĩ Công nghệ thông tin: Xây dựng hệ thống tổng hợp tiếng Việt dựa trên luật
90 trang 14 0 0 -
Phát hiện giả mạo khuôn mặt sử dụng công nghệ trí tuệ nhân tạo
12 trang 12 0 0 -
7 trang 9 0 0
-
15 trang 9 0 0
-
LUẬN VĂN: THỬ NGHIỆM MỘT PHƯƠNG PHÁP TỔNG HỢP TIẾNG NÓI TỪ VĂN BẢN TIẾNG VIỆT
45 trang 9 0 0