![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Luận văn Thạc sĩ Khoa học máy tính: Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition
Số trang: 53
Loại file: pdf
Dung lượng: 2.42 MB
Lượt xem: 11
Lượt tải: 0
Xem trước 6 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận văn này được thực hiện nhằm đề xuất phương pháp lựa chọn dữ liệu “quan trọng” cho việc gán nhãn dữ liệu bài toán nhận dạng tiếng nói sử dụng phương pháp học chủ động. Điều này giúp với cùng số tiền ngân quỹ bỏ ra cho việc gán nhãn, ta thu được những dữ liệu chất lượng nhất cho việc huấn luyện mô hình. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH SƠNSử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH HÀ NỘI – NĂM 2021 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH SƠNSử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN XUÂN HOÀI HÀ NỘI – NĂM 2021 1 Lời cảm ơnLời đầu tiên tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Nguyễn Xuân Hoài, ngườithầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học vàthực hiện luận văn này.Tôi xin chân thành cảm ơn sự giúp đỡ của anh Đỗ Văn Hải (Trung tâm không gian mạngViettel) đã định hướng và tận tình giúp đỡ tôi trong quá trình thực hiện luận văn. Tôi xinchân thành cảm ơn sự giúp đỡ, tạo điều kiện cho tôi trong quá trình làm việc và nghiêncứu của bạn bè, đồng nghiệp tại Trung tâm không gian mạng Viettel.Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè - những ngườiluôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộcsống và trong công việc.Tôi xin chân thành cảm ơn! 2 Lời cam đoanTôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và phát triểncác nghiên cứu bài toán nhận dạng tiếng nói trong nước và trên thế giới do tôi thực hiện.Luận văn này là mới, các đề xuất trong luận văn do chính tôi thực hiện, qua quá trìnhnghiên cứu đưa ra và không sao chép nguyên bản từ bất kì một nguồn tài liệu nào khác. Hà Nội, ngày 30/05/2021 Học viên Nguyễn Minh Sơn 3 Mục lụcBảng thuật ngữ ....................................................................................................................................... 7Mở đầu . ........................................................................................................................................ 9Chương 1. Giới thiệu bài toán ........................................................................................................ 12 1.1. Tổng quan ............................................................................................................................. 12 1.2. Quy trình gán nhãn dữ liệu .................................................................................................. 14 1.3. Vấn đề chính trong một hệ thống gán nhãn dữ liệu............................................................. 15 1.3.1. Các phương pháp lựa chọn dữ liệu gán nhãn .................................................................. 15 1.3.2. Đánh giá chất lượng gán nhãn .......................................................................................... 16Chương 2. Mô hình nhận dạng tiếng nói. ............................................................................................ 18 2.1. Giới thiệu .............................................................................................................................. 18 2.2. Kiến trúc mô hình nhận dạng tiếng nói ............................................................................... 20 2.2.1. Đặc trưng âm học (Acoustic Front-end) ....................................................................... 21 2.2.2. Mô hình âm học (Acoustic Model) ................................................................................ 23 2.2.3. Mô hình ngôn ngữ (Language Model) .......................................................................... 24 2.2.4. Bộ giải mã (Decoder) ..................................................................................................... 25 2.3. Khảo sát mô hình nhận dạng tiếng nói hiện nay. ................................................................. 26 2.3.1. Công cụ Kaldi................................................................................................................ 27 2.3.2. Deep Speech: Scaling up end-to-end speech recognition ............................................. 30 2.3.3. Wav2letter++ Scaling Up Online Speech Recognition Using ConvNets. ..................... 32 2.3.4. Mô hình QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions ............................................................................................................... 32 2.3.5. PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR 34 2.3.6. Conformer: Convolution-augmented Transformer for Speech Recognition .............. 34Chương 3. Phương pháp học chủ động cho bài toán nhận dạng tiếng nói. ................................... 37 3.1. Cơ sở lý thuyết [11] .................. ...
Nội dung trích xuất từ tài liệu:
Luận văn Thạc sĩ Khoa học máy tính: Sử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH SƠNSử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH HÀ NỘI – NĂM 2021 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN MINH SƠNSử dụng Active Learning trong việc lựa chọn dữ liệu gán nhãn cho bài toán Speech Recognition Ngành: Công nghệ thông tin Chuyên ngành: Khoa học máy tính Mã số: 8480101.01 LUẬN VĂN THẠC SĨ: KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN XUÂN HOÀI HÀ NỘI – NĂM 2021 1 Lời cảm ơnLời đầu tiên tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Nguyễn Xuân Hoài, ngườithầy đã chỉ bảo và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học vàthực hiện luận văn này.Tôi xin chân thành cảm ơn sự giúp đỡ của anh Đỗ Văn Hải (Trung tâm không gian mạngViettel) đã định hướng và tận tình giúp đỡ tôi trong quá trình thực hiện luận văn. Tôi xinchân thành cảm ơn sự giúp đỡ, tạo điều kiện cho tôi trong quá trình làm việc và nghiêncứu của bạn bè, đồng nghiệp tại Trung tâm không gian mạng Viettel.Và cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè - những ngườiluôn ở bên tôi những lúc khó khăn nhất, luôn động viên tôi, khuyến khích tôi trong cuộcsống và trong công việc.Tôi xin chân thành cảm ơn! 2 Lời cam đoanTôi xin cam đoan luận văn được hoàn thành trên cơ sở nghiên cứu, tổng hợp và phát triểncác nghiên cứu bài toán nhận dạng tiếng nói trong nước và trên thế giới do tôi thực hiện.Luận văn này là mới, các đề xuất trong luận văn do chính tôi thực hiện, qua quá trìnhnghiên cứu đưa ra và không sao chép nguyên bản từ bất kì một nguồn tài liệu nào khác. Hà Nội, ngày 30/05/2021 Học viên Nguyễn Minh Sơn 3 Mục lụcBảng thuật ngữ ....................................................................................................................................... 7Mở đầu . ........................................................................................................................................ 9Chương 1. Giới thiệu bài toán ........................................................................................................ 12 1.1. Tổng quan ............................................................................................................................. 12 1.2. Quy trình gán nhãn dữ liệu .................................................................................................. 14 1.3. Vấn đề chính trong một hệ thống gán nhãn dữ liệu............................................................. 15 1.3.1. Các phương pháp lựa chọn dữ liệu gán nhãn .................................................................. 15 1.3.2. Đánh giá chất lượng gán nhãn .......................................................................................... 16Chương 2. Mô hình nhận dạng tiếng nói. ............................................................................................ 18 2.1. Giới thiệu .............................................................................................................................. 18 2.2. Kiến trúc mô hình nhận dạng tiếng nói ............................................................................... 20 2.2.1. Đặc trưng âm học (Acoustic Front-end) ....................................................................... 21 2.2.2. Mô hình âm học (Acoustic Model) ................................................................................ 23 2.2.3. Mô hình ngôn ngữ (Language Model) .......................................................................... 24 2.2.4. Bộ giải mã (Decoder) ..................................................................................................... 25 2.3. Khảo sát mô hình nhận dạng tiếng nói hiện nay. ................................................................. 26 2.3.1. Công cụ Kaldi................................................................................................................ 27 2.3.2. Deep Speech: Scaling up end-to-end speech recognition ............................................. 30 2.3.3. Wav2letter++ Scaling Up Online Speech Recognition Using ConvNets. ..................... 32 2.3.4. Mô hình QuartzNet: Deep Automatic Speech Recognition with 1D Time-Channel Separable Convolutions ............................................................................................................... 32 2.3.5. PyChain: A Fully Parallelized PyTorch Implementation of LF-MMI for End-to-End ASR 34 2.3.6. Conformer: Convolution-augmented Transformer for Speech Recognition .............. 34Chương 3. Phương pháp học chủ động cho bài toán nhận dạng tiếng nói. ................................... 37 3.1. Cơ sở lý thuyết [11] .................. ...
Tìm kiếm theo từ khóa liên quan:
Luận văn Thạc sĩ Luận văn Thạc sĩ Khoa học máy tính Hệ thống gán nhãn dữ liệu Bài toán nhận dạng tiếng nói Phương pháp học chủ độngTài liệu liên quan:
-
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 368 5 0 -
97 trang 335 0 0
-
97 trang 322 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 305 0 0 -
155 trang 296 0 0
-
64 trang 270 0 0
-
115 trang 270 0 0
-
26 trang 269 0 0
-
70 trang 226 0 0
-
128 trang 226 0 0