Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping
Số trang: 6
Loại file: pdf
Dung lượng: 692.72 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết mô hình nhận dạng mẫu từ đơn tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Hệ Thống Nhúng Nhận Dạng Tiếng Nói Tiếng Việt Sử Dụng Mel-Frequency Cepstral Coefficients Và Dynamic Time Warping Lê Đức Lộc, Trần Văn Hoàng và Hoàng Trang Khoa Điện – Điện Tử Trường Đại Học Bách Khoa – ĐHQG TP. Hồ Chí Minh Email: ducloc0506@gmail.com, tvhoang@hcmut.edu.vn, hoangtrang@hcmut.edu.vn Abstract — Trong bài báo này, mô hình nhận dạng mẫu từ đơn dạng của hệ thống khi thực nghiệm đối với bộ từ vựng 4 từ là tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải 90.1% [9], và 90.5% đối với bộ từ vựng gồm 10 từ [10]. thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so Trong bài báo của chúng tôi, hệ thống nhận dạng tiếng nói sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được sử dụng phương pháp nhận dạng DTW được áp dụng với ngôn kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Hệ thống ngữ tiếng Việt với ưu điểm là tốc độ nhận dạng nhanh, đơn nhận dạng được thực hiện và chạy trên board nhúng BeagleBone giản, không yêu cầu bộ nhớ lớn với độ chính xác cao (cao hơn Black do Texas Instruments sản xuất. Kết quả nhận dạng cao phù so với hệ thống thực hiện bằng ngôn ngữ tiếng anh [9-10]) phù hợp với lý thuyết. hợp trong các hệ thống điều khiển yêu cầu tốc độ đáp ứng Keywords — Nhận dạng từ đơn tiếng Việt, MFCC, DTW. nhanh và tài nguyên phần cứng hạn chế. Đặc biệt, việc huấn luyện mẫu cho một từ chỉ yêu cầu một lần đọc, làm cho tính linh động của hệ thống rất cao. Đồng thời, trong bài báo này, I. GIỚI THIỆU chúng tôi cũng tiến hành thực nghiệm với một người khác Nhận dạng tiếng nói là một kỹ thuật có nhiều ứng dụng (không phải người huấn luyện) cho kết quả khả quan, chứng tỏ trong cuộc sống, trong việc điều khiển bởi ưu điểm lớn nhất sự linh hoạt và tiện dụng của hệ thống khi áp dụng với ngôn của nó là tốc độ cao, tương tác cao và trực quan với con ngữ tiếng Việt mà không cần phải huấn luyện với tất cả người người. Ở Việt Nam, nhận dạng tiếng nói đã được nghiên cứu dùng như trong bài báo [11]. trong những năm gần đây và đạt được nhiều thành quả [1-2]. Phần còn lại của bài báo được tổ chức như sau: trong phần Bài báo trình bày một mô hình nhận dạng mẫu tiếng Việt đọc II, chúng tôi trình bày tổng quan về hệ thống nhận dạng tiếng rời rạc với độ chính xác cao: sử dụng phương pháp trích đặc nói. Quá trình các bước thực hiện hệ thống nhận dạng sẽ được trưng hiện đại MFCC kết hợp với phương pháp so sánh mẫu mô tả trong phần III. Phần IV sẽ cung cấp kết quả đánh giá DTW đơn giản, không yêu cầu bộ nhớ cao và cho tốc độ nhận th ...
Nội dung trích xuất từ tài liệu:
Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Hệ Thống Nhúng Nhận Dạng Tiếng Nói Tiếng Việt Sử Dụng Mel-Frequency Cepstral Coefficients Và Dynamic Time Warping Lê Đức Lộc, Trần Văn Hoàng và Hoàng Trang Khoa Điện – Điện Tử Trường Đại Học Bách Khoa – ĐHQG TP. Hồ Chí Minh Email: ducloc0506@gmail.com, tvhoang@hcmut.edu.vn, hoangtrang@hcmut.edu.vn Abstract — Trong bài báo này, mô hình nhận dạng mẫu từ đơn dạng của hệ thống khi thực nghiệm đối với bộ từ vựng 4 từ là tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải 90.1% [9], và 90.5% đối với bộ từ vựng gồm 10 từ [10]. thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so Trong bài báo của chúng tôi, hệ thống nhận dạng tiếng nói sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được sử dụng phương pháp nhận dạng DTW được áp dụng với ngôn kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Hệ thống ngữ tiếng Việt với ưu điểm là tốc độ nhận dạng nhanh, đơn nhận dạng được thực hiện và chạy trên board nhúng BeagleBone giản, không yêu cầu bộ nhớ lớn với độ chính xác cao (cao hơn Black do Texas Instruments sản xuất. Kết quả nhận dạng cao phù so với hệ thống thực hiện bằng ngôn ngữ tiếng anh [9-10]) phù hợp với lý thuyết. hợp trong các hệ thống điều khiển yêu cầu tốc độ đáp ứng Keywords — Nhận dạng từ đơn tiếng Việt, MFCC, DTW. nhanh và tài nguyên phần cứng hạn chế. Đặc biệt, việc huấn luyện mẫu cho một từ chỉ yêu cầu một lần đọc, làm cho tính linh động của hệ thống rất cao. Đồng thời, trong bài báo này, I. GIỚI THIỆU chúng tôi cũng tiến hành thực nghiệm với một người khác Nhận dạng tiếng nói là một kỹ thuật có nhiều ứng dụng (không phải người huấn luyện) cho kết quả khả quan, chứng tỏ trong cuộc sống, trong việc điều khiển bởi ưu điểm lớn nhất sự linh hoạt và tiện dụng của hệ thống khi áp dụng với ngôn của nó là tốc độ cao, tương tác cao và trực quan với con ngữ tiếng Việt mà không cần phải huấn luyện với tất cả người người. Ở Việt Nam, nhận dạng tiếng nói đã được nghiên cứu dùng như trong bài báo [11]. trong những năm gần đây và đạt được nhiều thành quả [1-2]. Phần còn lại của bài báo được tổ chức như sau: trong phần Bài báo trình bày một mô hình nhận dạng mẫu tiếng Việt đọc II, chúng tôi trình bày tổng quan về hệ thống nhận dạng tiếng rời rạc với độ chính xác cao: sử dụng phương pháp trích đặc nói. Quá trình các bước thực hiện hệ thống nhận dạng sẽ được trưng hiện đại MFCC kết hợp với phương pháp so sánh mẫu mô tả trong phần III. Phần IV sẽ cung cấp kết quả đánh giá DTW đơn giản, không yêu cầu bộ nhớ cao và cho tốc độ nhận th ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội nghị Quốc gia về Điện tử truyền thông Hệ thống nhúng Hệ thống nhúng nhận dạng tiếng nói tiếng Việt Mel-Frequency Cepstral Coefficients Dynamic Time WarpingGợi ý tài liệu liên quan:
-
Kỹ thuật điều chế QPSK cho hệ thống thông tin quang vô tuyến DWDM
6 trang 151 0 0 -
6 trang 144 0 0
-
Đề cương chi tiết học phần Vi điều khiển
15 trang 141 0 0 -
Khảo sát thuật toán OSD sử dụng bộ mã RS và kỹ thuật điều chế QAM
5 trang 124 0 0 -
26 trang 113 0 0
-
Phương pháp chênh lệch trong hiện thực hóa các hàm phức tạp trên ASIC cho các hệ thống DSP
6 trang 92 0 0 -
Báo cáo môn học: Xây dựng ứng dụng game Fun Math trên android
35 trang 57 0 0 -
Báo cáo nghiên cứu khoa học cấp trường: Thiết kế hệ thống nhúng cho thiết bị nội soi nha khoa
37 trang 46 0 0 -
Automatic identification of Vietnamese dialects
12 trang 45 0 0 -
Mô hình nghiên cứu thực nghiệm về truyền dữ liệu thời gian thực sử dụng ánh sáng đèn LED
6 trang 37 0 0