Danh mục

Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping

Số trang: 6      Loại file: pdf      Dung lượng: 692.72 KB      Lượt xem: 10      Lượt tải: 0    
Thư viện của tui

Phí tải xuống: 4,000 VND Tải xuống file đầy đủ (6 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết mô hình nhận dạng mẫu từ đơn tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Hệ thống nhúng nhận dạng tiếng nói tiếng Việt sử dụng Mel-Frequency Cepstral Coefficients và Dynamic Time Warping HộiHội ThảoThảo Quốc Quốc Gia Gia 2015vềvềĐiện 2015 ĐiệnTử, Tử,Truyền TruyềnThông Thông và và Công CôngNghệ NghệThông ThôngTinTin (ECIT 2015) (ECIT 2015) Hệ Thống Nhúng Nhận Dạng Tiếng Nói Tiếng Việt Sử Dụng Mel-Frequency Cepstral Coefficients Và Dynamic Time Warping Lê Đức Lộc, Trần Văn Hoàng và Hoàng Trang Khoa Điện – Điện Tử Trường Đại Học Bách Khoa – ĐHQG TP. Hồ Chí Minh Email: ducloc0506@gmail.com, tvhoang@hcmut.edu.vn, hoangtrang@hcmut.edu.vn Abstract — Trong bài báo này, mô hình nhận dạng mẫu từ đơn dạng của hệ thống khi thực nghiệm đối với bộ từ vựng 4 từ là tiếng Việt được trình bày. Tiếng nói được trích đặc trưng bằng giải 90.1% [9], và 90.5% đối với bộ từ vựng gồm 10 từ [10]. thuật MFCC (Mel-Frequency Cepstral Coefficients). Giải thuật thời gian động DTW (Dynamic Time Warping) được sử dụng để so Trong bài báo của chúng tôi, hệ thống nhận dạng tiếng nói sánh tiếng nói đầu vào với các mẫu thu sẵn, từ đó sẽ chọn ra được sử dụng phương pháp nhận dạng DTW được áp dụng với ngôn kết quả nhận dạng phù hợp nhất với tiếng nói phát ra. Hệ thống ngữ tiếng Việt với ưu điểm là tốc độ nhận dạng nhanh, đơn nhận dạng được thực hiện và chạy trên board nhúng BeagleBone giản, không yêu cầu bộ nhớ lớn với độ chính xác cao (cao hơn Black do Texas Instruments sản xuất. Kết quả nhận dạng cao phù so với hệ thống thực hiện bằng ngôn ngữ tiếng anh [9-10]) phù hợp với lý thuyết. hợp trong các hệ thống điều khiển yêu cầu tốc độ đáp ứng Keywords — Nhận dạng từ đơn tiếng Việt, MFCC, DTW. nhanh và tài nguyên phần cứng hạn chế. Đặc biệt, việc huấn luyện mẫu cho một từ chỉ yêu cầu một lần đọc, làm cho tính linh động của hệ thống rất cao. Đồng thời, trong bài báo này, I. GIỚI THIỆU chúng tôi cũng tiến hành thực nghiệm với một người khác Nhận dạng tiếng nói là một kỹ thuật có nhiều ứng dụng (không phải người huấn luyện) cho kết quả khả quan, chứng tỏ trong cuộc sống, trong việc điều khiển bởi ưu điểm lớn nhất sự linh hoạt và tiện dụng của hệ thống khi áp dụng với ngôn của nó là tốc độ cao, tương tác cao và trực quan với con ngữ tiếng Việt mà không cần phải huấn luyện với tất cả người người. Ở Việt Nam, nhận dạng tiếng nói đã được nghiên cứu dùng như trong bài báo [11]. trong những năm gần đây và đạt được nhiều thành quả [1-2]. Phần còn lại của bài báo được tổ chức như sau: trong phần Bài báo trình bày một mô hình nhận dạng mẫu tiếng Việt đọc II, chúng tôi trình bày tổng quan về hệ thống nhận dạng tiếng rời rạc với độ chính xác cao: sử dụng phương pháp trích đặc nói. Quá trình các bước thực hiện hệ thống nhận dạng sẽ được trưng hiện đại MFCC kết hợp với phương pháp so sánh mẫu mô tả trong phần III. Phần IV sẽ cung cấp kết quả đánh giá DTW đơn giản, không yêu cầu bộ nhớ cao và cho tốc độ nhận th ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: