Danh mục

Tiến tới những chuẩn mở trong việc xử lý giọng nói

Số trang: 12      Loại file: pdf      Dung lượng: 207.95 KB      Lượt xem: 15      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (12 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nhiều dự án phần mềm có từ lâu đã sử dụng các tệp tài nguyên và cấu hình flat-file (thuật ngữ thường dùng để chỉ các ứng dụng lưu trữ dữ liệu lên các tập tin dạng văn bản) trong nhiều năm mà không gặp các vấn đề lớn. Khi các dự án phát triển và trở nên phức tạp hơn, nhu cầu tăng thêm về sự chặt chẽ và tính tương thích càng lớn hơn. Với XML và ứng dụng của XML khi sử dụng các tiêu chuẩn cụ thể, có khả năng là bạn có thể được hưởng...
Nội dung trích xuất từ tài liệu:
Tiến tới những chuẩn mở trong việc xử lý giọng nói Tiến tới những chuẩn mở trong việc xử lý giọng nóiGiới thiệuNhiều dự án phần mềm có từ lâu đã sử dụng các tệp tài nguyên và cấu hình flat-file (thuật ngữthường dùng để chỉ các ứng dụng lưu trữ dữ liệu lên các tập tin dạng văn bản) trong nhiều nămmà không gặp các vấn đề lớn. Khi các dự án phát triển và trở nên phức tạp hơn, nhu cầu tăngthêm về sự chặt chẽ và tính tương thích càng lớn hơn. Với XML và ứng dụng của XML khi sửdụng các tiêu chuẩn cụ thể, có khả năng là bạn có thể được hưởng lợi từ: tính tương thích, tínhchắc chắn và tính mở rộng giữa dự án và giữa nền tảng trong các lĩnh vực chẳng hạn nhưUnicode.Các từ viết tắt thông dụng  HTK: Hidden Markov Model Toolkit (Bộ công cụ mô hình Markov ẩn)  PLS: Pronunciation Lexicon Specification (Đặc tả từ vựng phát âm)  XML: eXtensilble Markup Language (Ngôn ngữ đánh dấu mở rộng)Bằng việc chuyển đổi các tệp flat-file sang tiêu chuẩn nguồn mở thích hợp, bạn cũng có thể làmtăng tính linh hoạt và độ tin cậy. Từ ngữ trong việc nhận dạng giọng nói là một ví dụ hay đượcsử dụng trong bài này. Dù các dự án mã nguồn mở của bạn có di chuyển sang XML với các tệptài nguyên hay không, bạn có thể sử dụng các tiêu chuẩn XML trong công việc của mình màkhông bị mất đi các đặc tính.Trong bài này, hãy tìm hiểu cách dễ dàng di chuyển giữa các định dạng phẳng và PLS. Các ví dụcho thấy cách lưu trữ các từ ngữ tùy chỉnh theo định dạng PLS và trích xuất dữ liệu vào flat-filecần thiết.Về đầu trangVí dụ: Từ ngữCác từ ngữ là các danh sách của các từ mà bạn sử dụng trong các công cụ nhận dạng giọng nói.Chúng chứa thông tin về cách từ đó phải được in ra hoặc được biểu diễn bằng đồ họa như thếnào và nó phát ra như thế nào khi sử dụng các âm vị. Từ vựng thường dùng với HTK được sửdụng rộng rãi trong các dự án điều khiển bằng giọng nói (xem phần Tài nguyên). Liệt kê 1 là mộtđoạn trích của một từ vựng HTK của VoxForge.Liệt kê 1. Đoạn trích của một từ vựng HTK của VoxForgeAGENCY [AGENCY] ey jh ih n s iyAGENDA [AGENDA] ax jh eh n d axAGENT [AGENT] ey jh ih n tAGENTS [AGENTS] ey jh ih n t sAGER [AGER] ey g erAGES [AGES] ey jh ih zThêm một khoảng tab nếu bạn muốn sao chép và dán mãtrong bàiĐiều quan trọng là bạn lấy các từ vựng trực tiếp từ nguồn. Bài này sẽ hiển thị bằng HTML, thaythế các sự phân cách bằng khoảng trống. Nếu bạn sao chép và dán từ bài này, bạn cần phải thaythế nhiều khoảng trống ở giữa bằng một dấu phân cách thẻ đơn ( ) nếu không thì đoạn script sẽkhông chạy.Tệp trong Liệt kê 1 có ba trường được phân cách bằng tab:  Nhãn mô tả chung về từ đó.  Các dấu ngoặc vuông bao quanh từ khi bạn muốn nó được in hoặc được hiển thị trên màn hình (grapheme - chữ cái đặc trưng cho một âm vị).  Một chuỗi các âm vị có phân cách bằng một khoảng trống từ bộ Arpabet (xem phần Tài nguyên) mô tả từ này phát âm như thế nào.Trong ví dụ trên, các phát âm từ tiếng Anh, rõ ràng được trình bày bởi các ký tự ASCII (Mã tiêuchuẩn Hoa kỳ dùng để trao đổi thông tin)..Dự án Sphinx của CMU (xem phần Tài nguyên) lưu từ vựng (hoặc từ điển trong bối cảnh Sphinxcủa CMU) theo cách tương tự. Liệt kê 2 trình bày một đoạn trích dẫn.Liệt kê 2. Đoạn trích từ vựng Sphinx của CMUagency EY JH AH N S IYagenda AH JH EH N D AHagendas AH JH EH N D AH Zagent EY JH AH N Tagents EY JH AH N T Sager EY JH ERTrong Liệt kê 2 chỉ có hai trường: word/grapheme và biểu diễn âm vị của nó. Hai ví dụ trên cómột số sự khác biệt khó nhận thấy:  Các từ và các âm vị trong các trường hợp khác nhau.  Các âm vị có một số khác biệt không đáng kể.  Dấu chấm câu (dấu phẩy, dấu chấm than và v.v) được xử lý hơi khác nhau một chút.Bạn có thể xem toàn bộ từ điển trong tệp cmu07a.dic trong phần tải về hiện tại của PocketSphinx(xem phần Tài nguyên).Do từ vựng mô tả các cách phát âm cụ thể của các từ, nên bạn có thể cần chỉnh sửa tệp đó chophù hợp với mọi người hoặc các phương ngữ cụ thể. Theo thời gian, bạn xây dựng vốn kiến thứctrong từ vựng tùy chỉnh riêng của mình. Bạn có thể dễ dàng chỉnh sửa flat-file bằng một trìnhsoạn thảo văn bản, nhưng bạn nên cẩn thận vì điều này cũng dễ gây ra lỗi, chẳng hạn như: việcsử dụng một dấu phân cách khác hơn so với tiêu chuẩn dùng cho tệp, việc chèn các ký tự khôngphải là ASCII, đặt các trường theo thứ tự sai, việc phân loại các bản ghi không chính xác, thiếucác dấu ngoặc vuông cần thiết và v.v.Có một bất lợi khó thấy khác của các flat-file là khi bạn xây dựng tệp tùy chỉnh của mình, bạnvẫn không tương thích với các dự án nhận dạng văn bản khác. Một từ vựng theo một định dạngXML tiêu chuẩn như PLS, nếu được cả hai dự án công nhận, thì ngay lập tức đều tương thíchtrong cả hai.Về đầu trangĐặc tả từ vựng phát âmPLSA có một định dạng cơ bản, đơn giả ...

Tài liệu được xem nhiều:

Tài liệu liên quan: