: Tự động nhận dạng tiếng nói (Automatic Speech Recognition ASR) là một lĩnh vực nghiên cứu quan trọng để đưa các ứng dụng tiếng nói vào nhiều ngành. Một vấn đề liên quan cần nghiên cứu trong lĩnh vực này được dựa trên cơ sở lưu trữ một hoặc nhiều mẫu tín hiệu cho mỗi từ cần nhận dạng. Quá trình nhận dạng là quá trình thực hiện việc so sánh hai mẫu tín hiệu của cùng một âm để tím ra mẫu có sai số nhỏ nhất. Bởi vì tín hiệu âm thanh được tạo ra tại các......
Nội dung trích xuất từ tài liệu:
Áp dụng thuật toán Dynamic time wraping (DTW) cho ứng dụng nhận dạng mẫu tiếng việt LÜnh vùc C«ng nghÖ th«ng tin ¸p dông thuËt to¸n Dynamic Time wraping (dtW) cho øng dông nhËn d¹ng mÉu TiÕng ViÖt ThS.§oµn Phan Long Trung t©m C«ng nghÖ th«ng tinTãm t¾t: Tù ®éng nhËn d¹ng tiÕng nãi (Automatic Speech Recognition ASR) lµmét lÜnh vùc nghiªn cøu quan träng ®Ó ®a c¸c øng dông tiÕng nãi vµo nhiÒungµnh. Mét vÊn ®Ò liªn quan cÇn nghiªn cøu trong lÜnh vùc nµy ®îc dùa trªnc¬ së l u tr÷ mét hoÆc nhiÒu mÉu tÝn hiÖu cho mçi tõ cÇn nhËn d¹ng. Qu¸tr×nh nhËn d¹ng lµ qu¸ tr×nh thùc hiÖn viÖc so s¸nh hai mÉu tÝn hiÖu cñacïng mét ©m ®Ó tÝm ra mÉu cã sai sè nhá nhÊt. Bëi v× tÝn hiÖu ©m thanh ®îct¹o ra t¹i c¸c thêi ®iÓm kh¸c nhau kh«ng bao giõo gièng nhau hoµn toµn. Nã lu«ncã sù sai lÖch do c¸c yÕu tè vÒ träng ©m, ng÷ ®iÖu, tèc ®é,... V× vËy cÇn ph¶ithùc hiÖn sã s¸nh hai mÉu theo c¸c thuËt to¸n biÕn d¹ng nh»m gi¶m thiÓu saisè. ThuËt to¸n DTW (Dynamic Time Wraping) lµ thuËt to¸n hiÖu qu¶ nhÊt choviÖc øng dông sao s¸nh hai mÉu tÝn hiÖu cã chiÒu dµi kh¸c nhau vµ cho sai sènhá nhÊt [4]. Tuy nhiªn viÖc øng dông DTW cã nhiÒu híng kh¸c nhau vµ cho c¸ckÕt qu¶ kh¸c nhau, viÖc lùa chän ph¬ng ph¸p ¸p dông cã hiÖu qu¶ ®èi víi ng«nng÷ tiÕng ViÖt lµ mét vÊn ®Ò cÇn quan t©m.Më ®Çu: HiÖn nay víi sù trî gióp cña c¸c hÖ thèng m¸y tÝnh cã rÊt nhiÒu xu híngnh»m ¸p dông c¸c m« h×nh ng«n ng÷ trong c¸c hÖ thèng sö dông c«ng nghÖ nhËnd¹ng tiÕng nãi, trong ®ã cã thÓ kÓ ®Õn nh m« h×nh tõ, ©m tiÕt vµ m« h×nh©m vÞ, m« h×nh ©m ®Çu+vÇn. ViÖc lùa chän c¸c m« h×nh nµy ®Ó gi¶i quyÕtc¸c bµi to¸n cô thÓ phô thuéc vµo yªu cÇu cña c¸c øng dông. Nã quyÕt ®Þnh ®Õn®é phøc t¹p, tÝnh bao trïm vµ chÊt l îng cña hÖ thèng. HÖ thèng nhËn d¹ng ¸pdông c¸c m« h×nh ng«n ng÷ trªn ®Òu cã thÓ sö dông c«ng nghÖ nhËn d¹ng mÉutheo tõ, ©m tiÕt, ©m vÞ hoÆc theo c¸c ©m ®Çu vµ vÇn. §Ó cã thÓ so s¸nh gi÷atÝn hiÖu ®Çu vµo vµ mÉu, ngêi ta th êng ph¸p ¸p dông thuËt to¸n DTW. ThuËt to¸n DTW ®îc øng dông ®Ó gi¶i quyÕt viÖc so s¸nh gi÷a hai mÉu tÝnhiÖu cã ®é dµi kh¸c nhau theo thêi gian. Nh ta biÕt, kÕt qu¶ cña qu¸ tr×nh Häc viÖn C«ng nghÖ BCVTHéi nghÞ Khoa häc lÇn thø 5ph©n tÝch tÝnh hiÖu theo ph¬ng ph¸p m· ho¸ dù b¸o tuyÕn tÝnh (LinearPredictive Coding LPC) hay ng©n hµng bé läc (Filter Bank) bao giê còng cho takÕt qu¶ d¹ng chuçi c¸c vÐct¬ ®Æc tr ng. §é dµi cña chuçi vÐc t¬ nµy phô thuécvµo ®é dµi cña cña hai tÝn hiÖu mµ ta ph©n tÝch. Nh vËy, qu¸ tr×nh so s¸nhhai tÝn hiÖu sÏ t ¬ng øng víi qu¸ tr×nh so s¸nh 2 chuçi vÐc t¬ ®Æc tr ng cña haitÝn hiÖu. ThuËt to¸n DTW sÏ thùc hiÖn viÖc so s¸nh 2 chuçi vÐc t¬ nµy theomét sè luËt sao cho tæng ®é lÖch gi÷a hai chuçi lµ nhá nhÊt t ¬ng øng víi ®êng®i gi÷a c¸c cÆp vÐc t¬ cña hai chuçi lµ tèi u nhÊt. ViÖc chän lùa luËt chän ®-êng ®i vµ giíi h¹n biªn cña c¸c ®êng ®i sÏ cho ta kÕt qu¶ tÝnh to¸n lµ nhá nhÊtvµ hiÖu qu¶ nhÊt.1 Kh¸i qu¸t vÒ tiÕng ViÖt1.1) C¸c d©n téc vµ ng«n ng÷ ë ViÖt Nam Trong sè 54 d©n téc ë ViÖt Nam th× d©n téc ViÖt (cßn gäi lµ Kinh)chiÕm sè lîng tuyÖt ®èi, tæng sè d©n lªn tíi trªn 70 triÖu ngêi. D©n téc Tµy cã1,2 triÖu, d©n téc Th¸i trªn 1 triÖu, c¸c d©n téc Hoa, Kh¬ me, M êng, C¬ Ho,Chµm, S¸n D×u trªn 900 ngh×n ngêi.C¨n cø vµo ng«n ng÷, ch÷ viÕt ta cã thÓ ph©n bè c¸c thµnh phÇn d©n téc nhsau: TiÕng N«m - Kh¬me. Gåm nhiÒu nhãm ngêi ë T©y B¾c, T©y Nguyªn, Qu¶ng TrÞ vv... TiÕng Th¸i. Gåm ngêi Th¸i T©y B¾c, Thîng du Thanh Hãa, NghÖ An, khu ViÖt B¾c, Qu¶ng Ninh. Ngoµi ra cßn cã nhãm ngêi Gi¸y, Cao Lan, Lù vv... TiÕng Anh-®«-nª-diªng. Gåm ngêi Chµm, Gia rai, £-®ª (T©y Nguyªn). TiÕng MÌo-Dao. Gåm ngêi MÌo Dao (ViÖt B¾c, Hßa B×nh Thanh Hãa) TiÕng T¹ng - MiÕn: Gåm ngêi L« L« (Hµ Giang), Hµ Nh×, La Khu, Cèng, Xila (T©y B¾c). TiÕng H¸n: Ngêi Hoa (Qu¶ng Ninh), S¸n D×u (B¾c Giang, B¾c C¹n, Th¸i Nguyªn vv....). TiÕng ViÖt lµ ng«n ng÷ céng ®ång cña d©n téc ViÖt vµ còng lµ c«ng cô giaotiÕp chung cho c¸c d©n téc sèng trong níc ViÖt Nam. NhiÒu c«ng tr×nh nghiªncøu theo ph¬ng ph¸p lÞch sö so s¸nh ®Òu ®i ®Õn kÕt luËn c¸c ng«n ng÷ ë ViÖtHäc viÖn C«ng nghÖ BCVT LÜnh vùc C«ng nghÖ th«ng tinNam thuéc vµo c¸c hä H¸ n T¹ng, Th¸ i, MÌo-Dao, Nam §¶o, Nam ¸ ; riªng t iÕngViÖt t huéc hä t iÕng Nam ¸ . Hä Nam ¸ (aust roasiat ique) lµ mét hä ng«n ng÷ kh¸lín bao gåm mét phÇn Ên ® é, mét phÇn Malaysia, mét phÇn MiÕn ® iÖn, phÇnlín Campuchia, phÇn lín ViÖt Nam . Hä nµy l¹i ph© n t hµnh nhiÒu nhãm: ViÖt -M êng, M«ng-Khm er, Kh¬ mó, C¬ t u, Bana, Mn«ng, Ka® ai. Hä Nam §¶o (aust ronesien hay malayo-polyesien) còng lµ mét hä lín, víinhiÒu ng«n ng÷ , t rªn ...