Khai thác kho ngữ liệu chú giải cú pháp cho phân tích cú pháp tiếng Việt
Số trang: 8
Loại file: pdf
Dung lượng: 0.00 B
Lượt xem: 12
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo đã trình bày việc phát triển thuật toán trích rút tự động bộ luật của văn phạm PCFG (Probability Context Free Grammar) từ VietTreebank và thuật toán phân tích cú pháp tiếng Việt, xây dựng bộ phân tích cú pháp tiếng Việt trên văn phạm PCFG. Trong đó thuật toán phân tích cú pháp cho mỗi câu được phát triển từ thuật toán của Jurafsky and Martin. Mời các bạn tham khảo!
Nội dung trích xuất từ tài liệu:
Khai thác kho ngữ liệu chú giải cú pháp cho phân tích cú pháp tiếng ViệtKü thuËt ®iÖn tö & Khoa häc m¸y tÝnh Khai th¸c kho ng÷ liÖu chó gi¶i có ph¸p cho ph©n tÝch có ph¸p tiÕng ViÖt Phan thÞ Hµ, hµ H¶I Nam Tãm t¾t: Bµi b¸o ®· tr×nh bµy viÖc ph¸t triÓn thuËt to¸n trÝch rót tù ®éng bé luËt cña v¨n ph¹m PCFG (Probability Context Free Grammar) tõ VietTreebank vµ thuËt to¸n ph©n tÝch có ph¸p tiÕng ViÖt, x©y dùng bé ph©n tÝch có ph¸p tiÕng ViÖt trªn v¨n ph¹m PCFG. Trong ®ã thuËt to¸n ph©n tÝch có ph¸p cho mçi c©u ®îc ph¸t triÓn tõ thuËt to¸n cña Jurafsky and Martin [5]. Víi c¸ch tiÕp cËn cho tiÕng ViÖt, mét c©u ®Çu vµo ®· ®îc g¸n nh·n tõ lo¹i b»ng c«ng cô cã s½n, trong khi ®èi víi Jurafsky vµ Martin th× c©u ®Çu vµo lµ mét chuçi c¸c tõ cha ®îc g¸n nh·n tõ lo¹i, viÖc t¸ch tõ dùa vµo kho¶ng tr¾ng.Keywords: CFG, PCFG, CYK, PCYK, Treebank, Probability Context Free Grammar, Parser 1. Giíi thiÖu Ph©n tÝch có ph¸p lµ bíc quan träng trong qu¸ trÝnh xö lý ng«n ng÷ tù nhiªn, víibé ph©n tÝch có ph¸p chÊt lîng cao sÏ gióp t¨ng tÝnh hiÖu qu¶ cña c¸c hÖ thèng xölý ng«n ng÷ tù nhiªn nh dÞch m¸y, tãm t¾t v¨n b¶n, c¸c hÖ thèng hái ®¸p.. . §èi víi tiÕng ViÖt, mäi bé ph©n tÝch có ph¸p ®Òu cÇn bé luËt có ph¸p tiÕng ViÖt,hay cßn gäi lµ v¨n ph¹m cho tiÕng ViÖt, ®îc biÓu diÔn bëi mét hÖ v¨n ph¹m h×nhthøc cô thÓ nµo ®ã. Bé luËt nµy cã thÓ thu thËp tõ mét sè kho ng÷ liÖu ®îc x©y dùngtrong dù ¸n KC01.01/06-101, ®ã lµ kho ng÷ liÖu chó gi¶i có ph¸p (VietTreebank).Trong VietTreebank, nhãm c¸c chuyªn gia ng«n ng÷ häc ®· thùc hiÖn viÖc chó gi¶ith«ng tin có ph¸p cho mét kho v¨n b¶n tiÕng ViÖt theo ®Þnh d¹ng chó gi¶i thµnh phÇnvµ ®· ®îc m· hãa díi d¹ng ®Æt ngoÆc. Kho ng÷ liÖu ®îc chia lµm ba tËp t¬ngøng víi ba møc g¸n nh·n lµ t¸ch tõ, g¸n nh·n tõ lo¹i vµ g¸n nh·n có ph¸p. TËp g¸nnh·n có ph¸p gåm 10471 c©u (225085 ®¬n vÞ tõ vùng). §é dµi cña c¸c c©u n»m trongkho¶ng tõ 2 tíi 105 tõ, víi ®é dµi trung b×nh lµ 21.75 tõ. Cã 9314 c©u (chiÕm88.95%) cã ®é dµi kh«ng lín h¬n 40 tõ. C¸c c©y có ph¸p cã chiÒu cao ®a sè n»mtrong kho¶ng tõ 5 ®Õn 10, phæ biÕn nhÊt lµ b»ng 7 (1436 c©u). C¸c th«ng tin chi tiÕtvÒ VietTreebank ®îc tr×nh bµy trong tµi liÖu [1]. Dùa vµo th«ng tin có ph¸p trong VietTreebank bµi b¸o ®i s©u vµo x©y dùng béluËt cña v¨n ph¹m phôc vô cho bµi to¸n ph©n tÝch có ph¸p tiÕng ViÖt. Trong ®ã, bµib¸o ®· tr×nh bµy viÖc ph¸t triÓn vµ x©y dùng thuËt to¸n trÝch rót tù ®éng bé luËt cñav¨n ph¹m PCFG (Probability Context Free Grammar) tõ VietTreebank, cµi ®Æt thönghiÖm vµ ®¸nh gi¸. §ång thêi x©y dùng ®îc bé ph©n tÝch có ph¸p tiÕng ViÖt trªnv¨n ph¹m PCFG, trong ®ã thuËt to¸n ph©n tÝch có ph¸p cho mçi c©u ®îc c¶i tiÕntõ thuËt to¸n PCYK cña Jurafsky and Martin [5]. Víi c¸ch tiÕp cËn cho tiÕng ViÖt,mét c©u ®Çu vµo ®· ®îc g¸n nh·n tõ lo¹i b»ng c«ng cô cã s½n, trong khi ®èi víiJurafsky vµ Martin th× c©u ®Çu vµo lµ mét chuçi c¸c tõ cha ®îc g¸n nh·n tõ lo¹i,viÖc t¸ch tõ dùa vµo kho¶ng tr¾ng. Sau khi g¸n nh·n tõ lo¹i x¸c suÊt P(tõ lo¹i| tõ)trong mét v¨n ph¹m kh«ng lµm ¶nh hëng ®Õn viÖc t×m c©y ph©n tÝch cã x¸c suÊt1 http://vlsp.vietlp.org:808090 P. T. Hµ, H. H¶i Nam, Khai th¸c kho ng÷ liÖu… ph©n tÝch có ph¸p tiÕng ViÖt.Nghiªn cøu khoa häc c«ng nghÖcao nhÊt (®· chøng minh ë môc 3) nªn trong thuËt to¸n ph©n tÝch có ph¸p PCYKnhãm t¸c gi¶ ®· ®îc ®iÒu chØnh b»ng c¸ch thay x¸c suÊt P(tõ lo¹i|tõ)=1 thay v×ph¶i tÝnh x¸c suÊt ®ã trong VietTreebank. Bè côc bµi b¸o ®îc chia thµnh c¸c môc nh sau: Môc 1 lµ giíi thiÖu, môc 2tr×nh bµy vÒ thuËt to¸n trÝch rót v¨n ph¹m PCFG tõ VietTreebank, môc 3 lµ ph©ntÝch có ph¸p tiÕng ViÖt víi v¨n ph¹m PCFG, môc 4 lµ thñ nghiÖm vµ ®¸nh gi¸, môc5 lµ kÕt luËn. 2. ThuËt to¸n trÝch rót tõ v¨n ph¹m tõ VietTreebank Ph¬ng ph¸p trÝch rót tù ®éng c¸c luËt v¨n ph¹m CFG, PCFG tõ ng©n hµng c©ycó ph¸p phôc vô cho viÖc ph©n tÝch có ph¸p ®· ®îc sö dông cho nhiÒu ng«n ng÷kh¸c nhau, nh tiÕng Anh [5], tiÕng §øc,… §èi víi tiÕng ViÖt, vÊn ®Ò khai th¸cVietTreeBank cho nghiªn cøu vµ x©y dùng c¸c øng dông xö lý ng«n ng÷ cho tiÕngViÖt ®îc ph¸t triÓn [1, 5]. ë ®©y bµi b¸o tr×nh bµy ph¬ng ph¸p trÝch rót c¸c luËtv¨n ph¹m phi ng÷ c¶nh kÕt hîp x¸c suÊt tõ ng©n hµng kho ng÷ liÖu tiÕng ViÖt cãtªn lµ VietTreebank, ph¬ng ph¸p sö dông ë ®©y t¬ng tù nh ph¬ng ph¸p cñaRoberto Valenti [8] vµ Jurafsky and Martin [5]. Nhng thuËt to¸n chi tiÕt trongtõng bíc cña ph¬ng ph¸p ®· ®îc x©y dùng tõ ®Çu. VÒ c¬ b¶n qu¸ tr×nh trÝch rót®îc thùc hiÖn qua nh÷ng bíc sau:Bíc1. TrÝch rót c¸c luËt cña v¨n ph¹m CFG Trong bíc nµy sÏ cho phÐp trÝch rót c¸c luËt cña v¨n ph¹m phi ng÷ c¶nh (CFG )tõ VietTreebank ë d¹ng ngoÆc vµ ®ång thêi lo¹i bá c¸c luËt sinh ra c¸c tõ kÕt (vÝdô, Np->Lan). VietTreebank sÏ ®îc ®äc tõng tÖp vµ t¸ch ra thµnh tõng c©u, bé luËttrong mçi c©u ®îc trÝch rót b»ng ThuËt ...
Nội dung trích xuất từ tài liệu:
Khai thác kho ngữ liệu chú giải cú pháp cho phân tích cú pháp tiếng ViệtKü thuËt ®iÖn tö & Khoa häc m¸y tÝnh Khai th¸c kho ng÷ liÖu chó gi¶i có ph¸p cho ph©n tÝch có ph¸p tiÕng ViÖt Phan thÞ Hµ, hµ H¶I Nam Tãm t¾t: Bµi b¸o ®· tr×nh bµy viÖc ph¸t triÓn thuËt to¸n trÝch rót tù ®éng bé luËt cña v¨n ph¹m PCFG (Probability Context Free Grammar) tõ VietTreebank vµ thuËt to¸n ph©n tÝch có ph¸p tiÕng ViÖt, x©y dùng bé ph©n tÝch có ph¸p tiÕng ViÖt trªn v¨n ph¹m PCFG. Trong ®ã thuËt to¸n ph©n tÝch có ph¸p cho mçi c©u ®îc ph¸t triÓn tõ thuËt to¸n cña Jurafsky and Martin [5]. Víi c¸ch tiÕp cËn cho tiÕng ViÖt, mét c©u ®Çu vµo ®· ®îc g¸n nh·n tõ lo¹i b»ng c«ng cô cã s½n, trong khi ®èi víi Jurafsky vµ Martin th× c©u ®Çu vµo lµ mét chuçi c¸c tõ cha ®îc g¸n nh·n tõ lo¹i, viÖc t¸ch tõ dùa vµo kho¶ng tr¾ng.Keywords: CFG, PCFG, CYK, PCYK, Treebank, Probability Context Free Grammar, Parser 1. Giíi thiÖu Ph©n tÝch có ph¸p lµ bíc quan träng trong qu¸ trÝnh xö lý ng«n ng÷ tù nhiªn, víibé ph©n tÝch có ph¸p chÊt lîng cao sÏ gióp t¨ng tÝnh hiÖu qu¶ cña c¸c hÖ thèng xölý ng«n ng÷ tù nhiªn nh dÞch m¸y, tãm t¾t v¨n b¶n, c¸c hÖ thèng hái ®¸p.. . §èi víi tiÕng ViÖt, mäi bé ph©n tÝch có ph¸p ®Òu cÇn bé luËt có ph¸p tiÕng ViÖt,hay cßn gäi lµ v¨n ph¹m cho tiÕng ViÖt, ®îc biÓu diÔn bëi mét hÖ v¨n ph¹m h×nhthøc cô thÓ nµo ®ã. Bé luËt nµy cã thÓ thu thËp tõ mét sè kho ng÷ liÖu ®îc x©y dùngtrong dù ¸n KC01.01/06-101, ®ã lµ kho ng÷ liÖu chó gi¶i có ph¸p (VietTreebank).Trong VietTreebank, nhãm c¸c chuyªn gia ng«n ng÷ häc ®· thùc hiÖn viÖc chó gi¶ith«ng tin có ph¸p cho mét kho v¨n b¶n tiÕng ViÖt theo ®Þnh d¹ng chó gi¶i thµnh phÇnvµ ®· ®îc m· hãa díi d¹ng ®Æt ngoÆc. Kho ng÷ liÖu ®îc chia lµm ba tËp t¬ngøng víi ba møc g¸n nh·n lµ t¸ch tõ, g¸n nh·n tõ lo¹i vµ g¸n nh·n có ph¸p. TËp g¸nnh·n có ph¸p gåm 10471 c©u (225085 ®¬n vÞ tõ vùng). §é dµi cña c¸c c©u n»m trongkho¶ng tõ 2 tíi 105 tõ, víi ®é dµi trung b×nh lµ 21.75 tõ. Cã 9314 c©u (chiÕm88.95%) cã ®é dµi kh«ng lín h¬n 40 tõ. C¸c c©y có ph¸p cã chiÒu cao ®a sè n»mtrong kho¶ng tõ 5 ®Õn 10, phæ biÕn nhÊt lµ b»ng 7 (1436 c©u). C¸c th«ng tin chi tiÕtvÒ VietTreebank ®îc tr×nh bµy trong tµi liÖu [1]. Dùa vµo th«ng tin có ph¸p trong VietTreebank bµi b¸o ®i s©u vµo x©y dùng béluËt cña v¨n ph¹m phôc vô cho bµi to¸n ph©n tÝch có ph¸p tiÕng ViÖt. Trong ®ã, bµib¸o ®· tr×nh bµy viÖc ph¸t triÓn vµ x©y dùng thuËt to¸n trÝch rót tù ®éng bé luËt cñav¨n ph¹m PCFG (Probability Context Free Grammar) tõ VietTreebank, cµi ®Æt thönghiÖm vµ ®¸nh gi¸. §ång thêi x©y dùng ®îc bé ph©n tÝch có ph¸p tiÕng ViÖt trªnv¨n ph¹m PCFG, trong ®ã thuËt to¸n ph©n tÝch có ph¸p cho mçi c©u ®îc c¶i tiÕntõ thuËt to¸n PCYK cña Jurafsky and Martin [5]. Víi c¸ch tiÕp cËn cho tiÕng ViÖt,mét c©u ®Çu vµo ®· ®îc g¸n nh·n tõ lo¹i b»ng c«ng cô cã s½n, trong khi ®èi víiJurafsky vµ Martin th× c©u ®Çu vµo lµ mét chuçi c¸c tõ cha ®îc g¸n nh·n tõ lo¹i,viÖc t¸ch tõ dùa vµo kho¶ng tr¾ng. Sau khi g¸n nh·n tõ lo¹i x¸c suÊt P(tõ lo¹i| tõ)trong mét v¨n ph¹m kh«ng lµm ¶nh hëng ®Õn viÖc t×m c©y ph©n tÝch cã x¸c suÊt1 http://vlsp.vietlp.org:808090 P. T. Hµ, H. H¶i Nam, Khai th¸c kho ng÷ liÖu… ph©n tÝch có ph¸p tiÕng ViÖt.Nghiªn cøu khoa häc c«ng nghÖcao nhÊt (®· chøng minh ë môc 3) nªn trong thuËt to¸n ph©n tÝch có ph¸p PCYKnhãm t¸c gi¶ ®· ®îc ®iÒu chØnh b»ng c¸ch thay x¸c suÊt P(tõ lo¹i|tõ)=1 thay v×ph¶i tÝnh x¸c suÊt ®ã trong VietTreebank. Bè côc bµi b¸o ®îc chia thµnh c¸c môc nh sau: Môc 1 lµ giíi thiÖu, môc 2tr×nh bµy vÒ thuËt to¸n trÝch rót v¨n ph¹m PCFG tõ VietTreebank, môc 3 lµ ph©ntÝch có ph¸p tiÕng ViÖt víi v¨n ph¹m PCFG, môc 4 lµ thñ nghiÖm vµ ®¸nh gi¸, môc5 lµ kÕt luËn. 2. ThuËt to¸n trÝch rót tõ v¨n ph¹m tõ VietTreebank Ph¬ng ph¸p trÝch rót tù ®éng c¸c luËt v¨n ph¹m CFG, PCFG tõ ng©n hµng c©ycó ph¸p phôc vô cho viÖc ph©n tÝch có ph¸p ®· ®îc sö dông cho nhiÒu ng«n ng÷kh¸c nhau, nh tiÕng Anh [5], tiÕng §øc,… §èi víi tiÕng ViÖt, vÊn ®Ò khai th¸cVietTreeBank cho nghiªn cøu vµ x©y dùng c¸c øng dông xö lý ng«n ng÷ cho tiÕngViÖt ®îc ph¸t triÓn [1, 5]. ë ®©y bµi b¸o tr×nh bµy ph¬ng ph¸p trÝch rót c¸c luËtv¨n ph¹m phi ng÷ c¶nh kÕt hîp x¸c suÊt tõ ng©n hµng kho ng÷ liÖu tiÕng ViÖt cãtªn lµ VietTreebank, ph¬ng ph¸p sö dông ë ®©y t¬ng tù nh ph¬ng ph¸p cñaRoberto Valenti [8] vµ Jurafsky and Martin [5]. Nhng thuËt to¸n chi tiÕt trongtõng bíc cña ph¬ng ph¸p ®· ®îc x©y dùng tõ ®Çu. VÒ c¬ b¶n qu¸ tr×nh trÝch rót®îc thùc hiÖn qua nh÷ng bíc sau:Bíc1. TrÝch rót c¸c luËt cña v¨n ph¹m CFG Trong bíc nµy sÏ cho phÐp trÝch rót c¸c luËt cña v¨n ph¹m phi ng÷ c¶nh (CFG )tõ VietTreebank ë d¹ng ngoÆc vµ ®ång thêi lo¹i bá c¸c luËt sinh ra c¸c tõ kÕt (vÝdô, Np->Lan). VietTreebank sÏ ®îc ®äc tõng tÖp vµ t¸ch ra thµnh tõng c©u, bé luËttrong mçi c©u ®îc trÝch rót b»ng ThuËt ...
Tìm kiếm theo từ khóa liên quan:
Khai thác kho ngữ liệu chú giải cú pháp Phân tích cú pháp tiếng Việt Khai thác kho ngữ liệu Cú pháp tiếng Việt Probability Context Free GrammarGợi ý tài liệu liên quan:
-
Cú pháp tiếng Anh-tiếng Việt và ngôn ngữ học đối chiếu: Phần 2
270 trang 143 0 0 -
Những vấn đề lí luận về ngữ pháp tiếng Việt-Câu: Phần 1
249 trang 52 1 0 -
Ngữ pháp thông dụng tiếng Việt: Phần 2
224 trang 36 0 0 -
Một đề nghị phân loại câu điều kiện tiếng Việt
11 trang 31 0 0 -
So sánh các hình thức liên kết trong câu điều kiện tiếng Việt và tiếng Nhật
11 trang 21 0 0 -
Quan hệ nhân quả và khung đề điều kiện
17 trang 15 0 0 -
Cú pháp Tiếng Việt và ngôn ngữ học hiện đại: Phần 1
170 trang 15 0 0 -
Cú pháp tiếng Anh-tiếng Việt và ngôn ngữ học đối chiếu: Phần 1
189 trang 15 0 0 -
Phân tích cú pháp tiếng Việt sử dụng văn phạm phi ngữ cảnh từ vựng hoá kết hợp xác suất
10 trang 15 0 0 -
Một số vấn đề cú pháp tiếng Việt nhìn từ lí thuyết độ nổi trội
11 trang 14 0 0