Danh mục

Xác định các hệ số phương pháp cho bài toán tóm tắt văn bản tiếng Việt dựa vào kỹ thuật voting

Số trang: 9      Loại file: pdf      Dung lượng: 311.19 KB      Lượt xem: 10      Lượt tải: 0    
Jamona

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài báo này phân tích hạn chế của phương pháp trên và đề xuất hướng cải tiến bằng cách đưa vào các hệ số phương pháp. Đề xuất cách xác định các hệ số phương pháp bằng giải thuật di truyền thông qua quá trình học kho ngữ liệu tóm tắt mẫu. Thử nghiệm tóm tắt văn bản dựa theo kỹ thuật Voting với các hệ số phương pháp cho thấy, văn bản tóm tắt có độ chính xác cao hơn phương pháp tóm tắt dựa theo kỹ thuật Voting truyền thống đã được đề xuất.
Nội dung trích xuất từ tài liệu:
Xác định các hệ số phương pháp cho bài toán tóm tắt văn bản tiếng Việt dựa vào kỹ thuật votingKỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ph¬ng ph¸p cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt dùa vµo kü thuËt voting NGUYỄNNHẬTAN*,NGUYỄNQUANGBẮC*, NGUYỄNĐỨCHIẾU**,TRẦNNGỌCANH** Tóm tắt: Phương pháp tóm tắt văn bản tiếng Việt dựa vào kỹ thuật Voting là một phương pháp mới được đề xuất với ý tưởng xem kết quả của mỗi phương pháp tóm tắt văn bản khác nhau là một lá phiếu đã được sắp xếp thứ tự ưu tiên các câu trích rút, sử dụng kỹ thuật Voting để lựa chọn các câu ưu tú dựa trên các lá phiếu đã nêu. Bài báo này phân tích hạn chế của phương pháp trên và đề xuất hướng cải tiến bằng cách đưa vào các hệ số phương pháp. Đề xuất cách xác định các hệ số phương pháp bằng giải thuật di truyền thông qua quá trình học kho ngữ liệu tóm tắt mẫu. Thử nghiệm tóm tắt văn bản dựa theo kỹ thuật Voting với các hệ số phương pháp cho thấy, văn bản tóm tắt có độ chính xác cao hơn phương pháp tóm tắt dựa theo kỹ thuật Voting truyền thống đã được đề xuất.Từ khóa:TómtắtvănbảntiếngViệt,KỹthuậtVoting,Hệsốphươngpháp,Giảithuậtditruyền. 1. ĐẶT VẤN ĐỀ Trongthờiđạibùngnổthôngtinđiệntử,nhucầutựđộngtổnghợpthôngtinnổibậttừkhovănbảnđiệntửkhổnglồđótrởnênđặcbiệtquantrọngvàđượcsựquantâmrộngrãi.Tómtắtvănbảnlàquátrìnhrútgọnvănbảnmàvẫngiữđượcnhữngthôngtinquantrọngcủavănbản.Kỹthuậttómtắtvănbảnđượccácnhànghiêncứuphânrathànhhailoạilà:tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lượcAS(AbstractionSummarization).ĐốivớitómtắtvănbảntiếngViệt,cácnghiêncứuchủyếudựatheohướngtiếpcậnESlàthôngquatínhtoáncácđặctrưngtầnsuấttừ,vịtrícâu,từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút[1][2][3][4][5][6][7]. Trongcácnghiêncứuđó,chúngtôiquantâmđếnhướngtiếpcậnmớiđượcđưaralàtómtắtđơnvănbảntiếngViệtdựavàokỹthuậtVoting[1].Ýtưởngcủaphươngphápnàylàxemkếtquảcủamỗiphươngpháptómtắtvănbảnkhácnhaulàmộtláphiếuđãđượcsắpxếpthứtựưutiêncáccâutríchrút,sửdụngkỹthuậtVotingđểlựachọncáccâuưutúdựa trên các lá phiếu đã nêu. Nhận thấy đây là một hướng nghiên cứu mới trong tiếngViệt,dođótrongbàibáonàychúngtôisẽphântíchhạnchế,sauđónghiêncứu,đềxuấtcảitiếnbằngcáchđưahệsốphươngphápvàođểnângcaođộchínhxác. Nghiêncứugiảiquyếthaivấnđềchính:Mộtlà,trìnhbàyphươngpháptómtắtđơnvăn bản tiếng Việt dựa vào kỹ thuật Voting và hạn chế của nó; hai là, cách đưa hệ sốphươngphápvàovàxácđịnhbộhệsốphươngphápbằnggiảithuậtditruyềnthôngquaquátrìnhhọctậpvănbảntómtắtmẫu.Sauđó,chúngtôitiếnhànhthửnghiệmtómtắtvănbảnvàđánhgiáchúng. Nghiên cứu được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu;Phần3trình bàycác kết quảthử nghiệm,vàso sánh đánhgiá;cuốicùngkết luận đượctrìnhbàytrongPhần4. 2. NỘI DUNG CẦN GIẢI QUYẾT2.1. Bài toán tóm tắt đơn văn bản tiếng Việt dựa vào kỹ thuật Voting Trongphầnnày,chúngtôitrình bàytómtắtlạihướngtiếp cậntómtắtđơn vănbảntiếngViệtdựavàokỹthuậtVotingcủanhómtácgiảđãnêutrongbàibáo[1]82 N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh, “Xác định các hệ số … kỹ thuật Voting” Nghiên cứu khoa học công nghệ2.1.1. Phương pháp Voting Votinglàmộtquátrìnhđưaraquyếtđịnhcủacửtriđểchọnramộtdanhsáchứngcửviêntốtnhấtthoảmãncáctiêuchíbầuchọnchomộtmụcđíchcụthểnàođó[12].Trongnghiêncứu,nhómtácgiảchỉtrìnhbàykỹthuậtvotingdựatrêncácláphiếucósựưutiên(sắpxếp).Chúngtaxemvídụtrongbảng1: Bảng 1. Minh hoạ phương pháp Voting. Sốphiếubầuchọn 2 3 1 Ưutiên1 A B C Ưutiên2 B C B Ưutiên3 C A A Ưutiên4 D D D Phương pháp tính điểm Borda[12] Trongphương phápnày,các vị trí được tính điểm như sau: vị trí cuối cùngđược 1điểm,tiếptheotrênvịtrícuốicùngđược2điểm,…Sauđó,cácđiểmđượcnhânvới ...

Tài liệu được xem nhiều: