Xác định các hệ số phương pháp cho bài toán tóm tắt văn bản tiếng Việt dựa vào kỹ thuật voting
Số trang: 9
Loại file: pdf
Dung lượng: 311.19 KB
Lượt xem: 10
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo này phân tích hạn chế của phương pháp trên và đề xuất hướng cải tiến bằng cách đưa vào các hệ số phương pháp. Đề xuất cách xác định các hệ số phương pháp bằng giải thuật di truyền thông qua quá trình học kho ngữ liệu tóm tắt mẫu. Thử nghiệm tóm tắt văn bản dựa theo kỹ thuật Voting với các hệ số phương pháp cho thấy, văn bản tóm tắt có độ chính xác cao hơn phương pháp tóm tắt dựa theo kỹ thuật Voting truyền thống đã được đề xuất.
Nội dung trích xuất từ tài liệu:
Xác định các hệ số phương pháp cho bài toán tóm tắt văn bản tiếng Việt dựa vào kỹ thuật votingKỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ph¬ng ph¸p cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt dùa vµo kü thuËt voting NGUYỄNNHẬTAN*,NGUYỄNQUANGBẮC*, NGUYỄNĐỨCHIẾU**,TRẦNNGỌCANH** Tóm tắt: Phương pháp tóm tắt văn bản tiếng Việt dựa vào kỹ thuật Voting là một phương pháp mới được đề xuất với ý tưởng xem kết quả của mỗi phương pháp tóm tắt văn bản khác nhau là một lá phiếu đã được sắp xếp thứ tự ưu tiên các câu trích rút, sử dụng kỹ thuật Voting để lựa chọn các câu ưu tú dựa trên các lá phiếu đã nêu. Bài báo này phân tích hạn chế của phương pháp trên và đề xuất hướng cải tiến bằng cách đưa vào các hệ số phương pháp. Đề xuất cách xác định các hệ số phương pháp bằng giải thuật di truyền thông qua quá trình học kho ngữ liệu tóm tắt mẫu. Thử nghiệm tóm tắt văn bản dựa theo kỹ thuật Voting với các hệ số phương pháp cho thấy, văn bản tóm tắt có độ chính xác cao hơn phương pháp tóm tắt dựa theo kỹ thuật Voting truyền thống đã được đề xuất.Từ khóa:TómtắtvănbảntiếngViệt,KỹthuậtVoting,Hệsốphươngpháp,Giảithuậtditruyền. 1. ĐẶT VẤN ĐỀ Trongthờiđạibùngnổthôngtinđiệntử,nhucầutựđộngtổnghợpthôngtinnổibậttừkhovănbảnđiệntửkhổnglồđótrởnênđặcbiệtquantrọngvàđượcsựquantâmrộngrãi.Tómtắtvănbảnlàquátrìnhrútgọnvănbảnmàvẫngiữđượcnhữngthôngtinquantrọngcủavănbản.Kỹthuậttómtắtvănbảnđượccácnhànghiêncứuphânrathànhhailoạilà:tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lượcAS(AbstractionSummarization).ĐốivớitómtắtvănbảntiếngViệt,cácnghiêncứuchủyếudựatheohướngtiếpcậnESlàthôngquatínhtoáncácđặctrưngtầnsuấttừ,vịtrícâu,từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút[1][2][3][4][5][6][7]. Trongcácnghiêncứuđó,chúngtôiquantâmđếnhướngtiếpcậnmớiđượcđưaralàtómtắtđơnvănbảntiếngViệtdựavàokỹthuậtVoting[1].Ýtưởngcủaphươngphápnàylàxemkếtquảcủamỗiphươngpháptómtắtvănbảnkhácnhaulàmộtláphiếuđãđượcsắpxếpthứtựưutiêncáccâutríchrút,sửdụngkỹthuậtVotingđểlựachọncáccâuưutúdựa trên các lá phiếu đã nêu. Nhận thấy đây là một hướng nghiên cứu mới trong tiếngViệt,dođótrongbàibáonàychúngtôisẽphântíchhạnchế,sauđónghiêncứu,đềxuấtcảitiếnbằngcáchđưahệsốphươngphápvàođểnângcaođộchínhxác. Nghiêncứugiảiquyếthaivấnđềchính:Mộtlà,trìnhbàyphươngpháptómtắtđơnvăn bản tiếng Việt dựa vào kỹ thuật Voting và hạn chế của nó; hai là, cách đưa hệ sốphươngphápvàovàxácđịnhbộhệsốphươngphápbằnggiảithuậtditruyềnthôngquaquátrìnhhọctậpvănbảntómtắtmẫu.Sauđó,chúngtôitiếnhànhthửnghiệmtómtắtvănbảnvàđánhgiáchúng. Nghiên cứu được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu;Phần3trình bàycác kết quảthử nghiệm,vàso sánh đánhgiá;cuốicùngkết luận đượctrìnhbàytrongPhần4. 2. NỘI DUNG CẦN GIẢI QUYẾT2.1. Bài toán tóm tắt đơn văn bản tiếng Việt dựa vào kỹ thuật Voting Trongphầnnày,chúngtôitrình bàytómtắtlạihướngtiếp cậntómtắtđơn vănbảntiếngViệtdựavàokỹthuậtVotingcủanhómtácgiảđãnêutrongbàibáo[1]82 N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh, “Xác định các hệ số … kỹ thuật Voting” Nghiên cứu khoa học công nghệ2.1.1. Phương pháp Voting Votinglàmộtquátrìnhđưaraquyếtđịnhcủacửtriđểchọnramộtdanhsáchứngcửviêntốtnhấtthoảmãncáctiêuchíbầuchọnchomộtmụcđíchcụthểnàođó[12].Trongnghiêncứu,nhómtácgiảchỉtrìnhbàykỹthuậtvotingdựatrêncácláphiếucósựưutiên(sắpxếp).Chúngtaxemvídụtrongbảng1: Bảng 1. Minh hoạ phương pháp Voting. Sốphiếubầuchọn 2 3 1 Ưutiên1 A B C Ưutiên2 B C B Ưutiên3 C A A Ưutiên4 D D D Phương pháp tính điểm Borda[12] Trongphương phápnày,các vị trí được tính điểm như sau: vị trí cuối cùngđược 1điểm,tiếptheotrênvịtrícuốicùngđược2điểm,…Sauđó,cácđiểmđượcnhânvới ...
Nội dung trích xuất từ tài liệu:
Xác định các hệ số phương pháp cho bài toán tóm tắt văn bản tiếng Việt dựa vào kỹ thuật votingKỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ph¬ng ph¸p cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt dùa vµo kü thuËt voting NGUYỄNNHẬTAN*,NGUYỄNQUANGBẮC*, NGUYỄNĐỨCHIẾU**,TRẦNNGỌCANH** Tóm tắt: Phương pháp tóm tắt văn bản tiếng Việt dựa vào kỹ thuật Voting là một phương pháp mới được đề xuất với ý tưởng xem kết quả của mỗi phương pháp tóm tắt văn bản khác nhau là một lá phiếu đã được sắp xếp thứ tự ưu tiên các câu trích rút, sử dụng kỹ thuật Voting để lựa chọn các câu ưu tú dựa trên các lá phiếu đã nêu. Bài báo này phân tích hạn chế của phương pháp trên và đề xuất hướng cải tiến bằng cách đưa vào các hệ số phương pháp. Đề xuất cách xác định các hệ số phương pháp bằng giải thuật di truyền thông qua quá trình học kho ngữ liệu tóm tắt mẫu. Thử nghiệm tóm tắt văn bản dựa theo kỹ thuật Voting với các hệ số phương pháp cho thấy, văn bản tóm tắt có độ chính xác cao hơn phương pháp tóm tắt dựa theo kỹ thuật Voting truyền thống đã được đề xuất.Từ khóa:TómtắtvănbảntiếngViệt,KỹthuậtVoting,Hệsốphươngpháp,Giảithuậtditruyền. 1. ĐẶT VẤN ĐỀ Trongthờiđạibùngnổthôngtinđiệntử,nhucầutựđộngtổnghợpthôngtinnổibậttừkhovănbảnđiệntửkhổnglồđótrởnênđặcbiệtquantrọngvàđượcsựquantâmrộngrãi.Tómtắtvănbảnlàquátrìnhrútgọnvănbảnmàvẫngiữđượcnhữngthôngtinquantrọngcủavănbản.Kỹthuậttómtắtvănbảnđượccácnhànghiêncứuphânrathànhhailoạilà:tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lượcAS(AbstractionSummarization).ĐốivớitómtắtvănbảntiếngViệt,cácnghiêncứuchủyếudựatheohướngtiếpcậnESlàthôngquatínhtoáncácđặctrưngtầnsuấttừ,vịtrícâu,từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút[1][2][3][4][5][6][7]. Trongcácnghiêncứuđó,chúngtôiquantâmđếnhướngtiếpcậnmớiđượcđưaralàtómtắtđơnvănbảntiếngViệtdựavàokỹthuậtVoting[1].Ýtưởngcủaphươngphápnàylàxemkếtquảcủamỗiphươngpháptómtắtvănbảnkhácnhaulàmộtláphiếuđãđượcsắpxếpthứtựưutiêncáccâutríchrút,sửdụngkỹthuậtVotingđểlựachọncáccâuưutúdựa trên các lá phiếu đã nêu. Nhận thấy đây là một hướng nghiên cứu mới trong tiếngViệt,dođótrongbàibáonàychúngtôisẽphântíchhạnchế,sauđónghiêncứu,đềxuấtcảitiếnbằngcáchđưahệsốphươngphápvàođểnângcaođộchínhxác. Nghiêncứugiảiquyếthaivấnđềchính:Mộtlà,trìnhbàyphươngpháptómtắtđơnvăn bản tiếng Việt dựa vào kỹ thuật Voting và hạn chế của nó; hai là, cách đưa hệ sốphươngphápvàovàxácđịnhbộhệsốphươngphápbằnggiảithuậtditruyềnthôngquaquátrìnhhọctậpvănbảntómtắtmẫu.Sauđó,chúngtôitiếnhànhthửnghiệmtómtắtvănbảnvàđánhgiáchúng. Nghiên cứu được trình bày theo thứ tự sau: Phần 2 trình bày nội dung nghiên cứu;Phần3trình bàycác kết quảthử nghiệm,vàso sánh đánhgiá;cuốicùngkết luận đượctrìnhbàytrongPhần4. 2. NỘI DUNG CẦN GIẢI QUYẾT2.1. Bài toán tóm tắt đơn văn bản tiếng Việt dựa vào kỹ thuật Voting Trongphầnnày,chúngtôitrình bàytómtắtlạihướngtiếp cậntómtắtđơn vănbảntiếngViệtdựavàokỹthuậtVotingcủanhómtácgiảđãnêutrongbàibáo[1]82 N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh, “Xác định các hệ số … kỹ thuật Voting” Nghiên cứu khoa học công nghệ2.1.1. Phương pháp Voting Votinglàmộtquátrìnhđưaraquyếtđịnhcủacửtriđểchọnramộtdanhsáchứngcửviêntốtnhấtthoảmãncáctiêuchíbầuchọnchomộtmụcđíchcụthểnàođó[12].Trongnghiêncứu,nhómtácgiảchỉtrìnhbàykỹthuậtvotingdựatrêncácláphiếucósựưutiên(sắpxếp).Chúngtaxemvídụtrongbảng1: Bảng 1. Minh hoạ phương pháp Voting. Sốphiếubầuchọn 2 3 1 Ưutiên1 A B C Ưutiên2 B C B Ưutiên3 C A A Ưutiên4 D D D Phương pháp tính điểm Borda[12] Trongphương phápnày,các vị trí được tính điểm như sau: vị trí cuối cùngđược 1điểm,tiếptheotrênvịtrícuốicùngđược2điểm,…Sauđó,cácđiểmđượcnhânvới ...
Tìm kiếm theo từ khóa liên quan:
Hệ số phương pháp Bài toán tóm tắt văn bản tiếng Việt Kỹ thuật voting Giải thuật di truyền Tóm tắt văn bản tiếng ViệtGợi ý tài liệu liên quan:
-
7 trang 198 0 0
-
12 trang 195 0 0
-
Hệ phương trình phi tuyến và giải thuật di truyền - Phương pháp nghiên cứu khoa học
16 trang 86 0 0 -
Bài giảng Lý thuyết điều khiển tự động: Chương 2.7 - TS. Nguyễn Thu Hà
10 trang 52 0 0 -
Một số đặc trưng trong tóm tắt văn bản báo mạng điện tử tiếng Việt
6 trang 47 0 0 -
9 trang 45 0 0
-
Nghiên cứu hệ thống điều khiển thông minh: Phần 1
232 trang 40 0 0 -
Điều khiển ổn định hệ Acrobot sử dụng giải thuật LQR-GA
8 trang 30 0 0 -
Tối ưu đa mục tiêu và ứng dụng trong kỹ thuật
3 trang 29 0 0 -
Cực tiểu hóa thời gian trễ trung bình trong một mạng hàng đợi bằng giải thuật di truyền.
6 trang 28 0 0