![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng Việt
Số trang: 11
Loại file: pdf
Dung lượng: 274.43 KB
Lượt xem: 13
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm...
Nội dung trích xuất từ tài liệu:
Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng ViệtKỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ®Æc trng b»ng gi¶I thuËt di truyÒn cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt NGUYỄNNHẬTAN*,NGUYỄNQUANGBẮC*, NGUYỄNĐỨCHIẾU**,TRẦNNGỌCANH** Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm... Đầu tiên, chúng tôi xác định tập đặc trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di truyền để xác định hệ số các đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản với các hệ số thu được từ giải thuật di truyền cho thấy, văn bản tóm tắt có độ chính xác cao, có thể áp dụng tốt trong thực tế.Từ khóa:TómtắtvănbảntiếngViệt,Đặctrưngvănbản,Hệsốđặctrưngvănbản,Giảithuậtditruyền. 1. ĐẶT VẤN ĐỀ Trongthờiđạibùngnổthôngtinđiệntử,nhucầutựđộngtổnghợpthôngtinnổibậttừkhovănbảnđiệntửkhổnglồđótrởnênđặcbiệtquantrọngvàđượcsựquantâmrộngrãi.Tómtắtvănbảnlàquátrìnhrútgọnvănbảnmàvẫngiữđượcnhữngthôngtinquantrọngcủavănbản.Kỹthuậttómtắtvănbảnđượccácnhànghiêncứuphânrathànhhailoạilà:tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lượcAS(AbstractionSummarization)[17].ĐốivớitómtắtvănbảntiếngViệt,cácnghiêncứuchủyếudựatheohướngtiếpcậnESlàthôngquatínhtoáncácđặctrưngtầnsuấttừ,vịtrícâu, từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút[3,4,5,6,7,8].Tuynhiên,cácnghiêncứuđềuchưachỉrađượcviệcsửdụnghệsốcácđặctrưngnhưthếnàolà hợp lýđểchobảntómtắt tốtvàchưaxâydựngđược một phươngpháptínhtoáncáchệsốthôngquaquátrìnhhọc. ĐốivớingônngữtiếngAnh,vấnđềnêutrênđãđượcmộtsốnhànghiêncứugiảiquyếttheohướnghọcmáybằnggiảithuậtditruyền[12,13]vàchokếtquảkhảquan.Tuynhiên,khócóthểápdụngtrựctiếpchotiếngViệtvìcácđặctrưngngônngữtiếngViệtvàtiếngAnhkhácnhau(doloạihìnhngônngữ,donềnvănhóa)chẳnghạn:khácbiệtvềngữâmhọc,hìnhvị,ranhgiớitừ,từloại;trậttựtừ(tínhtừvàdanhtừ),kếtcấucâu(chủđềvàcụmchủvị),…Dovậy,cácđặctrưngvănbảntiếngAnhvàtiếngViệtlàkhácnhau.Mặtkhác,dotiếngViệtchưaxâydựngđượctừđiển,khongữliệuđầyđủvàchưacóVietworknetnênsửdụngcácphươngpháptiếngAnhápdụngchotiếngViệtkhôngmấyhiệuquả. NhậnthấyđâylàmộthướngnghiêncứumớitrongtiếngViệt,dođótrongbàibáonàychúngtôisẽnghiêncứu,đềxuấthướngtiếpcậnmớitrongtómtắtvănbảntiếngViệtbằnggiảithuậtditruyềndựatrêncácđặctrưngvănbảnquantrọng. Nghiêncứugiảiquyếthaivấnđềchính:Mộtlà,xácđịnhtậpđặctrưngquantrọngcủavănbảntiếngViệt;hailà,xácđịnhbộhệsốđặctrưngbằnggiảithuậtditruyềnthôngquaquátrìnhhọctậpvănbảntómtắtmẫu.Từbộhệsốđặctrưngđó,chúngtôitiếnhànhthửnghiệmtómtắtvănbảnvàđánhgiáchúng.36 N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số …văn bản tiếng Việt.” Nghiên cứu khoa học công nghệ Nghiêncứuđượctrìnhbàytheothứtựsau:Phần2trìnhbàynộidungnghiêncứu;Phần3trìnhbàycáckếtquảthửnghiệm,vàsosánhđánhgiá;cuốicùngkếtluậnđượctrìnhbàytrongPhần4. 2. NỘI DUNG CẦN GIẢI QUYẾT2.1. Bài toán tóm tắt đơn văn bản tiếng Việt theo hướng trích rút Quytrìnhthựchiệntómtắtđơnvănbảntổngquáttheohướngtríchrút: Bước 1.Tiềnxửlývănbảnđầuvào:táchcâu,táchtừ,gánnhãn,lọcbỏcáchưtừ. Bước 2.Tínhtrọngsốcáccâutheocácđặctrưngvănbảnnhư. Bước 3.Sắpxếpcáccâutheotrọngsố,rúttríchcáccâucótrọngsốcaotheotỉlệ. Bước 4.Xuấtcáccâuđãrúttríchtheothứtựxuấthiệntrongvănbảngốc. TIỀN TÍNH SẮP XUẤT Văn XỬ LÝ: TRỌNG XẾP CÂU Văn bản Táchcâu, SỐ CÂU theo Theotứ Tóm bản táchtừ, theo trọngsố, tựxuất tắt gánnhãn, ...
Nội dung trích xuất từ tài liệu:
Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng ViệtKỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ®Æc trng b»ng gi¶I thuËt di truyÒn cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt NGUYỄNNHẬTAN*,NGUYỄNQUANGBẮC*, NGUYỄNĐỨCHIẾU**,TRẦNNGỌCANH** Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm... Đầu tiên, chúng tôi xác định tập đặc trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di truyền để xác định hệ số các đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản với các hệ số thu được từ giải thuật di truyền cho thấy, văn bản tóm tắt có độ chính xác cao, có thể áp dụng tốt trong thực tế.Từ khóa:TómtắtvănbảntiếngViệt,Đặctrưngvănbản,Hệsốđặctrưngvănbản,Giảithuậtditruyền. 1. ĐẶT VẤN ĐỀ Trongthờiđạibùngnổthôngtinđiệntử,nhucầutựđộngtổnghợpthôngtinnổibậttừkhovănbảnđiệntửkhổnglồđótrởnênđặcbiệtquantrọngvàđượcsựquantâmrộngrãi.Tómtắtvănbảnlàquátrìnhrútgọnvănbảnmàvẫngiữđượcnhữngthôngtinquantrọngcủavănbản.Kỹthuậttómtắtvănbảnđượccácnhànghiêncứuphânrathànhhailoạilà:tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lượcAS(AbstractionSummarization)[17].ĐốivớitómtắtvănbảntiếngViệt,cácnghiêncứuchủyếudựatheohướngtiếpcậnESlàthôngquatínhtoáncácđặctrưngtầnsuấttừ,vịtrícâu, từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút[3,4,5,6,7,8].Tuynhiên,cácnghiêncứuđềuchưachỉrađượcviệcsửdụnghệsốcácđặctrưngnhưthếnàolà hợp lýđểchobảntómtắt tốtvàchưaxâydựngđược một phươngpháptínhtoáncáchệsốthôngquaquátrìnhhọc. ĐốivớingônngữtiếngAnh,vấnđềnêutrênđãđượcmộtsốnhànghiêncứugiảiquyếttheohướnghọcmáybằnggiảithuậtditruyền[12,13]vàchokếtquảkhảquan.Tuynhiên,khócóthểápdụngtrựctiếpchotiếngViệtvìcácđặctrưngngônngữtiếngViệtvàtiếngAnhkhácnhau(doloạihìnhngônngữ,donềnvănhóa)chẳnghạn:khácbiệtvềngữâmhọc,hìnhvị,ranhgiớitừ,từloại;trậttựtừ(tínhtừvàdanhtừ),kếtcấucâu(chủđềvàcụmchủvị),…Dovậy,cácđặctrưngvănbảntiếngAnhvàtiếngViệtlàkhácnhau.Mặtkhác,dotiếngViệtchưaxâydựngđượctừđiển,khongữliệuđầyđủvàchưacóVietworknetnênsửdụngcácphươngpháptiếngAnhápdụngchotiếngViệtkhôngmấyhiệuquả. NhậnthấyđâylàmộthướngnghiêncứumớitrongtiếngViệt,dođótrongbàibáonàychúngtôisẽnghiêncứu,đềxuấthướngtiếpcậnmớitrongtómtắtvănbảntiếngViệtbằnggiảithuậtditruyềndựatrêncácđặctrưngvănbảnquantrọng. Nghiêncứugiảiquyếthaivấnđềchính:Mộtlà,xácđịnhtậpđặctrưngquantrọngcủavănbảntiếngViệt;hailà,xácđịnhbộhệsốđặctrưngbằnggiảithuậtditruyềnthôngquaquátrìnhhọctậpvănbảntómtắtmẫu.Từbộhệsốđặctrưngđó,chúngtôitiếnhànhthửnghiệmtómtắtvănbảnvàđánhgiáchúng.36 N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số …văn bản tiếng Việt.” Nghiên cứu khoa học công nghệ Nghiêncứuđượctrìnhbàytheothứtựsau:Phần2trìnhbàynộidungnghiêncứu;Phần3trìnhbàycáckếtquảthửnghiệm,vàsosánhđánhgiá;cuốicùngkếtluậnđượctrìnhbàytrongPhần4. 2. NỘI DUNG CẦN GIẢI QUYẾT2.1. Bài toán tóm tắt đơn văn bản tiếng Việt theo hướng trích rút Quytrìnhthựchiệntómtắtđơnvănbảntổngquáttheohướngtríchrút: Bước 1.Tiềnxửlývănbảnđầuvào:táchcâu,táchtừ,gánnhãn,lọcbỏcáchưtừ. Bước 2.Tínhtrọngsốcáccâutheocácđặctrưngvănbảnnhư. Bước 3.Sắpxếpcáccâutheotrọngsố,rúttríchcáccâucótrọngsốcaotheotỉlệ. Bước 4.Xuấtcáccâuđãrúttríchtheothứtựxuấthiệntrongvănbảngốc. TIỀN TÍNH SẮP XUẤT Văn XỬ LÝ: TRỌNG XẾP CÂU Văn bản Táchcâu, SỐ CÂU theo Theotứ Tóm bản táchtừ, theo trọngsố, tựxuất tắt gánnhãn, ...
Tìm kiếm theo từ khóa liên quan:
Xác định các hệ số đặc trưng Giải thuật di truyền Bài toán tóm tắt văn bản tiếng Việt Hướng trích rút Vị trí câu Độ dài câu Trọng số TFxISFTài liệu liên quan:
-
7 trang 200 0 0
-
12 trang 199 0 0
-
Hệ phương trình phi tuyến và giải thuật di truyền - Phương pháp nghiên cứu khoa học
16 trang 90 0 0 -
Bài giảng Lý thuyết điều khiển tự động: Chương 2.7 - TS. Nguyễn Thu Hà
10 trang 56 0 0 -
9 trang 47 0 0
-
Nghiên cứu hệ thống điều khiển thông minh: Phần 1
232 trang 41 0 0 -
Tối ưu đa mục tiêu và ứng dụng trong kỹ thuật
3 trang 35 0 0 -
Cực tiểu hóa thời gian trễ trung bình trong một mạng hàng đợi bằng giải thuật di truyền.
6 trang 32 0 0 -
Điều khiển ổn định hệ Acrobot sử dụng giải thuật LQR-GA
8 trang 32 0 0 -
Phân tích tính hội tụ của thuật toán di truyền lai mới
8 trang 31 0 0