Danh mục

Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng Việt

Số trang: 11      Loại file: pdf      Dung lượng: 274.43 KB      Lượt xem: 13      Lượt tải: 0    
Jamona

Hỗ trợ phí lưu trữ khi tải xuống: 2,000 VND Tải xuống file đầy đủ (11 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm...
Nội dung trích xuất từ tài liệu:
Xác định các hệ số đặc trưng bằng giải thuật di truyền cho bài toán tóm tắt văn bản tiếng ViệtKỹ thuật điện tử & Khoa học máy tính X¸c ®Þnh c¸c hÖ sè ®Æc trng b»ng gi¶I thuËt di truyÒn cho bµi to¸n tãm t¾t v¨n b¶n tiÕng viÖt NGUYỄNNHẬTAN*,NGUYỄNQUANGBẮC*, NGUYỄNĐỨCHIẾU**,TRẦNNGỌCANH** Tóm tắt: Tóm tắt văn bản là quá trình rút gọn văn bản mà vẫn giữ được những thông tin quan trọng. Bài báo này đề xuất một tiếp cận mới trong tóm tắt văn bản tiếng Việt theo hướng trích rút (Extraction Summarization) dựa trên các đặc trưng quan trọng như vị trí câu, độ dài câu, trọng số TFxISF, xác suất thực từ, độ tương tự với chủ đề, câu trung tâm... Đầu tiên, chúng tôi xác định tập đặc trưng quan trọng trong văn bản tiếng Việt. Bước tiếp theo sử dụng giải thuật di truyền để xác định hệ số các đặc trưng từ kho ngữ liệu huấn luyện. Thử nghiệm tóm tắt văn bản với các hệ số thu được từ giải thuật di truyền cho thấy, văn bản tóm tắt có độ chính xác cao, có thể áp dụng tốt trong thực tế.Từ khóa:TómtắtvănbảntiếngViệt,Đặctrưngvănbản,Hệsốđặctrưngvănbản,Giảithuậtditruyền. 1. ĐẶT VẤN ĐỀ Trongthờiđạibùngnổthôngtinđiệntử,nhucầutựđộngtổnghợpthôngtinnổibậttừkhovănbảnđiệntửkhổnglồđótrởnênđặcbiệtquantrọngvàđượcsựquantâmrộngrãi.Tómtắtvănbảnlàquátrìnhrútgọnvănbảnmàvẫngiữđượcnhữngthôngtinquantrọngcủavănbản.Kỹthuậttómtắtvănbảnđượccácnhànghiêncứuphânrathànhhailoạilà:tóm tắt văn bản là tóm tắt rút trích ES(Extraction Summarization) và tóm tắt tóm lượcAS(AbstractionSummarization)[17].ĐốivớitómtắtvănbảntiếngViệt,cácnghiêncứuchủyếudựatheohướngtiếpcậnESlàthôngquatínhtoáncácđặctrưngtầnsuấttừ,vịtrícâu, từ tiêu đề, độ tương tự... để chọn ra các câu quan trọng nhất theo tỉ lệ trích rút[3,4,5,6,7,8].Tuynhiên,cácnghiêncứuđềuchưachỉrađượcviệcsửdụnghệsốcácđặctrưngnhưthếnàolà hợp lýđểchobảntómtắt tốtvàchưaxâydựngđược một phươngpháptínhtoáncáchệsốthôngquaquátrìnhhọc. ĐốivớingônngữtiếngAnh,vấnđềnêutrênđãđượcmộtsốnhànghiêncứugiảiquyếttheohướnghọcmáybằnggiảithuậtditruyền[12,13]vàchokếtquảkhảquan.Tuynhiên,khócóthểápdụngtrựctiếpchotiếngViệtvìcácđặctrưngngônngữtiếngViệtvàtiếngAnhkhácnhau(doloạihìnhngônngữ,donềnvănhóa)chẳnghạn:khácbiệtvềngữâmhọc,hìnhvị,ranhgiớitừ,từloại;trậttựtừ(tínhtừvàdanhtừ),kếtcấucâu(chủđềvàcụmchủvị),…Dovậy,cácđặctrưngvănbảntiếngAnhvàtiếngViệtlàkhácnhau.Mặtkhác,dotiếngViệtchưaxâydựngđượctừđiển,khongữliệuđầyđủvàchưacóVietworknetnênsửdụngcácphươngpháptiếngAnhápdụngchotiếngViệtkhôngmấyhiệuquả. NhậnthấyđâylàmộthướngnghiêncứumớitrongtiếngViệt,dođótrongbàibáonàychúngtôisẽnghiêncứu,đềxuấthướngtiếpcậnmớitrongtómtắtvănbảntiếngViệtbằnggiảithuậtditruyềndựatrêncácđặctrưngvănbảnquantrọng. Nghiêncứugiảiquyếthaivấnđềchính:Mộtlà,xácđịnhtậpđặctrưngquantrọngcủavănbảntiếngViệt;hailà,xácđịnhbộhệsốđặctrưngbằnggiảithuậtditruyềnthôngquaquátrìnhhọctậpvănbảntómtắtmẫu.Từbộhệsốđặctrưngđó,chúngtôitiếnhànhthửnghiệmtómtắtvănbảnvàđánhgiáchúng.36 N. N. An, N. Q. Bắc, N. Đ. Hiếu, T. N. Anh,“Xác định các hệ số …văn bản tiếng Việt.” Nghiên cứu khoa học công nghệ Nghiêncứuđượctrìnhbàytheothứtựsau:Phần2trìnhbàynộidungnghiêncứu;Phần3trìnhbàycáckếtquảthửnghiệm,vàsosánhđánhgiá;cuốicùngkếtluậnđượctrìnhbàytrongPhần4. 2. NỘI DUNG CẦN GIẢI QUYẾT2.1. Bài toán tóm tắt đơn văn bản tiếng Việt theo hướng trích rút Quytrìnhthựchiệntómtắtđơnvănbảntổngquáttheohướngtríchrút: Bước 1.Tiềnxửlývănbảnđầuvào:táchcâu,táchtừ,gánnhãn,lọcbỏcáchưtừ. Bước 2.Tínhtrọngsốcáccâutheocácđặctrưngvănbảnnhư. Bước 3.Sắpxếpcáccâutheotrọngsố,rúttríchcáccâucótrọngsốcaotheotỉlệ. Bước 4.Xuấtcáccâuđãrúttríchtheothứtựxuấthiệntrongvănbảngốc. TIỀN TÍNH SẮP XUẤT Văn XỬ LÝ: TRỌNG XẾP CÂU Văn bản Táchcâu, SỐ CÂU theo Theotứ Tóm bản táchtừ, theo trọngsố, tựxuất tắt gánnhãn, ...

Tài liệu được xem nhiều: