Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng
Số trang: 27
Loại file: docx
Dung lượng: 326.02 KB
Lượt xem: 21
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận án tập trung đề xuất một số giải pháp nhận dạng thực thể cho dữ liệu văn bản tiếng Việt và dữ liệu văn bản y sinh tiếng Anh. Các giải pháp tập trung vào vấn đề kết hợp các mô hình học máy cũng như các tri thức nguồn liên quan đến miền dữ liệu nhằm nâng cao hiệu quả đầu ra đối với các bài toán.
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng ĐẠIHỌCQUỐCGIAHÀNỘI TRƯỜNGĐẠIHỌCCÔNGNGHỆ TRẦNMAIVŨNGHIÊNCỨUNHẬNDẠNGTHỰCTHỂCÓTÊNVÀ THỰCTHỂBIỂUHIỆNTRONGVĂNBẢNVÀỨNG DỤNG Chuyênngành:Hệthốngthôngtin Mãsố:62.48.05.01 TÓMTẮTLUẬNÁNTIẾNSĨCÔNGNGHỆ THÔNGTIN HàNội–2018 Côngtrìnhđượchoànthànhtại:TrươngĐaihocCông ̀ ̣ ̣ ̣ ̣ ̣ ̀ ̣nghê,ĐaihocQuôcgiaHaNôi ́ Người hướng dẫn khoa học: PGS.TS. Hà QuangThụy PGS.TS.NguyễnLêMinh Phảnbiện:PGS.TSLươngChiMai Phảnbiện:PGS.TS.LêThanhHương Phảnbiện:PGS.TSNguyễnĐìnhHóa Luậnánsẽ đượcbảovệ trướcHội đồngcấpĐại họcQuốcgiachấmluậnántiếnsĩhọptại vàohồi9giờngày07tháng02năm2018 Cóthểtìmhiểuluậnántại: ThưviệnQuốcgiaViệtNam TrungtâmThôngtinThưviện,ĐạihọcQuốcgiaHàNội a. DANHMỤCCÔNGTRÌNHCỦATÁCGIẢ CÓLIÊNQUANĐẾNLUẬNÁN1. [CTLA1]NigelCollier,FerdinandPaster,MaiVuTran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL2014,Sweden,2014.2. [CTLA2] Nigel Collier, MaiVu Tran, HoangQuynh Le,QuangThuyHa,AnikaOellrich,DietrichRebholz Schuhmann(2013).LearningtoRecognizePhenotype CandidatesintheAutoImmuneLiteratureUsingSVM ReRanking.PLoSONE8(10):e72965,October2013.3. [CTLA3]MaiVuTran,DucTrongLe(2013).vTools: Chunker and PartofSpeech tools, RIVFVLSP 2013 Workshop.4. [CTLA4] Nigel Collier, MaiVu Tran, HoangQuynh Le, Anika Oellrich, Ai Kawazoe, Martin HallMay, Dietrich RebholzSchuhmann (2012). A Hybrid ApproachtoFindingPhenotypeCandidatesinGenetic Texts,COLING2012:647662.5. [CTLA5]MaiVuTran,DucTrongLe,XuanTuTran andTienTungNguyen(2012).AModelofVietnamese Person Named Entity Question Answering System, PACLIC2012,Bali,Indonesia,October2012.6. [CTLA6] HoangQuynh Le, MaiVuTran, NhatNam Bui,NguyenCuongPhan,QuangThuyHa(2011).An IntegratedApproachUsingConditionalRandomFields for Named Entity Recognition and Person Property ExtractioninVietnameseText.IALP2011:115118.7. [CTLA7]HoangQuynhLe,MaiVuTran,ThanhHai Dang,NigelCollier(2015).TheUETCAMSystemin theBioCreAtIvEVCDRTask.InProceedingsofthe fifth BioCreative challenge evaluation workshop, Sevilla,Spain,2015. 34 MỞĐẦU b. Lýdochọnđềtài Nhậndạngthựcthểcótên(Namedentityrecognition: NER;cònđượcgọilà“nhậndạngthựcthể địnhdanh”)làmộtbàitoánchínhthuộclĩnhvựcxử lýngônngữ tự nhiên(NLP).Đâylàmộtbàitoántiềnđềchocáchệthốngvềhiểu ngônngữ haykhaiphávănbảnnhư tríchxuấtsự kiện,hỏi đáptựđộnghaytìmkiếmngữnghĩa.Chínhvìvậy,cùngvớisự pháttriểncủadữ liệuvănbảntrênInternet,bàitoánnày cũngnhậnđượcsựquantâmcủacộngđồngnghiêncứutrongkhoảng20nămtrởlạiđây. c. Mặcdùđãcókhánhiềucôngtrìnhnghiêncứu chomộtsốloạithựcthểthôngthườngtrongvăn bản tiếng Anh chuẩn tuy nhiên những nghiên cứuliênquanđếncácthựcthể trongngônngữ khácnhư tiếngViệthaycácmiềndữ liệuđặc biệtnhư miềndữliệuysinhvẫncònrấtnhiều hạn chế và thách thức. Có thể kể đến là sự khuyếtthiếucáctậpdữliệugánnhãnchuẩn,tài nguyênngônngữ về trithứcmiềnhaycácđịnh nghĩa hình thức về kiểu thực thể cần nhận dạng…Luậnánnàysẽ tiếpnốinhữngnghiên cứutrướcđónhằmgiảiquyếtmộtphầnnhững hạnchếđượcnêura ởtrên.Mụctiêucụthể và phạmvinghiêncứucủaluậnánsẽđượcmôtả kỹhơnởphầntiếptheo. d. Mụctiêucụ thể vàphạmvinghiêncứucủa luậnán Luậnánsẽtậptrungvàobàitoánnhậndạngthựcthểvớihailoạidữliệuthuộchaingônngữkhácnhaulàcácthựcthể thuộcdữ liệuvănbảntiếngViệtvàcácthựcthể thuộcdữliệuvănbảnysinhhọc. 5 Mụctiêucụ thểcủaluậnán ...
Nội dung trích xuất từ tài liệu:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin: Nghiên cứu nhận dạng thực thể có tên và thực thể biểu hiện trong văn bản và ứng dụng ĐẠIHỌCQUỐCGIAHÀNỘI TRƯỜNGĐẠIHỌCCÔNGNGHỆ TRẦNMAIVŨNGHIÊNCỨUNHẬNDẠNGTHỰCTHỂCÓTÊNVÀ THỰCTHỂBIỂUHIỆNTRONGVĂNBẢNVÀỨNG DỤNG Chuyênngành:Hệthốngthôngtin Mãsố:62.48.05.01 TÓMTẮTLUẬNÁNTIẾNSĨCÔNGNGHỆ THÔNGTIN HàNội–2018 Côngtrìnhđượchoànthànhtại:TrươngĐaihocCông ̀ ̣ ̣ ̣ ̣ ̣ ̀ ̣nghê,ĐaihocQuôcgiaHaNôi ́ Người hướng dẫn khoa học: PGS.TS. Hà QuangThụy PGS.TS.NguyễnLêMinh Phảnbiện:PGS.TSLươngChiMai Phảnbiện:PGS.TS.LêThanhHương Phảnbiện:PGS.TSNguyễnĐìnhHóa Luậnánsẽ đượcbảovệ trướcHội đồngcấpĐại họcQuốcgiachấmluậnántiếnsĩhọptại vàohồi9giờngày07tháng02năm2018 Cóthểtìmhiểuluậnántại: ThưviệnQuốcgiaViệtNam TrungtâmThôngtinThưviện,ĐạihọcQuốcgiaHàNội a. DANHMỤCCÔNGTRÌNHCỦATÁCGIẢ CÓLIÊNQUANĐẾNLUẬNÁN1. [CTLA1]NigelCollier,FerdinandPaster,MaiVuTran (2014). The impact of near domain transfer on biomedical named entity recognitions LOUHI 2014, EACL2014,Sweden,2014.2. [CTLA2] Nigel Collier, MaiVu Tran, HoangQuynh Le,QuangThuyHa,AnikaOellrich,DietrichRebholz Schuhmann(2013).LearningtoRecognizePhenotype CandidatesintheAutoImmuneLiteratureUsingSVM ReRanking.PLoSONE8(10):e72965,October2013.3. [CTLA3]MaiVuTran,DucTrongLe(2013).vTools: Chunker and PartofSpeech tools, RIVFVLSP 2013 Workshop.4. [CTLA4] Nigel Collier, MaiVu Tran, HoangQuynh Le, Anika Oellrich, Ai Kawazoe, Martin HallMay, Dietrich RebholzSchuhmann (2012). A Hybrid ApproachtoFindingPhenotypeCandidatesinGenetic Texts,COLING2012:647662.5. [CTLA5]MaiVuTran,DucTrongLe,XuanTuTran andTienTungNguyen(2012).AModelofVietnamese Person Named Entity Question Answering System, PACLIC2012,Bali,Indonesia,October2012.6. [CTLA6] HoangQuynh Le, MaiVuTran, NhatNam Bui,NguyenCuongPhan,QuangThuyHa(2011).An IntegratedApproachUsingConditionalRandomFields for Named Entity Recognition and Person Property ExtractioninVietnameseText.IALP2011:115118.7. [CTLA7]HoangQuynhLe,MaiVuTran,ThanhHai Dang,NigelCollier(2015).TheUETCAMSystemin theBioCreAtIvEVCDRTask.InProceedingsofthe fifth BioCreative challenge evaluation workshop, Sevilla,Spain,2015. 34 MỞĐẦU b. Lýdochọnđềtài Nhậndạngthựcthểcótên(Namedentityrecognition: NER;cònđượcgọilà“nhậndạngthựcthể địnhdanh”)làmộtbàitoánchínhthuộclĩnhvựcxử lýngônngữ tự nhiên(NLP).Đâylàmộtbàitoántiềnđềchocáchệthốngvềhiểu ngônngữ haykhaiphávănbảnnhư tríchxuấtsự kiện,hỏi đáptựđộnghaytìmkiếmngữnghĩa.Chínhvìvậy,cùngvớisự pháttriểncủadữ liệuvănbảntrênInternet,bàitoánnày cũngnhậnđượcsựquantâmcủacộngđồngnghiêncứutrongkhoảng20nămtrởlạiđây. c. Mặcdùđãcókhánhiềucôngtrìnhnghiêncứu chomộtsốloạithựcthểthôngthườngtrongvăn bản tiếng Anh chuẩn tuy nhiên những nghiên cứuliênquanđếncácthựcthể trongngônngữ khácnhư tiếngViệthaycácmiềndữ liệuđặc biệtnhư miềndữliệuysinhvẫncònrấtnhiều hạn chế và thách thức. Có thể kể đến là sự khuyếtthiếucáctậpdữliệugánnhãnchuẩn,tài nguyênngônngữ về trithứcmiềnhaycácđịnh nghĩa hình thức về kiểu thực thể cần nhận dạng…Luậnánnàysẽ tiếpnốinhữngnghiên cứutrướcđónhằmgiảiquyếtmộtphầnnhững hạnchếđượcnêura ởtrên.Mụctiêucụthể và phạmvinghiêncứucủaluậnánsẽđượcmôtả kỹhơnởphầntiếptheo. d. Mụctiêucụ thể vàphạmvinghiêncứucủa luậnán Luậnánsẽtậptrungvàobàitoánnhậndạngthựcthểvớihailoạidữliệuthuộchaingônngữkhácnhaulàcácthựcthể thuộcdữ liệuvănbảntiếngViệtvàcácthựcthể thuộcdữliệuvănbảnysinhhọc. 5 Mụctiêucụ thểcủaluậnán ...
Tìm kiếm theo từ khóa liên quan:
Tóm tắt luận án Tiến sĩ Công nghệ thông tin Dữ liệu văn bản y sinh Dữ liệu văn bản tiếng Việt Miền dữ liệuGợi ý tài liệu liên quan:
-
52 trang 431 1 0
-
Top 10 mẹo 'đơn giản nhưng hữu ích' trong nhiếp ảnh
11 trang 317 0 0 -
74 trang 302 0 0
-
96 trang 294 0 0
-
Báo cáo thực tập thực tế: Nghiên cứu và xây dựng website bằng Wordpress
24 trang 289 0 0 -
Đồ án tốt nghiệp: Xây dựng ứng dụng di động android quản lý khách hàng cắt tóc
81 trang 282 0 0 -
EBay - Internet và câu chuyện thần kỳ: Phần 1
143 trang 276 0 0 -
Tài liệu dạy học môn Tin học trong chương trình đào tạo trình độ cao đẳng
348 trang 269 1 0 -
Tài liệu hướng dẫn sử dụng thư điện tử tài nguyên và môi trường
72 trang 267 0 0 -
64 trang 263 0 0