Luận án Tiến sĩ Toán học: Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt
Số trang: 173
Loại file: pdf
Dung lượng: 2.26 MB
Lượt xem: 11
Lượt tải: 0
Xem trước 10 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Luận án Tiến sĩ Toán học "Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt" trình bày các nội dung chính sau: Tổng quan về bài toán phát hiện sao chép; Trích rút từ khóa dựa trên mô hình học sâu; Phát hiện đoạn sao chép giữa hai tài liệu dựa trên các mô hình học máy; Ứng dụng các kỹ thuật phát hiện sao chép cho văn bản tiếng Việt.
Nội dung trích xuất từ tài liệu:
Luận án Tiến sĩ Toán học: Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng ViệtBỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN SƠN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2022BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN SƠN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Lê Thanh Hương 2. TS. Nguyễn Chí Thành Hà Nội - 2022 i LỜI CAM ĐOAN Tôi xin cam đoan, đây là công trình nghiên cứu của riêng tôi. Những nộidung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa cótác giả nào công bố trong bất cứ một công trình nào khác. Các tài liệu tham khảođược trích dẫn đầy đủ. Hà Nội, ngày 12 tháng 01 năm 2022 Tác giả Nguyễn Văn Sơn ii LỜI CẢM ƠN Luận án này được thực hiện tại Viện Công nghệ thông tin, Viện Khoa họcvà Công nghệ quân sự-Bộ Quốc phòng. Lời đầu tiên, NCS xin bày tỏ lòng biết ơnsâu sắc tới PGS.TS Lê Thanh Hương, TS. Nguyễn Chí Thành đã tận tình giúp đỡ,trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học đểhoàn thành các nội dung luận án. NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Phòng Đàotạo, Viện Công nghệ thông tin là cơ sở đào tạo và đơn vị quản lý đã tạo mọi điềukiện, hỗ trợ, giúp đỡ NCS trong quá trình học tập, nghiên cứu. NCS xin bày tỏ lòng biết ơn chân thành tới các thầy cô của Viện KH-CNquân sự, các nhà khoa học trong và ngoài quân đội đã giảng dạy, truyền đạt kiếnthức và giúp đỡ về chuyên môn trong quá trình học tập, nghiên cứu của NCS. NCS luôn ghi nhớ công ơn của bố mẹ, gia đình và xin dành lời cảm ơn đặcbiệt tới vợ con, những người đã luôn ở bên cạnh, động viên và là chỗ dựa về mọimặt giúp NCS vượt qua khó khăn để hoàn thành công việc. NCS xin chân thành cảm ơn bạn bè, đồng nghiệp và rất nhiều người đã luônđộng viên, chia sẻ, giúp đỡ NCS trong suốt thời gian qua. Tác giả Nguyễn Văn Sơn iii MỤC LỤC TrangDANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................. vDANH MỤC CÁC BẢNG............................................................................... viDANH MỤC CÁC HÌNH VẼ ........................................................................ viiMỞ ĐẦU ........................................................................................................... 1CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP ........ 71.1 Tổng quan .................................................................................................... 71.1.1 Định nghĩa ................................................................................................ 71.1.2 Các hình thức sao chép ............................................................................ 81.2. Các kiến thức nền tảng ............................................................................... 91.2.1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt ................................ 101.2.2 Cơ sở lý thuyết về thuật toán LDA ........................................................ 131.2.3 Giới thiệu luật kết hợp và thuật toán Apriori ......................................... 141.2.4 Giới thiệu mạng nơ ron hồi quy RNN ................................................... 161.2.5 Giới thiệu mạng LSTM xếp chồng ........................................................ 181.3 Các nghiên cứu về phát hiện sao chép trên thế giới.................................. 221.3.1 Trích rút từ khóa ..................................................................................... 241.3.2 Phát hiện đoạn sao chép ......................................................................... 281.4 Các hướng tiếp cận phát hiện sao chép trong nước .................................. 351.5 Kho ngữ liệu và phương pháp đánh giá .................................................... 361.5.1 Kho ngữ liệu thử nghiệm ....................................................................... 361.5.2 Phương pháp đánh giá ............................................................................ 391.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết ...................... 411.7 Kết luận Chương 1 .................................................................................... 42CHƯƠNG 2 TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌCSÂU ................................................................................................................. 432.1 Đặt vấn đề.................................................................................................. 432.2 Phát biểu bài toán tìm tập tài liệu ứng cử và bài toán trích rút từ khóa .... 432.3 Đề xuất ý tưởng ................. ...
Nội dung trích xuất từ tài liệu:
Luận án Tiến sĩ Toán học: Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng ViệtBỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN SƠN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT LUẬN ÁN TIẾN SĨ TOÁN HỌC Hà Nội - 2022BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ NGUYỄN VĂN SƠN NGHIÊN CỨU PHÁT TRIỂN MỘT SỐ KỸ THUẬT HỖ TRỢ PHÁT HIỆN ĐẠO VĂN VÀ ỨNG DỤNG CHO VĂN BẢN TIẾNG VIỆT Chuyên ngành: Cơ sở toán học cho tin học Mã số: 9 46 01 10 LUẬN ÁN TIẾN SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS Lê Thanh Hương 2. TS. Nguyễn Chí Thành Hà Nội - 2022 i LỜI CAM ĐOAN Tôi xin cam đoan, đây là công trình nghiên cứu của riêng tôi. Những nộidung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa cótác giả nào công bố trong bất cứ một công trình nào khác. Các tài liệu tham khảođược trích dẫn đầy đủ. Hà Nội, ngày 12 tháng 01 năm 2022 Tác giả Nguyễn Văn Sơn ii LỜI CẢM ƠN Luận án này được thực hiện tại Viện Công nghệ thông tin, Viện Khoa họcvà Công nghệ quân sự-Bộ Quốc phòng. Lời đầu tiên, NCS xin bày tỏ lòng biết ơnsâu sắc tới PGS.TS Lê Thanh Hương, TS. Nguyễn Chí Thành đã tận tình giúp đỡ,trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học đểhoàn thành các nội dung luận án. NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Phòng Đàotạo, Viện Công nghệ thông tin là cơ sở đào tạo và đơn vị quản lý đã tạo mọi điềukiện, hỗ trợ, giúp đỡ NCS trong quá trình học tập, nghiên cứu. NCS xin bày tỏ lòng biết ơn chân thành tới các thầy cô của Viện KH-CNquân sự, các nhà khoa học trong và ngoài quân đội đã giảng dạy, truyền đạt kiếnthức và giúp đỡ về chuyên môn trong quá trình học tập, nghiên cứu của NCS. NCS luôn ghi nhớ công ơn của bố mẹ, gia đình và xin dành lời cảm ơn đặcbiệt tới vợ con, những người đã luôn ở bên cạnh, động viên và là chỗ dựa về mọimặt giúp NCS vượt qua khó khăn để hoàn thành công việc. NCS xin chân thành cảm ơn bạn bè, đồng nghiệp và rất nhiều người đã luônđộng viên, chia sẻ, giúp đỡ NCS trong suốt thời gian qua. Tác giả Nguyễn Văn Sơn iii MỤC LỤC TrangDANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................. vDANH MỤC CÁC BẢNG............................................................................... viDANH MỤC CÁC HÌNH VẼ ........................................................................ viiMỞ ĐẦU ........................................................................................................... 1CHƯƠNG 1 TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN SAO CHÉP ........ 71.1 Tổng quan .................................................................................................... 71.1.1 Định nghĩa ................................................................................................ 71.1.2 Các hình thức sao chép ............................................................................ 81.2. Các kiến thức nền tảng ............................................................................... 91.2.1 Một số kiến thức nền tảng về ngôn ngữ tiếng Việt ................................ 101.2.2 Cơ sở lý thuyết về thuật toán LDA ........................................................ 131.2.3 Giới thiệu luật kết hợp và thuật toán Apriori ......................................... 141.2.4 Giới thiệu mạng nơ ron hồi quy RNN ................................................... 161.2.5 Giới thiệu mạng LSTM xếp chồng ........................................................ 181.3 Các nghiên cứu về phát hiện sao chép trên thế giới.................................. 221.3.1 Trích rút từ khóa ..................................................................................... 241.3.2 Phát hiện đoạn sao chép ......................................................................... 281.4 Các hướng tiếp cận phát hiện sao chép trong nước .................................. 351.5 Kho ngữ liệu và phương pháp đánh giá .................................................... 361.5.1 Kho ngữ liệu thử nghiệm ....................................................................... 361.5.2 Phương pháp đánh giá ............................................................................ 391.6 Những vấn đề luận án cần tập trung nghiên cứu giải quyết ...................... 411.7 Kết luận Chương 1 .................................................................................... 42CHƯƠNG 2 TRÍCH RÚT TỪ KHÓA DỰA TRÊN MÔ HÌNH HỌCSÂU ................................................................................................................. 432.1 Đặt vấn đề.................................................................................................. 432.2 Phát biểu bài toán tìm tập tài liệu ứng cử và bài toán trích rút từ khóa .... 432.3 Đề xuất ý tưởng ................. ...
Tìm kiếm theo từ khóa liên quan:
Luận án Tiến sĩ Luận án Tiến sĩ Toán học Kỹ thuật hỗ trợ phát hiện đạo văn Bài toán phát hiện sao chép Mô hình học sâu Thuật toán LDATài liệu liên quan:
-
205 trang 433 0 0
-
Luận án Tiến sĩ Tài chính - Ngân hàng: Phát triển tín dụng xanh tại ngân hàng thương mại Việt Nam
267 trang 387 1 0 -
174 trang 343 0 0
-
206 trang 309 2 0
-
228 trang 273 0 0
-
32 trang 233 0 0
-
Luận án tiến sĩ Ngữ văn: Dấu ấn tư duy đồng dao trong thơ thiếu nhi Việt Nam từ 1945 đến nay
193 trang 231 0 0 -
208 trang 221 0 0
-
27 trang 201 0 0
-
27 trang 192 0 0