Xây dựng ứng dụng phát hiện đạo văn trong nghiên cứu khoa học
Số trang: 7
Loại file: pdf
Dung lượng: 326.16 KB
Lượt xem: 5
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết trình bày một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn (SVD [7]) theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép.
Nội dung trích xuất từ tài liệu:
Xây dựng ứng dụng phát hiện đạo văn trong nghiên cứu khoa họcTRAO ĐỔI THÔNG TIN KHOA HỌCXây dựng ứng dụng phát hiện đạo vănTRONG NGHIÊN CỨU KHOA HỌC Đinh Thái Sơn, Nguyễn Thị Hảo Bộ môn CNPM, Khoa Kỹ thuật–Công nghệ, Trường Đại học Hùng Vương TÓM TẮT N gày nay, có rất nhiều tài liệu văn bản có thể truy xuất được dễ dàng dưới dạng tài liệu kỹ thuật số và vì vậy người ta có thể truy cập và sao chép dễ dàng. Vấn đề đạo văn nói chung và sao chép luận văn, đồ án nói riêng có thể nói là những mặt tiêu cực phổ biến hiện nay cần được phát hiện và ngăn chặn. Trong bài báo này, chúng tôi trình bày một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn (SVD [7]) theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép. Từ khóa: Đạo văn, hội thảo khám phá đạo văn, tác quyền và lạm dụng phần mềm xã hội, tính toán song song, … 1.Đặt vấn đề Ngày nay, đã có nhiều phần mềm hỗ trợ 1.1.Vấn nạn đạo văn cho việc phát hiện đạo văn. Đa phần là các Vấn đề (hay vấn nạn) sao chép tài liệu phần mềm thực hiện kiểm tra sao chép một(đạo văn) ngày nay đang là một vấn đề tài liệu từ “kho tài liệu” trên internet, tứcnghiêm trọng trong môi trường giáo dục. là kiểm tra với tài liệu nguồn từ internet.Với sự phát triển mạnh mẽ của công nghệ Các phần mềm này có ưu điểm là kiểmthông tin và các kỹ thuật lưu trữ của các tra với một nguồn hết sức phong phú. Tuycông cụ tìm kiếm như Google, Bing,… thì vậy, ở nước ta không có nhiều phần mềmviệc sao chép sẽ được thực hiện một cách dễ được biết rõ hỗ trợ kiểm tra trên một cơdàng hơn. Sự sao chép ngày càng phổ biến sở dữ liệu đóng của một tổ chức, ví dụ thưở mọi cấp độ: từ đồ án, tiểu luận, luận văn viện của một trường hay kho luận văn củatốt nghiệp đại học cho đến luận văn tiến một trường.sĩ. Nhiều sao chép khác như giáo trình, bài 1.2.Các hình thức đạo văngiảng cũng còn khá phổ biến. Có rất nhiều Meuschke và Gipp (Meuschke and Gipp,bài viết trên các báo có uy tín công khai tình 2013) [3] phân loại các hình thức đạo văntrạng sao chép bừa bãi luận văn. học như sau: Tạp chí Khoa học & Công nghệ số 3 (8) – 2017 87TRAO ĐỔI THÔNG TIN KHOA HỌC •Đạo văn hoàn toàn: được mô tả như Workshop) gọi tắt là PAN Workshop (http:// là một loại sao chép gần như không pan.webis.de) đều tổ chức cuộc tranh tài thay đổi so với tài liệu nguồn. Nó bao quốc tế về phát hiện sao chép văn bản gồm các hình thức “sao chép và dán” (International Competition on Plagiarism (Maurer, Kappe et al., 2006); “trộn và Detection). Cuộc thi thu hút nhiều nhà dán” (Weber-Wulff, 2010). “Sao chép và nghiên cứu từ nhiều lĩnh vực liên quan đến dán” là hình thức sao phép hoàn toàn phát hiện sao chép văn bản tự động. Để đánh nội dung mà không có một sự thay đổi giá được các giải pháp dự thi, PAN phát triển nào. “Trộn và dán” là hình thức sao một lớp thư viện (framework) đánh giá bao chép có một vài thay đổi rất nhỏ so với gồm một cơ sở dữ liệu mẫu rất lớn gồm Dq, tài liệu nguồn. D và S trong đó Dq là tập hợp các tài liệu nghi •Giả tạo đạo văn: được mô tả như là ngờ có đạo văn, D là tập hợp các tài liệu gốc một loại diễn giải, ngụy trang kỹ thuật, và S là tập hợp các ghi chú về từng trường hay dịch từ ngôn ngữ này sang ngôn hợp sao chép giữa Dq và D. Ngoài ra, lớp thư ngữ khác. viện này cũng đề ra các độ đo hiệu suất phát •Đạo văn cấu trúc và ý tưởng: đề cập đến hiện (detection performance measure) để có hình thức sử dụng cấu trúc của người thể so sánh độ chính xác của các giải thuật khác, khái niệm rộng hơn mà không phát hiện đạo văn. đưa ra trích dẫn nguồn phù hợp. Một cách tổng quát, một hệ thống phát •Tự đạo văn: đề cập đến một loại tái sử hiện sao chép thông thường sẽ được cài đặt dụng câu hay đoạn văn của riêng mình trên ba bước xử lý cơ bản: mà không ghi nguồn phù hợp. ■■ Thứ nhất, từ một tài liệu kiểm tra d và Theo những quan sát của chúng tôi, đạo kho dữ liệu các tài liệu nguồn D, hệ thốngvăn theo dạng “sao chép và dán” xảy ra khá sẽ tìm ra một tập tài liệu tiềm năng Dd ⊂ Dphổ biến. Đây là ...
Nội dung trích xuất từ tài liệu:
Xây dựng ứng dụng phát hiện đạo văn trong nghiên cứu khoa họcTRAO ĐỔI THÔNG TIN KHOA HỌCXây dựng ứng dụng phát hiện đạo vănTRONG NGHIÊN CỨU KHOA HỌC Đinh Thái Sơn, Nguyễn Thị Hảo Bộ môn CNPM, Khoa Kỹ thuật–Công nghệ, Trường Đại học Hùng Vương TÓM TẮT N gày nay, có rất nhiều tài liệu văn bản có thể truy xuất được dễ dàng dưới dạng tài liệu kỹ thuật số và vì vậy người ta có thể truy cập và sao chép dễ dàng. Vấn đề đạo văn nói chung và sao chép luận văn, đồ án nói riêng có thể nói là những mặt tiêu cực phổ biến hiện nay cần được phát hiện và ngăn chặn. Trong bài báo này, chúng tôi trình bày một phương pháp phát hiện ra tập tiềm năng có sử dụng thuật toán tách giá trị đơn (SVD [7]) theo mô hình lập trình song song. Các cài đặt và thử nghiệm của chúng tôi cho thấy có thể áp dụng phương pháp để phát hiện ra các tập tiềm năng bị sao chép và sắp xếp (ranking) chúng, từ đó có thể hạn chế số lượng tập tin cần phân tích, so sánh để phát hiện ra các đoạn bị sao chép. Từ khóa: Đạo văn, hội thảo khám phá đạo văn, tác quyền và lạm dụng phần mềm xã hội, tính toán song song, … 1.Đặt vấn đề Ngày nay, đã có nhiều phần mềm hỗ trợ 1.1.Vấn nạn đạo văn cho việc phát hiện đạo văn. Đa phần là các Vấn đề (hay vấn nạn) sao chép tài liệu phần mềm thực hiện kiểm tra sao chép một(đạo văn) ngày nay đang là một vấn đề tài liệu từ “kho tài liệu” trên internet, tứcnghiêm trọng trong môi trường giáo dục. là kiểm tra với tài liệu nguồn từ internet.Với sự phát triển mạnh mẽ của công nghệ Các phần mềm này có ưu điểm là kiểmthông tin và các kỹ thuật lưu trữ của các tra với một nguồn hết sức phong phú. Tuycông cụ tìm kiếm như Google, Bing,… thì vậy, ở nước ta không có nhiều phần mềmviệc sao chép sẽ được thực hiện một cách dễ được biết rõ hỗ trợ kiểm tra trên một cơdàng hơn. Sự sao chép ngày càng phổ biến sở dữ liệu đóng của một tổ chức, ví dụ thưở mọi cấp độ: từ đồ án, tiểu luận, luận văn viện của một trường hay kho luận văn củatốt nghiệp đại học cho đến luận văn tiến một trường.sĩ. Nhiều sao chép khác như giáo trình, bài 1.2.Các hình thức đạo văngiảng cũng còn khá phổ biến. Có rất nhiều Meuschke và Gipp (Meuschke and Gipp,bài viết trên các báo có uy tín công khai tình 2013) [3] phân loại các hình thức đạo văntrạng sao chép bừa bãi luận văn. học như sau: Tạp chí Khoa học & Công nghệ số 3 (8) – 2017 87TRAO ĐỔI THÔNG TIN KHOA HỌC •Đạo văn hoàn toàn: được mô tả như Workshop) gọi tắt là PAN Workshop (http:// là một loại sao chép gần như không pan.webis.de) đều tổ chức cuộc tranh tài thay đổi so với tài liệu nguồn. Nó bao quốc tế về phát hiện sao chép văn bản gồm các hình thức “sao chép và dán” (International Competition on Plagiarism (Maurer, Kappe et al., 2006); “trộn và Detection). Cuộc thi thu hút nhiều nhà dán” (Weber-Wulff, 2010). “Sao chép và nghiên cứu từ nhiều lĩnh vực liên quan đến dán” là hình thức sao phép hoàn toàn phát hiện sao chép văn bản tự động. Để đánh nội dung mà không có một sự thay đổi giá được các giải pháp dự thi, PAN phát triển nào. “Trộn và dán” là hình thức sao một lớp thư viện (framework) đánh giá bao chép có một vài thay đổi rất nhỏ so với gồm một cơ sở dữ liệu mẫu rất lớn gồm Dq, tài liệu nguồn. D và S trong đó Dq là tập hợp các tài liệu nghi •Giả tạo đạo văn: được mô tả như là ngờ có đạo văn, D là tập hợp các tài liệu gốc một loại diễn giải, ngụy trang kỹ thuật, và S là tập hợp các ghi chú về từng trường hay dịch từ ngôn ngữ này sang ngôn hợp sao chép giữa Dq và D. Ngoài ra, lớp thư ngữ khác. viện này cũng đề ra các độ đo hiệu suất phát •Đạo văn cấu trúc và ý tưởng: đề cập đến hiện (detection performance measure) để có hình thức sử dụng cấu trúc của người thể so sánh độ chính xác của các giải thuật khác, khái niệm rộng hơn mà không phát hiện đạo văn. đưa ra trích dẫn nguồn phù hợp. Một cách tổng quát, một hệ thống phát •Tự đạo văn: đề cập đến một loại tái sử hiện sao chép thông thường sẽ được cài đặt dụng câu hay đoạn văn của riêng mình trên ba bước xử lý cơ bản: mà không ghi nguồn phù hợp. ■■ Thứ nhất, từ một tài liệu kiểm tra d và Theo những quan sát của chúng tôi, đạo kho dữ liệu các tài liệu nguồn D, hệ thốngvăn theo dạng “sao chép và dán” xảy ra khá sẽ tìm ra một tập tài liệu tiềm năng Dd ⊂ Dphổ biến. Đây là ...
Tìm kiếm theo từ khóa liên quan:
Tạp chí Khoa học Hội thảo khám phá đạo văn Tác quyền và lạm dụng phần mềm xã hội Tính toán song song Tập tiềm năng bị sao chépTài liệu liên quan:
-
6 trang 307 0 0
-
Thống kê tiền tệ theo tiêu chuẩn quốc tế và thực trạng thống kê tiền tệ tại Việt Nam
7 trang 273 0 0 -
5 trang 234 0 0
-
10 trang 222 0 0
-
8 trang 220 0 0
-
Khảo sát, đánh giá một số thuật toán xử lý tương tranh cập nhật dữ liệu trong các hệ phân tán
7 trang 217 0 0 -
Quản lý tài sản cố định trong doanh nghiệp
7 trang 208 0 0 -
Khách hàng và những vấn đề đặt ra trong câu chuyện số hóa doanh nghiệp
12 trang 208 0 0 -
6 trang 207 0 0
-
9 trang 168 0 0