Danh mục

Xây dựng kho dữ liệu phục vụ hệ thống phát hiện sao chép

Số trang: 5      Loại file: pdf      Dung lượng: 777.49 KB      Lượt xem: 16      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí Tải xuống file đầy đủ (5 trang) 0
Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết Xây dựng kho dữ liệu phục vụ hệ thống phát hiện sao chép trình bày kết quả xây dựng kho dữ liệu sẽ được sử dụng trong hệ thống phát hiện sao chép từ các nguồn tài liệu của Đại học Đà Nẵng. Kho dữ liệu này bao gồm các tài liệu gốc, cơ sở dữ liệu thông tin chung về tài liệu và dữ liệu đã được trích xuất từ các tài liệu lưu trữ dưới định dạng XML.
Nội dung trích xuất từ tài liệu:
Xây dựng kho dữ liệu phục vụ hệ thống phát hiện sao chép ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 1(86).2015 113 XÂY DỰNG KHO DỮ LIỆU PHỤC VỤ HỆ THỐNG PHÁT HIỆN SAO CHÉP BUILDING A DATA WAREHOUSE FOR DUPLICATE DETECTION SYSTEM Châu Thùy Dương1, Võ Trung Hùng2*, Hồ Phan Hiếu2** 1 Trường Đại học Quảng Nam; chauthuyduong.qn@gmail.com 2 Đại học Đà Nẵng; *vthung@dut.udn.vn, **hophanhieu@gmail.com Tóm tắt - Trong bài báo này, chúng tôi trình bày kết quả xây dựng Abstract - This paper presents the results of building a data bank kho dữ liệu sẽ được sử dụng trong hệ thống phát hiện sao chép từ to be used in the duplication detection system from learning các nguồn tài liệu của Đại học Đà Nẵng. Kho dữ liệu này bao gồm resources of the University of Danang. This data bank includes các tài liệu gốc, cơ sở dữ liệu thông tin chung về tài liệu và dữ liệu original documents, abstract information database about the đã được trích xuất từ các tài liệu lưu trữ dưới định dạng XML. original documents and the data which has been extracted from the Chúng tôi đã đề xuất cấu trúc lưu trữ và các chương trình tương documents to store in XML format. We have proposed storage ứng để dễ dàng lưu trữ, cập nhật kho dữ liệu và xử lý các dữ liệu structure and the corresponding programs to easily store, update trên kho. Chúng tôi đã tiến hành thử nghiệm và lưu trữ trên kho and manage data in data bank. We have experimented and stored này với hơn 100 tài liệu mỗi loại cho báo cáo tốt nghiệp của sinh in this data bank over 300 documents such as course papers by IT viên ngành công nghệ thông tin, luận văn tốt nghiệp cao học và students, master theses and reports of research projects. Results báo cáo tổng kết đề tài nghiên cứu. Kết quả nghiên cứu này là tiền of this study imply a prerequisite for building an automated system đề để xây dựng một hệ thống phát hiện tự động việc sao chép trái to detect the duplication in the scientific documents, contributing to phép trên các tài liệu khoa học, góp phần hạn chế nạn “đạo văn” controlling 'plagiarism'. đang diễn ra phổ biến hiện nay. Từ khóa - phát hiện sao chép; kho dữ liệu; đạo văn; chuyển định Key words - duplication detection; data bank; plagiarism; format dạng; học liệu. converting; learning resource. 1. Giới thiệu văn tốt nghiệp thạc sĩ, báo cáo đồ án/luận văn tốt nghiệp Ứng dụng công nghệ thông tin trong dạy và học đang đại học, các báo cáo tổng kết đề tài nghiên cứu khoa học là một xu hướng tất yếu và mang lại hiệu quả cao. Một và các tài liệu khác), cơ sở dữ liệu thông tin chung về tài trong những ứng dụng quan trọng nhất là trao đổi thông tin, liệu và dữ liệu đã được trích xuất từ các tài liệu lưu trữ dưới tài liệu thông qua môi trường Internet. Hiện tại, tài liệu trên định dạng XML. Chúng tôi đề xuất một cấu trúc lưu trữ và Internet đang dần trở thành là nguồn tham khảo chính và các chương trình tương ứng để dễ dàng lưu trữ, cập nhật không thể thiếu đối với người dạy và người học. kho dữ liệu và xử lý các dữ liệu trên kho. Chúng tôi đã tiến hành thử nghiệm và lưu trữ trên kho này với hơn 100 tài Tuy nhiên, cùng với sự phổ biến của việc tham khảo tài liệu trên mạng Internet, tình trạng “đạo văn” cũng đang có liệu mỗi loại cho báo cáo tốt nghiệp của sinh viên ngành xu hướng gia tăng và đã đến mức báo động trong những năm công nghệ thông tin, luận văn tốt nghiệp cao học và báo cáo tổng kết đề tài nghiên cứu. gần đây. Tình trạng sinh viên trong các trường đại học sao chép các đồ án, luận văn tốt nghiệp trên mạng Internet của 2. Hệ thống phát hiện sao chép những khóa trước ngày càng nhiều, dần trở nên phổ biến và Cho một văn bản D gọi là văn bản kiểm tra và M là tập trở thành một vấn nạn làm suy giảm chất lượng đào tạo. hợp văn bản nguồn đã được đăng ký trước, bài toán đặt ra Làm thế nào để hạn chế tình trạng “đạo văn” đang là là xác định độ tương tự của văn bản D với từng văn bản m một câu hỏi lớn đặt ra cho toàn xã hội. trong M. Nếu độ tương tự của D với các văn bản trong M Một trong những giải pháp để hạn chế tình trạng trên là vượt quá một ngưỡng nào đó thì D được coi là sao chép từ xây dựng các phần mềm nhằm phát hiện và chỉ ra những các văn bản M. nội dung nào trên một tài liệu là được sao chép lại từ những tài liệu đã có trước đó và mức độ sao chép như thế nào. Hệ thống phát hiện sao chép là hệ thống xác định vị trí Việc phát hiện này vừa có tác dụng giúp cho chính các tác trùng lặp và đo độ tương tự giữa các tài liệu. Việc đo độ giả kiểm tra và điều chỉnh văn bản của mình, vừa có tác tương tự giữa hai tài liệu thường dựa trên việc đo độ tương dụng giúp giáo viên, các nhà quản lý phát hiện sự gian lận tự giữa thành phần đơn vị trong văn bản kiểm tra với thành trên văn bản cần kiểm tra. phần ...

Tài liệu được xem nhiều: