Danh mục

Tăng tốc tìm kiếm tài nguyên học tập theo nội dung bằng kỹ thuật xử lý dữ liệu lớn

Số trang: 8      Loại file: pdf      Dung lượng: 442.86 KB      Lượt xem: 9      Lượt tải: 0    
10.10.2023

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết này đề xuất giải pháp nhằm tăng tốc tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn. Cụ thể, các kỹ thuật xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng số TF-IDF (Term Frequency-Inverse Document Frequency), biểu diễn văn bản thành dạng không gian vectơ, tính độ tương đồng cosine để đo mức độ tương tự của các từ khóa trong tài liệu nhằm trả về tài liệu có độ tương đồng cao nhất.
Nội dung trích xuất từ tài liệu:
Tăng tốc tìm kiếm tài nguyên học tập theo nội dung bằng kỹ thuật xử lý dữ liệu lớnTrần Thanh Điện, Nguyễn Ngọc Tuấn, Nguyễn Thanh Hải, Nguyễn Thái Nghe 171 Tăng Tốc Tìm Kiếm Tài Nguyên Học Tập Theo Nội Dung Bằng Kỹ Thuật Xử Lý Dữ Liệu Lớn Trần Thanh Điện1, Nguyễn Ngọc Tuấn2, Nguyễn Thanh Hải1, Nguyễn Thái Nghe1 1 Khoa Công nghệ Thông tin và Truyền thông, Trường Đại học Cần Thơ {thanhdien,nthai.cit,ntnghe}@ctu.edu.vn 2 Ban Phát triển Hệ thống Công nghệ Thông tin, Trường Đại học Trà Vinh ngoctuan@tvu.edu.vn Tóm tắt. Học tập trực tuyến là một giải pháp khá hữu hiệu trong môi trường giáo dục đào tạo. Tuy nhiên người học còn gặp nhiều khó khăn trong tìm kiếm tài nguyên học tập do tên các tài nguyên khi được lưu trữ chưa phản ánh được từ khóa người dùng mong đợi. Vì vậy, làm cách nào để tìm chính xác các từ khóa trong nội dung tài nguyên học tập thay vì tìm kiếm thông thường từ các meta-data là rất cần thiết để hỗ trợ người học tiết kiệm thời gian, công sức. Hiện có nhiều nghiên cứu về tìm kiếm tài nguyên học tập theo nội dung đã cho kết quả khá chính xác, tuy nhiên khi khối lượng tài nguyên ngày càng tăng thì việc tìm kiếm vận hành khá chậm. Bài viết này đề xuất giải pháp nhằm tăng tốc tìm kiếm tài nguyên học tập theo nội dung dựa trên các kỹ thuật xử lý dữ liệu lớn. Cụ thể, các kỹ thuật xử lý văn bản được sử dụng trên nền tảng Hadoop như tách từ tiếng Việt, loại bỏ từ dừng, tính trọng số TF-IDF (Term Frequency-Inverse Document Frequency), biểu diễn văn bản thành dạng không gian vectơ, tính độ tương đồng cosine để đo mức độ tương tự của các từ khóa trong tài liệu nhằm trả về tài liệu có độ tương đồng cao nhất. Thực nghiệm trên một số tài liệu tiếng Việt cho thấy việc xử lý song song rút ngắn thời gian tìm kiếm hơn rất nhiều so với tìm kiếm truyền thống trong khi độ chính xác không thay đổi. Từ khóa: Tài nguyên học tập, tìm kiếm dựa trên nội dung, dữ liệu lớn, Hadoop MapReduce, độ tương đồng. Abstract. Online learning is a quite effective solution in education and training environment. Howev- er, learners still face many difficulties in searching learning resources because the names of the ar- chived resources do not match the keywords that users expect. Therefore, how to exactly search key- words within the learning resource content instead of the meta-data is essential to support learners saving their time and efforts. Currently, there are a lot of studies on searching based-content learning resources that have given quite accurate results. However, the more the amount of resources increas- es, the more slowly the search returns the results. This study proposes a solution to speed up based- content searching learning resources using big data techniques as Apache Hadoop framework. Specif- ically, the document processing techniques are used such as separating Vietnamese words, removing stop words, representing documents in term of TF-IDF, computing cosine similarity, to measure the similarity of keywords in the document to return the document with the highest similarity. The exper-iments on Vietnamese documents show that parallel processing significantly shortens search time, but the accuracy is similar, compared with traditional search method. Keywords: Learning resources, content-based search, big data, Hadoop MapReduce, similarity.1 Giới thiệuTrong môi trường đại học, nguồn tài liệu đa dạng, phong phú và khối lượng kiến thức liên tục tăng mỗinăm đòi hỏi sinh viên phải chủ động nhiều hơn trong việc học tập. Thêm vào đó, thời gian học trên lớpthường cả buổi hoặc cả ngày làm sinh viên cảm thấy mệt mỏi và bão hòa với khối lượng kiến thức lớnphải thu nạp. Vì vậy, để việc học tập thực sự có hiệu quả, sinh viên cần phải rèn luyện thói quen và kỹnăng tự học, tự giác tìm kiếm tài liệu, học bằng cách đọc, tổ chức và xử lý thông tin để hiểu các nội dungbài giảng và mở rộng kiến thức của mình. Một trong các kỹ năng tự học là khả năng tìm kiếm các tài liệu172 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”liên quan đến mục tiêu và nội dung bài học. Một trong những phương pháp quan trọng để thu nhận kiếnthức là phải biết sử dụng sách, biết tìm kiếm và chọn tài liệu, nắm vững tài liệu như thế nào để học tập cóhiệu quả. Tìm kiếm thông tin là tập hợp các giải pháp nhằm biểu diễn, lưu trữ, cấu trúc và truy xuất thông tin cầnthiết. Một hệ thống tìm kiếm thông tin thường có ba thành phần gồm tập dữ liệu sử dụng, các thao tácthực hiện trên văn bản, và phương pháp mô hình hó ...

Tài liệu được xem nhiều: