Danh mục

Sử dụng ứng dụng R trong việc hỗ trợ người học tìm kiếm thông tin, tài liệu phục vụ học tập và nghiên cứu

Số trang: 5      Loại file: pdf      Dung lượng: 328.62 KB      Lượt xem: 11      Lượt tải: 0    
Thư viện của tui

Phí lưu trữ: miễn phí Tải xuống file đầy đủ (5 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết "Sử dụng ứng dụng R trong việc hỗ trợ người học tìm kiếm thông tin, tài liệu phục vụ học tập và nghiên cứu" chia sẻ ứng dụng sử dụng R với một số gói mã lệnh thông dụng để tiếp cận nguồn thông tin, tài liệu dồi dào trên các trang mạng một cách nhanh chóng, hiệu quả. Điều này sẽ giúp các bạn sinh viên nâng cao hiệu quả tìm kiếm nguồn thông tin, có thêm dữ liệu để phục vụ học tập, nghiên cứu hay tham gia các hoạt động xã hội. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Sử dụng ứng dụng R trong việc hỗ trợ người học tìm kiếm thông tin, tài liệu phục vụ học tập và nghiên cứu SỬ DỤNG ỨNG DỤNG R TRONG VIỆC HỖ TRỢ NGƯỜI HỌC TÌM KIẾM THÔNG TIN, TÀI LIỆU PHỤC VỤ HỌC TẬP VÀ NGHIÊN CỨU Hà Thị Minh Huệ Trường Đại học Kinh tế Quốc dân Tóm tắt: Bài viết chia sẻ ứng dụng sử dụng R với một số gói mã lệnh thông dụng để tiếp cận nguồn thông tin, tài liệu dồi dào trên các trang mạng một cách nhanh chóng, hiệu quả. Điều này sẽ giúp các bạn sinh viên nâng cao hiệu quả tìm kiếm nguồn thông tin, có thêm dữ liệu để phục vụ học tập, nghiên cứu hay tham gia các hoạt động xã hội. Bài viết tập trung vào sử dụng R để tự động cào dữ liệu dạng bảng, dạng ký tự chữ viết ở nhiều trang mạng, từ đó thu thập được nguồn tài liệu, dữ liệu hay thông tin lớn hơn rất nhiều so với cách thủ công thông thường. Từ khóa: trang mạng, đường dẫn, gói mã lệnh, thu thập, dữ liệu. 1. Đặt vấn đề Trong thời đại 4.0, với sự phát triển ngày càng cao của khoa học và công nghệ, việc cập nhật hay ứng dụng các công cụ công nghệ thông tin, khoa học dữ liệu để hỗ trợ xử lý các công việc khác nhau trở nên phổ biến và dần trở thành điều kiện tiên quyết để thành công. Tất cả chúng ta đều biết công nghệ thông tin, khoa học dữ liệu là các lĩnh vực đã đang và sẽ còn phát triển nhanh chóng, mở ra cho sinh viên những con đường lập nghiệp thú vị và cơ hội học tập nâng cao. Không riêng các bạn sinh viên đang theo học các ngành này, tất cả chúng ta đều có thể và nên trang bị cho mình những kiến thức công nghệ thông tin, khoa học dữ liệu cơ bản nhất để có thể thúc đẩy nâng cao hiệu quả học tập và làm việc. Các bạn sinh viên hiện nay đã rất may mắn khi có thể tiếp cận nguồn thông tin, tài liệu vô hạn trên các trang mạng chỉ với một vài từ khóa, một cú nhấp chuột. Tuy vậy, việc sử dụng nhanh chóng và hiệu quả nguồn thông tin, tài liệu này đôi khi lại gây khó khăn cho chúng ta. Hiện nay, R, Python hay một số ngôn ngữ lập trình khác được sử dụng rất nhiều trong việc làm sạch, hình ảnh hóa, phân tích dữ liệu. Không chỉ có vậy, chúng ta còn có thể sử dụng chúng để thu thập nguồn tài liệu và thông tin khổng lồ có trên các trang mạng. Điều này sẽ giúp chúng ta có thêm công cụ để học tập và nghiên cứu. Bài viết chia sẻ một vài ứng dụng của việc sử dụng R thông qua một số ví dụ cụ thể về việc thu thập tài liệu, thông tin trên các trang mạng hay còn gọi là “scraping data”, thông qua một số gói mã lệnh của phần mềm R. Tác giả không trình bày cụ thể cách viết mã, bạn đọc quan tâm có thể tìm đọc tại [1] và tìm hiểu thêm các gói mã lệnh theo các đường dẫn ở mục tài liệu tham khảo. 62 2. Nội dung Tác giả sử dụng 3 gói mã chính sau của R: • Rvest là gói mã sử dụng để cào dữ liệu từ trang mạng [2] [3]. Nếu bạn chưa biết gì về nó, chúng ta có thể hiểu đơn giản như sau: Ở đây, ta cần đường dẫn tới trang mạng, địa chỉ khu vực mà ta muốn tìm kiếm thông tin trên trang mạng đó, dạng dữ liệu thông tin mà ta muốn thu thập, ví dụ trong bài viết là ta thu thập dữ liệu dạng bảng và chữ viết. • Dplyr là gói mã sử dụng để xử lý dữ liệu dạng bảng [4] [5]. Ta có thể lập bảng, thêm bớt dòng, cột, sắp xếp hay lọc dữ liệu trong bảng,… • Stringr là gói mã sử dụng để xử lý dữ liệu dạng ký tự chữ viết [5] [6]. Ta có thể đếm số ký tự, tìm kiếm vị trí ký tự, nối chuỗi ký tự,… Từng gói lệnh đọc qua có vẻ làm các công việc khá đơn giản, nhưng ta phải kết hợp các gói lệnh, ứng dụng uyển chuyển, linh hoạt để mang lại hiệu quả tối đa. Ví dụ, một vài dòng mã dưới đây có thể giúp ta thu về một bảng gồm tất cả các đường dẫn xuất hiện trên một vùng của trang mạng: url %>% read_html() %>% html_element(css_page) %>% html_nodes(“a”) %>% html_attr(“href”) %>% matrix(ncol = 1) %>% as.data.frame() -> links Ở đây, “url” chính là đường dẫn tới trang mạng, “css_page” là chỉ điểm tới vị trí khu vực ta muốn lấy thông tin, và “a”, “href” chính là dấu hiệu nhận biết để chỉ tới các đường dẫn; sau đó, ta cho các đường dẫn này vào một bảng gồm 1 cột. Các ví dụ sau đây, tác giả đều thực hiện việc thu thập các đường dẫn có cùng một kiểu thông tin, dữ liệu mà tác giả quan tâm, sau đó tự động thu thập dữ liệu trên các đường dẫn đã lấy được. Ta hãy xem xét lần lượt các ví dụ. 2.1. Tải (download) tài liệu Giả sử tác giả đang học ôn luyện tiếng Anh và đang muốn làm bài đọc dạng “multiple choice cloze”. Tác giả nhận thấy trang mạng [7]: https://www.intercambioidiomasonline.com/english/multiple-choice-cloze/ Có rất nhiều bài luyện được phân cấp từ B1 đến C1, mỗi bài là một đường dẫn, như một số đường dẫn ví dụ dưới đây: (NEW) C1 MULTIPLE CHOICE: ABLAUT REDUPLICATION C1 MULTIPLE ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: