Bài giảng Data Visualization - Chương 2: Thao tác dữ liệu
Số trang: 3
Loại file: pdf
Dung lượng: 96.06 KB
Lượt xem: 27
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Giáo trình "Data Visualization - Chương 2: Thao tác dữ liệu" trình bày về việc sau khi nhập dữ liệu vào R, dễ dàng thao tác dữ liệu bằng gói dplyr, có thể được cài đặt bằng lệnh trong R: install.packages ("dplyr"). Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Data Visualization - Chương 2: Thao tác dữ liệuChương 3Thao tác dữ liệuSau khi nhập dữ liệu vào R, ta có thể dễ dàng thao tác dữ liệu bằng góidplyr, có thể được cài đặt bằng lệnh trong R: install.packages (dplyr).Sau khi tải gói dplyr, có thể sử dụng các hàm R sau: filter(): Chọn hàng (quan sát / mẫu) dựa trên giá trị của chúng. distinct(): Loại bỏ các hàng trùng lặp. arrange(): Sắp xếp lại các hàng. select(): Chọn cột (biến) theo tên của chúng. rename(): Đổi tên cột. mutate():Thêm / tạo biến mới. summarise(): Tính toán tổng hợp thống kê (ví dụ: tính trung bình hoặc tổng)Ví dụ: Age Weight Gender Age Weight Gender 10 24 male 80 50 male 20 39 female 15 30 female 35 46 male 47 52 male 67 60 female 66 55 female 54 45 female 29 67 female 4142 CHƯƠNG 3. THAO TÁC DỮ LIỆU > library(dplyr) > age weight gender data1 select(data1, age) age 1 10 2 20 3 35 4 67 5 54 6 80 7 15 8 47 9 66 10 29 Để lọc ra những người có độ tuổi trên 30 ta sử dụng: #Loc ra nhung nguoi co do tuoi tren 30 > filter(data1, age≥30) age weight gender 1 35 46 male 2 67 60 female 3 54 45 female 4 80 50 male 5 47 52 male 6 66 55 femaleĐể đổi tên biến từ age thành ages ta sử dụng: # Doi ten bien > rename(data1, ages = age)ta được kết quả sau: ages weight gender 1 10 24 male 2 20 39 female 3 35 46 male 4 67 60 female 43 5 54 45 female 6 80 50 male 7 15 30 female 8 47 52 male 9 66 55 female 10 29 67 femaleĐể sắp xếp dữ liệu theo độ tuổi giảm dần ta sử dụng # Lenh sap xep data theo do tuoi giam dan > arrange(data1, desc(age)) age weight gender 1 80 50 male 2 67 60 female 3 66 55 female 4 54 45 female 5 47 52 male 6 35 46 male 7 29 67 female 8 20 39 female 9 15 30 female 10 10 24 maleĐể tạo thêm biến mới, ta sử dụng lệnh mutate # Tao them bien moi > mutate(data1, a = age / 5) age weight gender a 1 10 24 male 2.0 2 20 39 female 4.0 3 35 46 male 7.0 4 67 60 female 13.4 5 54 45 female 10.8 6 80 50 male 16.0 7 15 30 female 3.0 8 47 52 male 9.4 9 66 55 female 13.2 10 29 67 female 5.8
Nội dung trích xuất từ tài liệu:
Bài giảng Data Visualization - Chương 2: Thao tác dữ liệuChương 3Thao tác dữ liệuSau khi nhập dữ liệu vào R, ta có thể dễ dàng thao tác dữ liệu bằng góidplyr, có thể được cài đặt bằng lệnh trong R: install.packages (dplyr).Sau khi tải gói dplyr, có thể sử dụng các hàm R sau: filter(): Chọn hàng (quan sát / mẫu) dựa trên giá trị của chúng. distinct(): Loại bỏ các hàng trùng lặp. arrange(): Sắp xếp lại các hàng. select(): Chọn cột (biến) theo tên của chúng. rename(): Đổi tên cột. mutate():Thêm / tạo biến mới. summarise(): Tính toán tổng hợp thống kê (ví dụ: tính trung bình hoặc tổng)Ví dụ: Age Weight Gender Age Weight Gender 10 24 male 80 50 male 20 39 female 15 30 female 35 46 male 47 52 male 67 60 female 66 55 female 54 45 female 29 67 female 4142 CHƯƠNG 3. THAO TÁC DỮ LIỆU > library(dplyr) > age weight gender data1 select(data1, age) age 1 10 2 20 3 35 4 67 5 54 6 80 7 15 8 47 9 66 10 29 Để lọc ra những người có độ tuổi trên 30 ta sử dụng: #Loc ra nhung nguoi co do tuoi tren 30 > filter(data1, age≥30) age weight gender 1 35 46 male 2 67 60 female 3 54 45 female 4 80 50 male 5 47 52 male 6 66 55 femaleĐể đổi tên biến từ age thành ages ta sử dụng: # Doi ten bien > rename(data1, ages = age)ta được kết quả sau: ages weight gender 1 10 24 male 2 20 39 female 3 35 46 male 4 67 60 female 43 5 54 45 female 6 80 50 male 7 15 30 female 8 47 52 male 9 66 55 female 10 29 67 femaleĐể sắp xếp dữ liệu theo độ tuổi giảm dần ta sử dụng # Lenh sap xep data theo do tuoi giam dan > arrange(data1, desc(age)) age weight gender 1 80 50 male 2 67 60 female 3 66 55 female 4 54 45 female 5 47 52 male 6 35 46 male 7 29 67 female 8 20 39 female 9 15 30 female 10 10 24 maleĐể tạo thêm biến mới, ta sử dụng lệnh mutate # Tao them bien moi > mutate(data1, a = age / 5) age weight gender a 1 10 24 male 2.0 2 20 39 female 4.0 3 35 46 male 7.0 4 67 60 female 13.4 5 54 45 female 10.8 6 80 50 male 16.0 7 15 30 female 3.0 8 47 52 male 9.4 9 66 55 female 13.2 10 29 67 female 5.8
Tìm kiếm theo từ khóa liên quan:
Giáo trình Data Visualization Thao tác dữ liệu Nhập dữ liệu vào R Cài đặt bằng lệnh trong R Thao tác dữ liệu bằng gói dplyrTài liệu liên quan:
-
139 trang 51 0 0
-
Giáo trình Cơ sở dữ liệu 1: Phần 2 - ĐH Thái Nguyên
49 trang 26 0 0 -
CHƯƠNG II: CÁC MÔ HÌNH DỮ LIỆU
5 trang 24 0 0 -
71 trang 22 0 0
-
14 trang 22 0 0
-
Bài giảng Cơ sở dữ liệu: Chương 3 - Nguyễn Hồng Phương
17 trang 22 0 0 -
Bài giảng Cơ sở dữ liệu - Nguyễn Hồng Phương
53 trang 22 0 0 -
29 trang 21 0 0
-
41 trang 21 0 0
-
139 trang 20 0 0