Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện Pandas
Số trang: 41
Loại file: pdf
Dung lượng: 974.50 KB
Lượt xem: 15
Lượt tải: 0
Xem trước 5 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện Pandas cung cấp cho người học những kiến thức như: Giới thiệu và cài đặt pandas; Cấu trúc dữ liệu trong pandas; Làm việc với series; Làm việc với dataframe; Làm việc với panel; Chọn và nhóm phần tử. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện PandasLOGOLẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 9. Thư viện Pandas Nội dung 1 Giới thiệu vàcài đặt pandas 2 Cấu trúc dữ liệu trong pandas 3 Làmviệc với series 4 Làmviệc với dataframe 5 Làm việc với panel 6 Chọn và nhóm phần tử2 Giới thiệu Pandas▪ “pandas” là thư viện mở rộng từnumpy, chuyên để xử lý dữ liệu cấu trúc dạngbảng▪ Tên “pandas” là dạng số nhiều của “panel data”3 Giới thiệu Pandas Đặc điểm nổi bật của pandas▪ Đọc dữ liệu từ nhiều định dạng▪ Liên kết dữ liệu và tích hợp xử lý dữ liệu bịthiếu▪ Xoay và chuyển đổi chiều của dữ liệu dễ dàng▪ Tách, đánh chỉ mục và chia nhỏ các tập dữ liệu lớn dựa trên nhãn▪ Có thể nhóm dữ liệu cho các mục đích hợp nhất và chuyển đổi▪ Lọc dữ liệu và thực hiện query trên dữliệu▪ Xử lý dữ liệu chuỗi thời gian và lấy mẫu4 Cấu trúc dữ liệu trong pandas▪ Dữ liệu của pandas có 3 cấu trúc chính: ▪ Series (loạt): cấu trúc 1 chiều, mảng dữ liệu đồngnhất ▪ Dataframe (khung): cấu trúc 2 chiều, dữ liệu trên các cột là đồng nhất (có phần giống như table trong SQL, nhưng với các dòng được đặt tên) ▪ Panel (bảng): cấu trúc 3 chiều, có thể xem như một tập các dataframe với thông tin bổsung▪ Dữ liệu series gần giống kiểu array trong numpy, nhưng có 2 điểm khác biệt quantrọng: ▪ Chấp nhận dữ liệu thiếu (NaN – không xácđịnh) ▪ Hệ thống chỉ mục phong phú (giốngdictionary?)5 Cấu trúc dữ liệu trong pandas Cấu trúc dataframe▪ Dữ liệu 2 chiều▪ Các cột cótên▪ Dữ liệu trên cột là đồng nhất(series?)▪ Các dòng có thể cótên▪ Có thể có ô thiếu dữ liệu6 Cấu trúc dữ liệu trong pandas Cấu trúc panel▪ Dữ liệu 3 chiều▪ Một tập cácdataframe▪ Các dataframe có cấu trúc tương đồng▪ Có thể có các thôngtin bổ sung cho từng dataframe7 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npS = pd.Series(np.random.randint(100, size =4))print(S) 0 73print(S.index) 1 80print(S.values) 2 4 3 7 dtype: int32 RangeIndex(start=0, stop=4, step=1) [73 80 4 7]8 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npchi_so = [Ke toan, KT, CNTT, Co k h i ]gia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) Ketoan 310print(S) KT 360print(S.index) CNTT 580 Cokhi 340print(S.values) dtype: int64 Index([Ke toan, KT, CNTT, Co k h i ] , dtype=object) [310 360 580 340]9 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npchi_so = [KT, KT, CNTT, Co khi] # trùng nhaugia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) KT 310print(S) KT 360print(S.index) CNTT 580 Cokhi 340print(S.values) dtype: int64 Index([Ke toan, KT, CNTT, Co k h i ] , dtype=object) [310 360 580 340]10 Làm việc với series Truy vấn dữ liệu thông qua chỉ sốimport pandas as pdimport numpy as npchi_so = [KT, KT, CNTT, Co khi] # trùng nhaugia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) 340print(S[Co k h i ] ) KT 310print(S[KT]) KT 360print(S.CNTT) dtype: int64 58011 Làm việc với series Phép toán trên seriesimport pandas as pdimport numpy as npchi_so = [Ke toan, KT, CNTT, Co khi]gia_tri = [310, 360, 580, 340]# chỉ số giống nhau t h ì tính gộp, nếu không t h ì N a NS = pd.Series(gia_tri, index=chi_so) CNTT 680.0P= pd.Series([100, 100], [CNTT, PM]) Cokhi NaNY= S +P KT NaNprint(Y) Ke toan NaN PM NaN dtype: float6412 Làm việc với series Phép toán trên series▪ Nguyên tắc chung của việc thực hiện phéptoán t ...
Nội dung trích xuất từ tài liệu:
Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện PandasLOGOLẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 9. Thư viện Pandas Nội dung 1 Giới thiệu vàcài đặt pandas 2 Cấu trúc dữ liệu trong pandas 3 Làmviệc với series 4 Làmviệc với dataframe 5 Làm việc với panel 6 Chọn và nhóm phần tử2 Giới thiệu Pandas▪ “pandas” là thư viện mở rộng từnumpy, chuyên để xử lý dữ liệu cấu trúc dạngbảng▪ Tên “pandas” là dạng số nhiều của “panel data”3 Giới thiệu Pandas Đặc điểm nổi bật của pandas▪ Đọc dữ liệu từ nhiều định dạng▪ Liên kết dữ liệu và tích hợp xử lý dữ liệu bịthiếu▪ Xoay và chuyển đổi chiều của dữ liệu dễ dàng▪ Tách, đánh chỉ mục và chia nhỏ các tập dữ liệu lớn dựa trên nhãn▪ Có thể nhóm dữ liệu cho các mục đích hợp nhất và chuyển đổi▪ Lọc dữ liệu và thực hiện query trên dữliệu▪ Xử lý dữ liệu chuỗi thời gian và lấy mẫu4 Cấu trúc dữ liệu trong pandas▪ Dữ liệu của pandas có 3 cấu trúc chính: ▪ Series (loạt): cấu trúc 1 chiều, mảng dữ liệu đồngnhất ▪ Dataframe (khung): cấu trúc 2 chiều, dữ liệu trên các cột là đồng nhất (có phần giống như table trong SQL, nhưng với các dòng được đặt tên) ▪ Panel (bảng): cấu trúc 3 chiều, có thể xem như một tập các dataframe với thông tin bổsung▪ Dữ liệu series gần giống kiểu array trong numpy, nhưng có 2 điểm khác biệt quantrọng: ▪ Chấp nhận dữ liệu thiếu (NaN – không xácđịnh) ▪ Hệ thống chỉ mục phong phú (giốngdictionary?)5 Cấu trúc dữ liệu trong pandas Cấu trúc dataframe▪ Dữ liệu 2 chiều▪ Các cột cótên▪ Dữ liệu trên cột là đồng nhất(series?)▪ Các dòng có thể cótên▪ Có thể có ô thiếu dữ liệu6 Cấu trúc dữ liệu trong pandas Cấu trúc panel▪ Dữ liệu 3 chiều▪ Một tập cácdataframe▪ Các dataframe có cấu trúc tương đồng▪ Có thể có các thôngtin bổ sung cho từng dataframe7 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npS = pd.Series(np.random.randint(100, size =4))print(S) 0 73print(S.index) 1 80print(S.values) 2 4 3 7 dtype: int32 RangeIndex(start=0, stop=4, step=1) [73 80 4 7]8 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npchi_so = [Ke toan, KT, CNTT, Co k h i ]gia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) Ketoan 310print(S) KT 360print(S.index) CNTT 580 Cokhi 340print(S.values) dtype: int64 Index([Ke toan, KT, CNTT, Co k h i ] , dtype=object) [310 360 580 340]9 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npchi_so = [KT, KT, CNTT, Co khi] # trùng nhaugia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) KT 310print(S) KT 360print(S.index) CNTT 580 Cokhi 340print(S.values) dtype: int64 Index([Ke toan, KT, CNTT, Co k h i ] , dtype=object) [310 360 580 340]10 Làm việc với series Truy vấn dữ liệu thông qua chỉ sốimport pandas as pdimport numpy as npchi_so = [KT, KT, CNTT, Co khi] # trùng nhaugia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) 340print(S[Co k h i ] ) KT 310print(S[KT]) KT 360print(S.CNTT) dtype: int64 58011 Làm việc với series Phép toán trên seriesimport pandas as pdimport numpy as npchi_so = [Ke toan, KT, CNTT, Co khi]gia_tri = [310, 360, 580, 340]# chỉ số giống nhau t h ì tính gộp, nếu không t h ì N a NS = pd.Series(gia_tri, index=chi_so) CNTT 680.0P= pd.Series([100, 100], [CNTT, PM]) Cokhi NaNY= S +P KT NaNprint(Y) Ke toan NaN PM NaN dtype: float6412 Làm việc với series Phép toán trên series▪ Nguyên tắc chung của việc thực hiện phéptoán t ...
Tìm kiếm theo từ khóa liên quan:
Bài giảng Lập trình cho khoa học dữ liệu Lập trình cho khoa học dữ liệu Khoa học dữ liệu Thư viện Pandas Làm việc với panel Làm việc với dataframeGợi ý tài liệu liên quan:
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 3: Các thao tác cơ bản trong Python
21 trang 94 0 0 -
Bài giảng Lập trình cho khoa học dữ liệu - Bài 7: Thư viện numpy
28 trang 77 0 0 -
5 quan điểm cơ bản về khoa học dữ liệu
4 trang 55 0 0 -
Bài giảng Trí tuệ nhân tạo dành cho mọi người - ThS. Nguyễn Ngọc Tú
149 trang 51 0 0 -
Lập trình R trong phân tích dữ liệu
13 trang 30 0 0 -
8 trang 27 0 0
-
Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng
12 trang 26 0 0 -
Bài giảng Lập trình cho khoa học dữ liệu - Bài 11: Một số mô hình học máy
59 trang 24 0 0 -
Bài giảng Lập trình cho khoa học dữ liệu - Bài 2: Lập trình căn bản với Python
26 trang 22 0 0 -
Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu
48 trang 22 0 0