Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện Pandas

Số trang: 41 Loại file: pdf Dung lượng: 974.50 KB Lượt xem: 15 Lượt tải: 0

Jamona

Phí lưu trữ: 10,000 VND

Xem trước 5 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện Pandas cung cấp cho người học những kiến thức như: Giới thiệu và cài đặt pandas; Cấu trúc dữ liệu trong pandas; Làm việc với series; Làm việc với dataframe; Làm việc với panel; Chọn và nhóm phần tử. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Bài giảng Lập trình cho khoa học dữ liệu - Bài 9: Thư viện PandasLOGOLẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài 9. Thư viện Pandas Nội dung 1 Giới thiệu vàcài đặt pandas 2 Cấu trúc dữ liệu trong pandas 3 Làmviệc với series 4 Làmviệc với dataframe 5 Làm việc với panel 6 Chọn và nhóm phần tử2 Giới thiệu Pandas▪ “pandas” là thư viện mở rộng từnumpy, chuyên để xử lý dữ liệu cấu trúc dạngbảng▪ Tên “pandas” là dạng số nhiều của “panel data”3 Giới thiệu Pandas Đặc điểm nổi bật của pandas▪ Đọc dữ liệu từ nhiều định dạng▪ Liên kết dữ liệu và tích hợp xử lý dữ liệu bịthiếu▪ Xoay và chuyển đổi chiều của dữ liệu dễ dàng▪ Tách, đánh chỉ mục và chia nhỏ các tập dữ liệu lớn dựa trên nhãn▪ Có thể nhóm dữ liệu cho các mục đích hợp nhất và chuyển đổi▪ Lọc dữ liệu và thực hiện query trên dữliệu▪ Xử lý dữ liệu chuỗi thời gian và lấy mẫu4 Cấu trúc dữ liệu trong pandas▪ Dữ liệu của pandas có 3 cấu trúc chính: ▪ Series (loạt): cấu trúc 1 chiều, mảng dữ liệu đồngnhất ▪ Dataframe (khung): cấu trúc 2 chiều, dữ liệu trên các cột là đồng nhất (có phần giống như table trong SQL, nhưng với các dòng được đặt tên) ▪ Panel (bảng): cấu trúc 3 chiều, có thể xem như một tập các dataframe với thông tin bổsung▪ Dữ liệu series gần giống kiểu array trong numpy, nhưng có 2 điểm khác biệt quantrọng: ▪ Chấp nhận dữ liệu thiếu (NaN – không xácđịnh) ▪ Hệ thống chỉ mục phong phú (giốngdictionary?)5 Cấu trúc dữ liệu trong pandas Cấu trúc dataframe▪ Dữ liệu 2 chiều▪ Các cột cótên▪ Dữ liệu trên cột là đồng nhất(series?)▪ Các dòng có thể cótên▪ Có thể có ô thiếu dữ liệu6 Cấu trúc dữ liệu trong pandas Cấu trúc panel▪ Dữ liệu 3 chiều▪ Một tập cácdataframe▪ Các dataframe có cấu trúc tương đồng▪ Có thể có các thôngtin bổ sung cho từng dataframe7 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npS = pd.Series(np.random.randint(100, size =4))print(S) 0 73print(S.index) 1 80print(S.values) 2 4 3 7 dtype: int32 RangeIndex(start=0, stop=4, step=1) [73 80 4 7]8 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npchi_so = [Ke toan, KT, CNTT, Co k h i ]gia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) Ketoan 310print(S) KT 360print(S.index) CNTT 580 Cokhi 340print(S.values) dtype: int64 Index([Ke toan, KT, CNTT, Co k h i ] , dtype=object) [310 360 580 340]9 Làm việc với series Tạo dữ liệu seriesimport pandas as pdimport numpy as npchi_so = [KT, KT, CNTT, Co khi] # trùng nhaugia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) KT 310print(S) KT 360print(S.index) CNTT 580 Cokhi 340print(S.values) dtype: int64 Index([Ke toan, KT, CNTT, Co k h i ] , dtype=object) [310 360 580 340]10 Làm việc với series Truy vấn dữ liệu thông qua chỉ sốimport pandas as pdimport numpy as npchi_so = [KT, KT, CNTT, Co khi] # trùng nhaugia_tri = [310, 360, 580, 340]S = pd.Series(gia_tri, index=chi_so) 340print(S[Co k h i ] ) KT 310print(S[KT]) KT 360print(S.CNTT) dtype: int64 58011 Làm việc với series Phép toán trên seriesimport pandas as pdimport numpy as npchi_so = [Ke toan, KT, CNTT, Co khi]gia_tri = [310, 360, 580, 340]# chỉ số giống nhau t h ì tính gộp, nếu không t h ì N a NS = pd.Series(gia_tri, index=chi_so) CNTT 680.0P= pd.Series([100, 100], [CNTT, PM]) Cokhi NaNY= S +P KT NaNprint(Y) Ke toan NaN PM NaN dtype: float6412 Làm việc với series Phép toán trên series▪ Nguyên tắc chung của việc thực hiện phéptoán t ...