Danh mục

Lập trình R trong phân tích dữ liệu

Số trang: 13      Loại file: pdf      Dung lượng: 666.26 KB      Lượt xem: 31      Lượt tải: 0    
10.10.2023

Phí tải xuống: 1,000 VND Tải xuống file đầy đủ (13 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết "Lập trình R trong phân tích dữ liệu" tìm hiểu cách thức hoạt động và lập trình trên ngôn ngữ R để tiếp cận cách thao tác trên tập dữ liệu. Phân tích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khác nhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Lập trình R trong phân tích dữ liệu LẬP TRÌNH R TRONG PHÂN TÍCH DỮ LIỆU Nguyễn Thanh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing Email: nt.truong@ufm.edu.vnTóm tắt: : Ngành Khoa học dữ liệu là lĩnh vực nghiên cứu về việc quản trị và phân tích dữ liệu, từ đótìm ra cách hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. Ngành Khoa học dữliệu là ngành gồm 3 phần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, chuyển kết quả phân tíchđánh giá. Phân tích dữ liệu (data analytics) là một quá trình kiểm tra, làm sạch, chuyển đổi và mô hìnhhóa dữ liệu với mục tiêu khám phá thông tin hữu ích, đưa ra kết luận và hỗ trợ việc ra quyết định. Phântích dữ liệu có nhiều khía cạnh và cách tiếp cận, bao gồm các kỹ thuật đa dạng dưới nhiều tên gọi khácnhau và được sử dụng trong các lĩnh vực kinh doanh, khoa học và khoa học xã hội khác nhau. Trongbài này, tác giả sẽ tìm hiểu cách thức hoạt động và lập trình trên ngôn ngữ R để tiếp cận cách thao táctrên tập dữ liệu. Từ khóa: Data analytics, data science, programming r, phân tích dữ liệu, khoa học dữ liệu, lậptrình R1. GIỚI THIỆU Các nhà khoa học dữ liệu thường đóng vai trò là nhà tư vấn được thuê bởi các côngty nơi họ tham gia vào các quá trình ra quyết định khác nhau và tạo ra chiến lược. Nói cáchkhác, nhà khoa học dữ liệu sử dụng những hiểu biết sâu sắc có ý nghĩa từ dữ liệu để hỗ trợcác công ty đưa ra các quyết định kinh doanh thông minh hơn. Hiện nay tại Việt Nam đã có nhiều trường đạihọc đào tạo ngành khoa học dữ liệu như: Đại HọcCông Nghệ Thông Tin – Đại Học Quốc Gia TPHCM,Đại Học Khoa Học Tự Nhiên – Đại Học Quốc GiaTPHCM, Đại Học Kinh Tế Quốc Dân, Đại Học KinhTế TPHCM, Đại Học Kinh Tế -Tài Chính TPHCM,Đại học Công Nghệ TPHCM, Đại Học Dân Lập VănLang,… cho thấy xu hướng ngày càng cao của ngànhkhoa học dữ liệu. Trong xu hướng đó, chúng ta nên tìm hiểu cách thức hoạt động và cách làm việc củamột vài công cụ trong phân tích dữ liệu. Đối với người làm ngành công nghệ thông tin thì 223đây cũng là một ngành mới, vì nó là sự giao thoa của 3 lĩnh vực: Khoa học máy tính –Thống kê – Chuyên môn ngành. Trong đó phân tích dữ liệu đóng vai trò quan trọng giúp các nhà quản lý, kinh doanhthống kê, dự báo được các số liệu nhằm hoạch định kê hoạch giúp cho công tác quản lý vàkinh doanh phát triển hơn nhất là trong cuộc cách mạng công nghiệp lần thứ 4, ai nắm bắtđược thông tin, dữ liệu và dự báo có thể giúp rất nhiều cho hiện tại và tương lai..2. SƠ LƯỢC CÁC CÔNG CỤ PHÂN TÍCH DỮ LIỆU Các công cụ phân tích dữ liệu có thể chia làm 2 nhóm: - Nhóm công cụ thao tác trên giao diện là chính, nhóm này dành cho người dùng ít hoặc không thuộc nhóm ngành liên quan đến công nghệ thông tin như: các nhà kinh tế, các nhà thống kê, … - Nhóm khác là các ngôn ngữ lập trình để thao tác dữ liệu, nhóm này đòi hỏi người dùng có chút ít kiến thức về lập trình như các nhà toán học, công nghệ thông tin,…2.1. Các công cụ phân tích dữ liệu2.1.1. Tableau Public Tableau Public là một phần mềm miễn phí kết nối bất kỳ nguồn dữ liệu nào có thể là Kho dữ liệu của công ty, Microsoft Excel hoặc dữ liệu dựa trên web và tạo trực quan hóa dữ liệu, bản đồ, bảng điều khiển,v.v. với các bản cập nhật theo thời gian thực hiển thị trên web. Chúng cũng có thể đượcchia sẻ thông qua phương tiện truyền thông xã hội hoặc với khách hàng. Nó cho phép truycập để tải xuống tập tin ở các định dạng khác nhau. Nếu muốn thấy sức mạnh của hoạtcảnh, thì chúng ta phải có nguồn dữ liệu rất tốt. Khả năng Dữ liệu lớn của Tableau khiếnchúng trở nên quan trọng và người dùng có thể phân tích và trực quan hóa dữ liệu tốt hơnbất kỳ phần mềm trực quan hóa dữ liệu nào khác trên thị trường.2.1.2. SAS SAS (trước đây là “Statistical Analysis System - Hệ thống Phân tích Thống kê) là một bộ phần mềm thống kê được phát triển bởi Viện SASđể quản lý dữ liệu, phân tích nâng cao, phân tích đa biến, kinh doanh tình báo, điều tra tộiphạm, và phân tích dự đoán. 224 Tính đến năm 2011, bộ sản phẩm lớn nhất của SAS là dòng sản phẩm dành cho kháchhàng thông minh. Nhiều mô-đun SAS dành cho web, mạng xã hội và phân tích tiếp thị cóthể được sử dụng để lập hồ sơ khách hàng và khách hàng tiềm năng, dự đoán hành vi củahọ cũng như quản lý và tối ưu hóa thông tin liên lạc. SAS cũng cung cấp khung gian lậnSAS. Chức năng chính của khung là giám sát các giao dịch trên các ứng dụng, mạng và đốitác khác nhau và sử dụng phân tích để xác định các điểm bất thường có ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: