Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng
Số trang: 12
Loại file: pdf
Dung lượng: 547.90 KB
Lượt xem: 27
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết "Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng" giúp bạn tìm hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng nhiều phương pháp thống kê và thuật toán máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thống kê và khoa học máy tính. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng NGÀNH KHOA HỌC DỮ LIỆU: NHU CẦU VÀ KỸ NĂNG Nguyễn Thanh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing Email: nt.truong@ufm.edu.vnTóm tắt: Việc sử dụng thuật ngữ khoa học dữ liệu ngày càng phổ biến, cũng như dữ liệu lớn.Nhưng nó có nghĩa gì? Có điều gì độc đáo về nó? Những kỹ năng nhà khoa học dữ liệu cần để làmviệc hiệu quả trong một thế giới bị che khuất bởi dữ liệu? Tìm hiểu khoa học có những tác động gì? Lànhững câu hỏi thường đặt ra gần đây. Các nhà khoa học dữ liệu thường đóng vai trò là nhà tư vấnđược thuê bởi các công ty nơi họ tham gia vào các quá trình ra quyết định khác nhau và tạo ra cácchiến lược. Nói cách khác, Nhà khoa học dữ liệu sử dụng những hiểu biết sâu sắc có ý nghĩa từ dữliệu để hỗ trợ các công ty đưa ra các quyết định kinh doanh thông minh hơn. Từ khóa: Khoa học dữ liệu, data Science, phân tích dữ liệu, data analytics1. GIỚI THIỆU Khoa học dữ liệu (KHDL) là khoa học về việc quản trị và phân tích dữ liệu để tìm racác hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. KHDL gồm baphần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thànhgiá trị của hành động. Nôm na bước thứ nhất là về số hóa và bước thứ hai là về dùng dữliệu. Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toánhọc), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể. “Khoa học dữ liệu là về khai thác, chuẩn bị, phân tích, trực quan hóa và duy trì thôngtin. Đây là một lĩnh vực liên ngành sử dụng các phương pháp và quy trình khoa học để rútra những hiểu biết sâu sắc từ dữ liệu”. Hình 1: Các khối kiến thức liên quan đên Khoa học dữ liệu 306 Với sự xuất hiện của các công nghệ mới, dữ liệu đã tăng lên theo cấp số nhân. Điềunày đã tạo cơ hội để phân tích và rút ra những hiểu biết sâu sắc có ý nghĩa từ dữ liệu. Nó đòi hỏi kiến thức chuyên môn đặc biệt của một ‘Nhà khoa học dữ liệu’, người cóthể sử dụng các công cụ thống kê & máy học khác nhau để hiểu và phân tích dữ liệu. MộtNhà Khoa học Dữ liệu, chuyên về Khoa học Dữ liệu, không chỉ phân tích dữ liệu mà cònsử dụng các thuật toán học máy để dự đoán các sự kiện xảy ra trong tương lai. Do đó, chúng ta có thể hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xửlý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng nhiều phương pháp thốngkê và thuật toán máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thốngkê và khoa học máy tính.2. MỘT SỐ KHÓ KHĂN KHI HỌC TẬP VÀ NGHIÊN CỨU KHOA HỌC DỮ LIỆU Hình 2:Vị trí của ngành Khoa học dữ liệu Kỹ năng Kỹ năng máy học đang nhanh chóng trở nên cần thiết đối với các nhà khoa học dữliệu khi các công ty điều hướng cơn bão dữ liệu và cố gắng xây dựng các hệ thống quyếtđịnh tự động dựa trên độ chính xác của dự đoán. Một khóa học cơ bản về máy học là cầnthiết trong thị trường ngày nay. Ngoài ra, kiến thức về xử lý văn bản và khai thác văn bảnđang trở nên cần thiết trước sự bùng nổ của văn bản và dữ liệu phi cấu trúc khác trong cáchệ thống chăm sóc sức khỏe, mạng xã hội và các diễn đàn khác. Kiến thức về các ngôn ngữ 307đánh dấu như XML và các dẫn xuất của nó cũng rất cần thiết, vì nội dung được gắn thẻ vàdo đó có thể được máy tính thông dịch tự động. Kiến thức của các nhà khoa học dữ liệu về học máy phải xây dựng dựa trên các kỹnăng cơ bản hơn thuộc ba lớp rộng: Thứ nhất là thống kê, đặc biệt là thống kê Bayes, đòihỏi kiến thức làm việc về xác suất, phân phối, kiểm tra giả thuyết và phân tích đa biến. Nócó thể được mua trong một trình tự hai hoặc ba khóa học. Phân tích đa biến thường trùnglặp với kinh tế lượng, liên quan đến việc điều chỉnh các mô hình thống kê mạnh mẽ với dữliệu kinh tế. Không giống như các phương pháp học máy, không đưa ra hoặc có ít giả địnhvề dạng hàm của mối quan hệ giữa các biến, phân tích đa biến và kinh tế lượng tập trungnhiều vào việc ước lượng các tham số của mô hình tuyến tính, trong đó mối quan hệ giữacác biến phụ thuộc và độc lập được biểu thị dưới dạng bình đẳng tuyến tính. Lớp kỹ năng thứ hai đến từ khoa học máy tính và liên quan đến cách dữ liệu đượctrình bày và thao tác bên trong bởi máy tính. Điều này liên quan đến một chuỗi các khóahọc về cấu trúc dữ liệu, thuật toán và hệ thống, bao gồm tính toán phân tán, cơ sở dữ liệu,tính toán song song và tính toán chịu lỗi. Cùng với các ngôn ngữ kịch bản (chẳng hạn nhưPython và Perl), các kỹ năng hệ thống là nền tảng cơ bản cần thiết để xử lý các tập dữ liệucó kích thước hợp lý. ...
Nội dung trích xuất từ tài liệu:
Ngành Khoa học dữ liệu: Nhu cầu và kỹ năng NGÀNH KHOA HỌC DỮ LIỆU: NHU CẦU VÀ KỸ NĂNG Nguyễn Thanh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính - Marketing Email: nt.truong@ufm.edu.vnTóm tắt: Việc sử dụng thuật ngữ khoa học dữ liệu ngày càng phổ biến, cũng như dữ liệu lớn.Nhưng nó có nghĩa gì? Có điều gì độc đáo về nó? Những kỹ năng nhà khoa học dữ liệu cần để làmviệc hiệu quả trong một thế giới bị che khuất bởi dữ liệu? Tìm hiểu khoa học có những tác động gì? Lànhững câu hỏi thường đặt ra gần đây. Các nhà khoa học dữ liệu thường đóng vai trò là nhà tư vấnđược thuê bởi các công ty nơi họ tham gia vào các quá trình ra quyết định khác nhau và tạo ra cácchiến lược. Nói cách khác, Nhà khoa học dữ liệu sử dụng những hiểu biết sâu sắc có ý nghĩa từ dữliệu để hỗ trợ các công ty đưa ra các quyết định kinh doanh thông minh hơn. Từ khóa: Khoa học dữ liệu, data Science, phân tích dữ liệu, data analytics1. GIỚI THIỆU Khoa học dữ liệu (KHDL) là khoa học về việc quản trị và phân tích dữ liệu để tìm racác hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động. KHDL gồm baphần chính: Tạo ra và quản trị dữ liệu, phân tích dữ liệu, và chuyển kết quả phân tích thànhgiá trị của hành động. Nôm na bước thứ nhất là về số hóa và bước thứ hai là về dùng dữliệu. Việc phân tích và dùng dữ liệu lại dựa vào ba nguồn tri thức: toán học (thống kê toánhọc), công nghệ thông tin (máy học) và tri thức của lĩnh vực ứng dụng cụ thể. “Khoa học dữ liệu là về khai thác, chuẩn bị, phân tích, trực quan hóa và duy trì thôngtin. Đây là một lĩnh vực liên ngành sử dụng các phương pháp và quy trình khoa học để rútra những hiểu biết sâu sắc từ dữ liệu”. Hình 1: Các khối kiến thức liên quan đên Khoa học dữ liệu 306 Với sự xuất hiện của các công nghệ mới, dữ liệu đã tăng lên theo cấp số nhân. Điềunày đã tạo cơ hội để phân tích và rút ra những hiểu biết sâu sắc có ý nghĩa từ dữ liệu. Nó đòi hỏi kiến thức chuyên môn đặc biệt của một ‘Nhà khoa học dữ liệu’, người cóthể sử dụng các công cụ thống kê & máy học khác nhau để hiểu và phân tích dữ liệu. MộtNhà Khoa học Dữ liệu, chuyên về Khoa học Dữ liệu, không chỉ phân tích dữ liệu mà cònsử dụng các thuật toán học máy để dự đoán các sự kiện xảy ra trong tương lai. Do đó, chúng ta có thể hiểu Khoa học dữ liệu là một lĩnh vực liên quan đến việc xửlý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng nhiều phương pháp thốngkê và thuật toán máy tính khác nhau. Nó là một lĩnh vực đa ngành kết hợp toán học, thốngkê và khoa học máy tính.2. MỘT SỐ KHÓ KHĂN KHI HỌC TẬP VÀ NGHIÊN CỨU KHOA HỌC DỮ LIỆU Hình 2:Vị trí của ngành Khoa học dữ liệu Kỹ năng Kỹ năng máy học đang nhanh chóng trở nên cần thiết đối với các nhà khoa học dữliệu khi các công ty điều hướng cơn bão dữ liệu và cố gắng xây dựng các hệ thống quyếtđịnh tự động dựa trên độ chính xác của dự đoán. Một khóa học cơ bản về máy học là cầnthiết trong thị trường ngày nay. Ngoài ra, kiến thức về xử lý văn bản và khai thác văn bảnđang trở nên cần thiết trước sự bùng nổ của văn bản và dữ liệu phi cấu trúc khác trong cáchệ thống chăm sóc sức khỏe, mạng xã hội và các diễn đàn khác. Kiến thức về các ngôn ngữ 307đánh dấu như XML và các dẫn xuất của nó cũng rất cần thiết, vì nội dung được gắn thẻ vàdo đó có thể được máy tính thông dịch tự động. Kiến thức của các nhà khoa học dữ liệu về học máy phải xây dựng dựa trên các kỹnăng cơ bản hơn thuộc ba lớp rộng: Thứ nhất là thống kê, đặc biệt là thống kê Bayes, đòihỏi kiến thức làm việc về xác suất, phân phối, kiểm tra giả thuyết và phân tích đa biến. Nócó thể được mua trong một trình tự hai hoặc ba khóa học. Phân tích đa biến thường trùnglặp với kinh tế lượng, liên quan đến việc điều chỉnh các mô hình thống kê mạnh mẽ với dữliệu kinh tế. Không giống như các phương pháp học máy, không đưa ra hoặc có ít giả địnhvề dạng hàm của mối quan hệ giữa các biến, phân tích đa biến và kinh tế lượng tập trungnhiều vào việc ước lượng các tham số của mô hình tuyến tính, trong đó mối quan hệ giữacác biến phụ thuộc và độc lập được biểu thị dưới dạng bình đẳng tuyến tính. Lớp kỹ năng thứ hai đến từ khoa học máy tính và liên quan đến cách dữ liệu đượctrình bày và thao tác bên trong bởi máy tính. Điều này liên quan đến một chuỗi các khóahọc về cấu trúc dữ liệu, thuật toán và hệ thống, bao gồm tính toán phân tán, cơ sở dữ liệu,tính toán song song và tính toán chịu lỗi. Cùng với các ngôn ngữ kịch bản (chẳng hạn nhưPython và Perl), các kỹ năng hệ thống là nền tảng cơ bản cần thiết để xử lý các tập dữ liệucó kích thước hợp lý. ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội thảo khoa học Hội thảo Phân tích - quản trị dữ liệu thông minh Ngành Khoa học dữ liệu Khoa học dữ liệu Quyết định kinh doanh thông minh Ngôn ngữ đánh dấu XMLGợi ý tài liệu liên quan:
-
Yếu tố nhận diện người thứ ba ngay tình trong giao dịch dân sự
11 trang 315 0 0 -
197 trang 275 0 0
-
Cách tính nhanh giá trị riêng của ma trận vuông cấp 2 và cấp 3
4 trang 269 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 256 0 0 -
Quản lý dữ liệu thông tin người hưởng bảo hiểm xã hội
6 trang 224 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 219 0 0 -
11 trang 205 0 0
-
Phương pháp nhận diện biển số xe ô tô sử dụng học máy và thư viện OpenCV
6 trang 203 0 0 -
Nghi thức chào hỏi trong văn hóa giao tiếp của người Nhật
13 trang 157 0 0 -
Một số ứng dụng của xác suất thống kê
5 trang 143 0 0