Tổng quan về khoa học dữ liệu
Số trang: 8
Loại file: pdf
Dung lượng: 1.03 MB
Lượt xem: 19
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Khoa học dữ liệu là một lĩnh vực nghiên cứu mới xuất hiện thời gian gần đây. Cùng với sự phát triển không ngừng của các kho dữ liệu lớn trên khắp thế giới, ngành rút trích và phân tích dữ liệu đang trở nên ngày càng quan trọng hơn. Thông tin và tri thức có được từ dữ liệu lớn đang giúp ích cho rất nhiều công ty và tổ chức trên thế giới. Bài viết giới thiệu những khái niệm cơ bản về Khoa học dữ liệu, các phương pháp được sử dụng và tương lai phát triển của lĩnh vực này.
Nội dung trích xuất từ tài liệu:
Tổng quan về khoa học dữ liệuNGHIÊN CỨU - TRAO ĐỔITỔNG QUAN VỀ KHOA HỌC DỮ LIỆUThS Nguyễn Danh Minh TríTrường ĐHKHXH&NV - ĐHQG Tp. Hồ Chí MinhTóm tắt: Khoa học dữ liệu là một lĩnh vực nghiên cứu mới xuất hiện thời gian gần đây. Cùngvới sự phát triển không ngừng của các kho dữ liệu lớn trên khắp thế giới, ngành rút trích và phân tíchdữ liệu đang trở nên ngày càng quan trọng hơn. Thông tin và tri thức có được từ dữ liệu lớn đang giúpích cho rất nhiều công ty và tổ chức trên thế giới. Bài viết giới thiệu những khái niệm cơ bản về Khoahọc dữ liệu, các phương pháp được sử dụng và tương lai phát triển của lĩnh vực này.Từ khóa: Khoa học dữ liệu; hồi quy; dữ liệu; khai thác dữ liệu; thống kê; mô hình thống kê.Overview on data scienceAbstract: Data science is an emerging research field. With the development of Big Datastorages all over the world, data retrival and analysis is proved to play a more and more importantrole. Information and knowledge from Big Data is very helpful for many companies and organizationsin the world. The article introduces definitions, methodologies and future of data science.Keywords: Data science; regression; data utilization; statistics; statistical model.Mở đầuDữ liệu đóng một vai trò rất quan trọngtrong việc vận hành, ứng dụng cũng nhưlưu trữ thông tin của người dùng. Ngày nay,cùng với sự phát triển không ngừng củanhân loại, lượng dữ liệu được phát sinh làvô cùng lớn. Ý nghĩa của những tri thức cóđược từ dữ liệu là nền tảng cực kỳ hữu íchcho các hệ thống ra quyết định và hỗ trợcuộc sống. Ngày nay, hầu hết các công tyvà tập đoàn lớn đều đã có những đội ngũ,chuyên gia phân tích dữ liệu của riênghọ. Có thể kể đến trong danh sách này làGoogle, Facebook, Yahoo, Youtube,... Sựthành công của các công ty và tổ chức trênthế giới ngày nay đều ít nhiều có liên quanvới ngành Khoa học dữ liệu (KHDL). KHDLđang lan rộng ảnh hưởng của nó và manglại ý nghĩa ngày càng quan trọng hơn đối với16 THÔNG TIN VÀ TƯ LIỆU - 6/2018đời sống con người.1. Khái niệm về Khoa học dữ liệu1.1. Lịch sử của Khoa học dữ liệuTrong khoảng hơn 30 năm (1960-1996),thuật ngữ “Khoa học dữ liệu” (data science)đã được sử dụng trong nhiều tài liệu nóivề các phương pháp tính toán. Đến tháng11/1997, thuật ngữ KHDL mới được dùngchính thức bởi một nhà nghiên cứu tên làChien-Fu Jeff Wu. Trong bài thuyết trìnhmang tên “Statistics = Data Science?” tạiĐại học Michigan, Chien-Fu Jeff Wu đãphổ biến thuật ngữ Khoa học dữ liệu vànói rằng thống kê nên được đổi tên thànhKHDL và nhà thống kê thành nhà KHDL vìhọ đã dành phần lớn thời gian của mình đểthao tác và thử nghiệm với dữ liệu [4].Năm 2001, William S. Cleveland đãNGHIÊN CỨU - TRAO ĐỔIgiới thiệu KHDL như là một ngành độc lập.Đến tháng 4/2002, International Councilfor Science cho ra đời Tạp chí KHDL, mộtấn phẩm tập trung vào các vấn đề như môtả hệ thống dữ liệu, ấn phẩm của họ trêninternet, các ứng dụng và các vấn đề pháplý. Vào tháng 01/2003, Đại học Columbiabắt đầu xuất bản Tạp chí KHDL, nhằmcung cấp một công cụ cho tất cả nhân viêndữ liệu trình bày quan điểm của mình vàtrao đổi ý kiến. Đến năm 2008, DJ Patil vàJeff Hammerbacher mới sử dụng thuật ngữ“nhà KHDL” để xác định công việc của họtại LinkedIn và Facebook. [4].Năm 2013, Nhóm công tác của IEEE vềKHDL và Phân tích nâng cao đã được đưara, và hội nghị quốc tế đầu tiên về KHDLvà Phân tích nâng cao của IEEE đã đượctổ chức vào năm 2014. Năm 2015, Tạp chíQuốc tế về KHDL và Phân tích đã được lậpbởi Springer để xuất bản tác phẩm ban đầuvề KHDL và phân tích dữ liệu lớn. KHDLvẫn còn được xem là một khái niệm mới,và nó chỉ mới thật sự xuất hiện vào nhữngthập niên đầu thế kỷ 21.1.2. Khoa học dữ liệu và các khái niệmliên quanKHDL là một lĩnh vực nghiên cứu mớixuất hiện thời gian gần đây. Như tên gọi củanó, KHDL là một ngành khoa học nghiêncứu về dữ liệu. Điều này nhấn mạnh đốitượng nghiên cứu chính của ngành là dữliệu. Dữ liệu rất đa dạng và có khối lượng,tốc độ phát sinh rất lớn do nhu cầu pháttriển của các ứng dụng và cuộc sống conngười. Dữ liệu có thể đến từ mọi nơi, mọilĩnh vực trong cuộc sống chúng ta [8]. Dovậy, ở góc độ chuyên ngành, KHDL là mộtlĩnh vực nghiên cứu liên ngành vì nó khảosát rất nhiều loại dữ liệu đến từ các lĩnh vựcchuyên ngành khác nhau, về các quá trìnhvà các hệ thống rút trích tri thức hoặc hiểubiết từ dữ liệu ở các dạng khác nhau (cócấu trúc hay phi cấu trúc) và nó là sự tiếpnối của một số lĩnh vực phân tích dữ liệunhư khoa học thống kê, khai thác dữ liệu,tương tự như khám phá tri thức ở các cơ sởdữ liệu (KDD) [5].Mục tiêu chính của ngành KHDL là đểcó được cái nhìn sâu hơn vào dữ liệu và tạora những điều hữu ích cho cuộc sống conngười. Thông qua quá trình tiếp nhận, phântích các đặc tính và rút được các kết quả từdữ liệu sẽ hỗ trợ chúng ta trong việc đưa racác quyết định, các dự đoán tốt hơn cho cáchệ thống. Quá trình nghiên cứu KHDL cầnsự hỗ trợ của các phương pháp tín ...
Nội dung trích xuất từ tài liệu:
Tổng quan về khoa học dữ liệuNGHIÊN CỨU - TRAO ĐỔITỔNG QUAN VỀ KHOA HỌC DỮ LIỆUThS Nguyễn Danh Minh TríTrường ĐHKHXH&NV - ĐHQG Tp. Hồ Chí MinhTóm tắt: Khoa học dữ liệu là một lĩnh vực nghiên cứu mới xuất hiện thời gian gần đây. Cùngvới sự phát triển không ngừng của các kho dữ liệu lớn trên khắp thế giới, ngành rút trích và phân tíchdữ liệu đang trở nên ngày càng quan trọng hơn. Thông tin và tri thức có được từ dữ liệu lớn đang giúpích cho rất nhiều công ty và tổ chức trên thế giới. Bài viết giới thiệu những khái niệm cơ bản về Khoahọc dữ liệu, các phương pháp được sử dụng và tương lai phát triển của lĩnh vực này.Từ khóa: Khoa học dữ liệu; hồi quy; dữ liệu; khai thác dữ liệu; thống kê; mô hình thống kê.Overview on data scienceAbstract: Data science is an emerging research field. With the development of Big Datastorages all over the world, data retrival and analysis is proved to play a more and more importantrole. Information and knowledge from Big Data is very helpful for many companies and organizationsin the world. The article introduces definitions, methodologies and future of data science.Keywords: Data science; regression; data utilization; statistics; statistical model.Mở đầuDữ liệu đóng một vai trò rất quan trọngtrong việc vận hành, ứng dụng cũng nhưlưu trữ thông tin của người dùng. Ngày nay,cùng với sự phát triển không ngừng củanhân loại, lượng dữ liệu được phát sinh làvô cùng lớn. Ý nghĩa của những tri thức cóđược từ dữ liệu là nền tảng cực kỳ hữu íchcho các hệ thống ra quyết định và hỗ trợcuộc sống. Ngày nay, hầu hết các công tyvà tập đoàn lớn đều đã có những đội ngũ,chuyên gia phân tích dữ liệu của riênghọ. Có thể kể đến trong danh sách này làGoogle, Facebook, Yahoo, Youtube,... Sựthành công của các công ty và tổ chức trênthế giới ngày nay đều ít nhiều có liên quanvới ngành Khoa học dữ liệu (KHDL). KHDLđang lan rộng ảnh hưởng của nó và manglại ý nghĩa ngày càng quan trọng hơn đối với16 THÔNG TIN VÀ TƯ LIỆU - 6/2018đời sống con người.1. Khái niệm về Khoa học dữ liệu1.1. Lịch sử của Khoa học dữ liệuTrong khoảng hơn 30 năm (1960-1996),thuật ngữ “Khoa học dữ liệu” (data science)đã được sử dụng trong nhiều tài liệu nóivề các phương pháp tính toán. Đến tháng11/1997, thuật ngữ KHDL mới được dùngchính thức bởi một nhà nghiên cứu tên làChien-Fu Jeff Wu. Trong bài thuyết trìnhmang tên “Statistics = Data Science?” tạiĐại học Michigan, Chien-Fu Jeff Wu đãphổ biến thuật ngữ Khoa học dữ liệu vànói rằng thống kê nên được đổi tên thànhKHDL và nhà thống kê thành nhà KHDL vìhọ đã dành phần lớn thời gian của mình đểthao tác và thử nghiệm với dữ liệu [4].Năm 2001, William S. Cleveland đãNGHIÊN CỨU - TRAO ĐỔIgiới thiệu KHDL như là một ngành độc lập.Đến tháng 4/2002, International Councilfor Science cho ra đời Tạp chí KHDL, mộtấn phẩm tập trung vào các vấn đề như môtả hệ thống dữ liệu, ấn phẩm của họ trêninternet, các ứng dụng và các vấn đề pháplý. Vào tháng 01/2003, Đại học Columbiabắt đầu xuất bản Tạp chí KHDL, nhằmcung cấp một công cụ cho tất cả nhân viêndữ liệu trình bày quan điểm của mình vàtrao đổi ý kiến. Đến năm 2008, DJ Patil vàJeff Hammerbacher mới sử dụng thuật ngữ“nhà KHDL” để xác định công việc của họtại LinkedIn và Facebook. [4].Năm 2013, Nhóm công tác của IEEE vềKHDL và Phân tích nâng cao đã được đưara, và hội nghị quốc tế đầu tiên về KHDLvà Phân tích nâng cao của IEEE đã đượctổ chức vào năm 2014. Năm 2015, Tạp chíQuốc tế về KHDL và Phân tích đã được lậpbởi Springer để xuất bản tác phẩm ban đầuvề KHDL và phân tích dữ liệu lớn. KHDLvẫn còn được xem là một khái niệm mới,và nó chỉ mới thật sự xuất hiện vào nhữngthập niên đầu thế kỷ 21.1.2. Khoa học dữ liệu và các khái niệmliên quanKHDL là một lĩnh vực nghiên cứu mớixuất hiện thời gian gần đây. Như tên gọi củanó, KHDL là một ngành khoa học nghiêncứu về dữ liệu. Điều này nhấn mạnh đốitượng nghiên cứu chính của ngành là dữliệu. Dữ liệu rất đa dạng và có khối lượng,tốc độ phát sinh rất lớn do nhu cầu pháttriển của các ứng dụng và cuộc sống conngười. Dữ liệu có thể đến từ mọi nơi, mọilĩnh vực trong cuộc sống chúng ta [8]. Dovậy, ở góc độ chuyên ngành, KHDL là mộtlĩnh vực nghiên cứu liên ngành vì nó khảosát rất nhiều loại dữ liệu đến từ các lĩnh vựcchuyên ngành khác nhau, về các quá trìnhvà các hệ thống rút trích tri thức hoặc hiểubiết từ dữ liệu ở các dạng khác nhau (cócấu trúc hay phi cấu trúc) và nó là sự tiếpnối của một số lĩnh vực phân tích dữ liệunhư khoa học thống kê, khai thác dữ liệu,tương tự như khám phá tri thức ở các cơ sởdữ liệu (KDD) [5].Mục tiêu chính của ngành KHDL là đểcó được cái nhìn sâu hơn vào dữ liệu và tạora những điều hữu ích cho cuộc sống conngười. Thông qua quá trình tiếp nhận, phântích các đặc tính và rút được các kết quả từdữ liệu sẽ hỗ trợ chúng ta trong việc đưa racác quyết định, các dự đoán tốt hơn cho cáchệ thống. Quá trình nghiên cứu KHDL cầnsự hỗ trợ của các phương pháp tín ...
Tìm kiếm theo từ khóa liên quan:
Khoa học dữ liệu Khai thác dữ liệu Lịch sử của khoa học dữ liệu Các chủ điểm chính trong khoa học dữ liệu Sơ đồ Venn về Khoa học dữ liệu Môi trường R hỗ trợ khoa học dữ liệuGợi ý tài liệu liên quan:
-
Bài giảng Lập trình cho khoa học dữ liệu - Bài 3: Các thao tác cơ bản trong Python
21 trang 94 0 0 -
Bài giảng Lập trình cho khoa học dữ liệu - Bài 7: Thư viện numpy
28 trang 77 0 0 -
5 quan điểm cơ bản về khoa học dữ liệu
4 trang 55 0 0 -
Bài giảng Trí tuệ nhân tạo dành cho mọi người - ThS. Nguyễn Ngọc Tú
149 trang 51 0 0 -
Hệ quyết định nhất quán và luật quan trọng
6 trang 42 0 0 -
Lưu trữ và thư viện số - Nền tảng xây dựng nhân văn số thức
8 trang 37 0 0 -
Tổng quan về lợi ích và hạn chế của khai thác dữ liệu trong nghiên cứu giáo dục
3 trang 36 0 0 -
Lập trình R trong phân tích dữ liệu
13 trang 30 0 0 -
So sánh hiệu suất các thuật toán HAUIM
18 trang 29 0 0 -
Tự học Microsoft excel 2010 cơ bản
250 trang 28 0 0