Nền tảng dữ liệu đám mây hiện đại - Sự trỗi dậy của nền tảng lưu trữ dữ liệu Lakehouse
Số trang: 16
Loại file: pdf
Dung lượng: 483.55 KB
Lượt xem: 22
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết "Nền tảng dữ liệu đám mây hiện đại - Sự trỗi dậy của nền tảng lưu trữ dữ liệu Lakehouse" nền tảng kiến trúc dữ liệu mới xuất hiện và liên tục phát triển trong nhiều thập kỷ qua để đáp ứng nhu cầu thực tiễn của các tổ chức khi xây dựng các lợi thế cạnh tranh của mình. Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Nền tảng dữ liệu đám mây hiện đại - Sự trỗi dậy của nền tảng lưu trữ dữ liệu Lakehouse NỀN TẢNG DỮ LIỆU ĐÁM MÂY HIỆN ĐẠI - SỰ TRỖI DẬY CỦA NỀN TÀNG LƯU TRỮ DỮ LIỆU LAKEHOUSE Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Dữ liệu luôn sinh ra và tồn tại trong suốt quá trình hoạt động của tổ chức ở mọi cấp độ vận hành và hoạt động của mình. Sự phát triển của công nghệ đã làm thay đổi mô hình hoạt động cũng như những kế hoạch và chiến lược hoạt động của các tổ chức đã nâng tầm quan trọng của dữ liệu các loại nhằm giúp các tổ chức hiểu rõ mình, đối thủ và khách hàng của mình. Các tổ chức hàng đầu thế giới hiện nay hiểu được tầm quan trọng của việc xây dựng dữ liệu chất lượng cao có thể truy cập được, sử dụng được và có độ tin cậy cao. Các nền tảng kiến trúc dữ liệu mới xuất hiện và liên tục phát triển trong nhiều thập kỷ qua để đáp ứng nhu cầu thực tiễn của các tổ chức khi xây dựng các lợi thế cạnh tranh của mình. Từ khóa: Data, Data warehouse, Data lake, specialized systems, Lake house, on-premise, cloud 1. GIỚI THIỆU Khi dữ liệu trở nên quan trọng với doanh nghiệp, nhu cầu cần biết họ có dữ liệu nào và làm sao để kiếm được tiền từ dữ liệu này, đây chính là nền tảng cho sự phát triển thành công. Điều này cũng đúng với tất cả doanh nghiệp, bất kể là doanh nghiệp công nghệ truyền thống hay không. Nhu cầu này không chỉ quan trọng hơn trong thời gian tới, thậm chí khi dữ liệu được tạo ra và sử dụng nó một cách hiệu quả trở thành một lợi thế cạnh tranh. Việc tập trung tăng số luọng các chuyên gia dữ liệu làm việc chung với nhau thành một đội hoặc thành một cộng đồng để xây dựng dữ liệu của riêng tổ chức đó, vì các chuyên gia dữ liệu làm việc độc lập sẽ không tạo được thành quả. Sự hợp sức giữa các phòng ban chức năng khác nhau trong chia sẻ và đóng góp dữ liệu cũng rất quan trọng. Theo cách truyền thống, các vai trò chính của dữ liệu tồn tại riêng biệt so với 04 lĩnh vực nghề nghiệp về dữ liệu bao gồm : Nhà khoa học dữ liệu, kỹ sư dữ liệu, kiến trúc sư dữ liệu và nhà phân tích dữ liệu. Mặc dù các vai trò này là các thành phần trong một tổ chức nhưng trước đây lại hoàn toàn phụ thuộc vào các bộ công cụ và quy trình khác nhau và làm việc với dữ liệu trong kho dữ liệu riêng biệt. Hình thức tổ chức này khiến cho độ phức tạp 206 và chi phí doanh nghiệp tăng cao, cũng như mất thời gian nhiều hơn và khó khăn hơn để trích xuất ý nghĩa từ dữ liệu khi các chuyên gia về dữ liệu hoạt động riêng lẻ. Ngày nay, các doanh nghiệp hàng đầu coi trọng dữ liệu đang chuyển đổi theo hướng ứng dụng một kiến trúc thống nhất hơn để đáp ứng nhu cầu của các chuyên gia về dữ liệu. 2. TẦM QUAN TRỌNG CỦA NỀN TẢNG ĐÁM MÂY VỚI CÁC DOANH NGHIỆP COI TRỌNG DỮ LIỆU Theo khảo sát của hãng McKinsey vào năm 219 cho thấy các doanh nghiệp có tốc độ tăng trưởng lợi nhuận cao nhất trong 03 năm gần đây nhất đã đóng góp tối thiểu 20% vào sự phát triển trực tiếp các phát minh sáng tạo về dữ liệu của họ. Các doanh nghiệp ăn nên làm ra này sử dụng chiến lược kiềng 03 chân, đầu tiên họ liên kết các chiến lược dài hạn và rõ ràng về dữ liệu. Tiếp theo, họ nuôi dưỡng văn hóa lấy dữ liệu làm trung tâm bằng việc biến dữ liệu thành một phần của công việc của mỗi nhân viên trong doanh nghiệp và đào tạo các nhân viên quản lý dữ liệu đúng cách. Cuối cùng, các doanh nghiệp sử dụng các nền tảng dữ liệu hiện đại để hỗ trợ các hoạt động liên quan đến dữ liệu tại mọi cấp độ công việc. Năm 2020, hãng O’Reilly hợp tác với hãng Databricks thực hiện khảo sát toàn cầu với hơn 3.000 chuyên gia dữ liệu để xác định tình trạng cấu trúc nền tảng dữ liệu đám mây hiện đại. Người trả lời khảo sát được yêu cầu đánh giá cấu trúc nền tảng dữ liệu hiện tại, đặc biệt là các thách thức họ gặp phải và những thách thức này ảnh hưởng thế nào tới doanh nghiệp và đội ngũ chuyên gia dữ liệu tại mỗi doanh nghiệp. Người trả lời khảo sát cũng được yêu cầu đề xuất các tiêu chí được xem là quan trọng khi đánh giá nhiều loại kiến trúc dữ liệu mới. Kết quả của cuộc khảo sát cũng cho thấy 81% người trả lời khảo sát thừa nhận rằng tổ chức của họ chuyển mình để thích nghi với các dịch vụ đám mây và cơ sở hạ tầng của kiến trúc đám mây cho phù hợp với một số chức năng trong tổ chức của mình, điều này cho thấy thế giới dữ liệu đang đắm chìm trong nền tảng đám mây. Chỉ có khoảng 2 trong 10 tổ chức (19%) không chuyển bất kỳ khối lượng dữ liệu nào lên nền tảng đám mây. Kiến trúc nền tảng dữ liệu mà các doanh nghiệp đang sử dụng bao gồm nền tảng lưu trữ dữ liệu tại chỗ hoặc nền tảng lưu trữ dữ liệu trên đám mây hoặc kết hợp cả hai nền tảng này. Kết quả của cuộc khảo sát các doanh nghiệp hiện nay như sau : 1. Kho dữ liệu (Data warehouses) : 57% 2. Hồ dữ liệu (Data lakes) : 53% 3. Hệ thống đặc thù (Specialized systems) : 54% 207 Bao gồm các Hệ quản trị cơ sở dữ liệu đặc thù như SAS ERP và Oracle PeopleSoft hoạt động tại chỗ, còn Salesforce và Workday hoạt động trên nền tảng đám mây. 4. Không áp dụng nền tảng nào : 04% Kết quả trên cho thấy nhiều doanh nghiệp đang vận hành công tác quản lý dữ liệu của mình trên nhiều kiến trúc nền tảng lưu trữ dữ liệu, tất nhiên điều này cũng dẫn đến một số khó khăn như sau : a. Sự phức tạp trong vận hành. Hơn 70% doanh nghiệp thừa nhận rằng việc duy trì cơ sở hạ tầng ổn định và các nơi dữ liệu hoạt động trong môi trường như vậy thực sự là bài toán nan giải, khó khăn. Đây cũng là khó khăn lớn nhất khi vận hành đồng thời nhiều kiến trúc dữ liệu. b. Đảm bảo chất lượng dữ liệu Khi dữ liệu đượ ...
Nội dung trích xuất từ tài liệu:
Nền tảng dữ liệu đám mây hiện đại - Sự trỗi dậy của nền tảng lưu trữ dữ liệu Lakehouse NỀN TẢNG DỮ LIỆU ĐÁM MÂY HIỆN ĐẠI - SỰ TRỖI DẬY CỦA NỀN TÀNG LƯU TRỮ DỮ LIỆU LAKEHOUSE Bùi Mạnh Trường Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email bmtruong@ufm.edu.vn Tóm tắt: Dữ liệu luôn sinh ra và tồn tại trong suốt quá trình hoạt động của tổ chức ở mọi cấp độ vận hành và hoạt động của mình. Sự phát triển của công nghệ đã làm thay đổi mô hình hoạt động cũng như những kế hoạch và chiến lược hoạt động của các tổ chức đã nâng tầm quan trọng của dữ liệu các loại nhằm giúp các tổ chức hiểu rõ mình, đối thủ và khách hàng của mình. Các tổ chức hàng đầu thế giới hiện nay hiểu được tầm quan trọng của việc xây dựng dữ liệu chất lượng cao có thể truy cập được, sử dụng được và có độ tin cậy cao. Các nền tảng kiến trúc dữ liệu mới xuất hiện và liên tục phát triển trong nhiều thập kỷ qua để đáp ứng nhu cầu thực tiễn của các tổ chức khi xây dựng các lợi thế cạnh tranh của mình. Từ khóa: Data, Data warehouse, Data lake, specialized systems, Lake house, on-premise, cloud 1. GIỚI THIỆU Khi dữ liệu trở nên quan trọng với doanh nghiệp, nhu cầu cần biết họ có dữ liệu nào và làm sao để kiếm được tiền từ dữ liệu này, đây chính là nền tảng cho sự phát triển thành công. Điều này cũng đúng với tất cả doanh nghiệp, bất kể là doanh nghiệp công nghệ truyền thống hay không. Nhu cầu này không chỉ quan trọng hơn trong thời gian tới, thậm chí khi dữ liệu được tạo ra và sử dụng nó một cách hiệu quả trở thành một lợi thế cạnh tranh. Việc tập trung tăng số luọng các chuyên gia dữ liệu làm việc chung với nhau thành một đội hoặc thành một cộng đồng để xây dựng dữ liệu của riêng tổ chức đó, vì các chuyên gia dữ liệu làm việc độc lập sẽ không tạo được thành quả. Sự hợp sức giữa các phòng ban chức năng khác nhau trong chia sẻ và đóng góp dữ liệu cũng rất quan trọng. Theo cách truyền thống, các vai trò chính của dữ liệu tồn tại riêng biệt so với 04 lĩnh vực nghề nghiệp về dữ liệu bao gồm : Nhà khoa học dữ liệu, kỹ sư dữ liệu, kiến trúc sư dữ liệu và nhà phân tích dữ liệu. Mặc dù các vai trò này là các thành phần trong một tổ chức nhưng trước đây lại hoàn toàn phụ thuộc vào các bộ công cụ và quy trình khác nhau và làm việc với dữ liệu trong kho dữ liệu riêng biệt. Hình thức tổ chức này khiến cho độ phức tạp 206 và chi phí doanh nghiệp tăng cao, cũng như mất thời gian nhiều hơn và khó khăn hơn để trích xuất ý nghĩa từ dữ liệu khi các chuyên gia về dữ liệu hoạt động riêng lẻ. Ngày nay, các doanh nghiệp hàng đầu coi trọng dữ liệu đang chuyển đổi theo hướng ứng dụng một kiến trúc thống nhất hơn để đáp ứng nhu cầu của các chuyên gia về dữ liệu. 2. TẦM QUAN TRỌNG CỦA NỀN TẢNG ĐÁM MÂY VỚI CÁC DOANH NGHIỆP COI TRỌNG DỮ LIỆU Theo khảo sát của hãng McKinsey vào năm 219 cho thấy các doanh nghiệp có tốc độ tăng trưởng lợi nhuận cao nhất trong 03 năm gần đây nhất đã đóng góp tối thiểu 20% vào sự phát triển trực tiếp các phát minh sáng tạo về dữ liệu của họ. Các doanh nghiệp ăn nên làm ra này sử dụng chiến lược kiềng 03 chân, đầu tiên họ liên kết các chiến lược dài hạn và rõ ràng về dữ liệu. Tiếp theo, họ nuôi dưỡng văn hóa lấy dữ liệu làm trung tâm bằng việc biến dữ liệu thành một phần của công việc của mỗi nhân viên trong doanh nghiệp và đào tạo các nhân viên quản lý dữ liệu đúng cách. Cuối cùng, các doanh nghiệp sử dụng các nền tảng dữ liệu hiện đại để hỗ trợ các hoạt động liên quan đến dữ liệu tại mọi cấp độ công việc. Năm 2020, hãng O’Reilly hợp tác với hãng Databricks thực hiện khảo sát toàn cầu với hơn 3.000 chuyên gia dữ liệu để xác định tình trạng cấu trúc nền tảng dữ liệu đám mây hiện đại. Người trả lời khảo sát được yêu cầu đánh giá cấu trúc nền tảng dữ liệu hiện tại, đặc biệt là các thách thức họ gặp phải và những thách thức này ảnh hưởng thế nào tới doanh nghiệp và đội ngũ chuyên gia dữ liệu tại mỗi doanh nghiệp. Người trả lời khảo sát cũng được yêu cầu đề xuất các tiêu chí được xem là quan trọng khi đánh giá nhiều loại kiến trúc dữ liệu mới. Kết quả của cuộc khảo sát cũng cho thấy 81% người trả lời khảo sát thừa nhận rằng tổ chức của họ chuyển mình để thích nghi với các dịch vụ đám mây và cơ sở hạ tầng của kiến trúc đám mây cho phù hợp với một số chức năng trong tổ chức của mình, điều này cho thấy thế giới dữ liệu đang đắm chìm trong nền tảng đám mây. Chỉ có khoảng 2 trong 10 tổ chức (19%) không chuyển bất kỳ khối lượng dữ liệu nào lên nền tảng đám mây. Kiến trúc nền tảng dữ liệu mà các doanh nghiệp đang sử dụng bao gồm nền tảng lưu trữ dữ liệu tại chỗ hoặc nền tảng lưu trữ dữ liệu trên đám mây hoặc kết hợp cả hai nền tảng này. Kết quả của cuộc khảo sát các doanh nghiệp hiện nay như sau : 1. Kho dữ liệu (Data warehouses) : 57% 2. Hồ dữ liệu (Data lakes) : 53% 3. Hệ thống đặc thù (Specialized systems) : 54% 207 Bao gồm các Hệ quản trị cơ sở dữ liệu đặc thù như SAS ERP và Oracle PeopleSoft hoạt động tại chỗ, còn Salesforce và Workday hoạt động trên nền tảng đám mây. 4. Không áp dụng nền tảng nào : 04% Kết quả trên cho thấy nhiều doanh nghiệp đang vận hành công tác quản lý dữ liệu của mình trên nhiều kiến trúc nền tảng lưu trữ dữ liệu, tất nhiên điều này cũng dẫn đến một số khó khăn như sau : a. Sự phức tạp trong vận hành. Hơn 70% doanh nghiệp thừa nhận rằng việc duy trì cơ sở hạ tầng ổn định và các nơi dữ liệu hoạt động trong môi trường như vậy thực sự là bài toán nan giải, khó khăn. Đây cũng là khó khăn lớn nhất khi vận hành đồng thời nhiều kiến trúc dữ liệu. b. Đảm bảo chất lượng dữ liệu Khi dữ liệu đượ ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội thảo khoa học Hội thảo Phân tích - quản trị dữ liệu thông minh Nền tảng dữ liệu đám mây hiện đại Nền tảng lưu trữ dữ liệu Lakehouse Phân tích dữ liệu Công tác quản lý dữ liệuTài liệu liên quan:
-
Yếu tố nhận diện người thứ ba ngay tình trong giao dịch dân sự
11 trang 327 0 0 -
197 trang 278 0 0
-
Cách tính nhanh giá trị riêng của ma trận vuông cấp 2 và cấp 3
4 trang 275 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 263 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 232 0 0 -
Quản lý dữ liệu thông tin người hưởng bảo hiểm xã hội
6 trang 231 0 0 -
Phương pháp nhận diện biển số xe ô tô sử dụng học máy và thư viện OpenCV
6 trang 213 0 0 -
11 trang 206 0 0
-
Nghi thức chào hỏi trong văn hóa giao tiếp của người Nhật
13 trang 169 0 0 -
Một số ứng dụng của xác suất thống kê
5 trang 147 0 0