Danh mục

Một cách tiếp cận triển khai kho dữ liệu phục vụ các tác vụ ELT tại Trường Đại học Thủ Dầu Một

Số trang: 5      Loại file: pdf      Dung lượng: 277.12 KB      Lượt xem: 14      Lượt tải: 0    
Thư viện của tui

Phí lưu trữ: miễn phí Tải xuống file đầy đủ (5 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Trong nghiên cứu này, tác giả đề xuất một cách tiếp cận triển khai kho dữ liệu phục vụ các tác vụ ETL (Extract, Transform, Load) theo hướng tích hợp dữ liệu chủ động và bị động. Cách tiếp cận được cài đặt và triển khai thí điểm tại Data Center của trường Đại học Thủ Dầu Một. Qua đánh giá, cách tiếp cận đã cho thấy tính khả thi và phù hợp với mô hình dữ liệu đang được triển khai tại trường.
Nội dung trích xuất từ tài liệu:
Một cách tiếp cận triển khai kho dữ liệu phục vụ các tác vụ ELT tại Trường Đại học Thủ Dầu Một MỘT CÁCH TIẾP CẬN TRIỂN KHAI KHO DỮ LIỆUPHỤC VỤ CÁC TÁC VỤ ELT TẠI TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT Trần Đức Hoàn 1 , Nguyễn Thành Phương 1 1. Ban đề án Chuyển đổi số, Trường Đại học Thủ Dầu MộtTÓM TẮT Dữ liệu là một khía cạnh quan trọng trong nhiều nghiệp vụ khác nhau của đơn vị đào tạođại học. Các đơn vị thường có lộ trình triển khai các nền tảng, ứng một theo từng giai đoạnnhằm đáp ứng các nhu cầu cụ thể tại đơn vị theo từng thời điểm với chi phí tối ưu. Điều nàydẫn đến dữ liệu thường được tổ chức thành các thành phần riêng lẻ. Tuy nhiên, để quản lý chặtchẽ và khai thác hiệu quả dữ liệu từ nhiều nguồn, các đơn vị thường tổ chức dữ liệu thành cáckho dữ liệu chuyên biệt theo từng lĩnh vực. Trong nghiên cứu này, chúng tôi đề xuất một cáchtiếp cận triển khai kho dữ liệu phục vụ các tác vụ ETL (Extract, Transform, Load) theo hướngtích hợp dữ liệu chủ động và bị động. Cách tiếp cận được cài đặt và triển khai thí điểm tại DataCenter của trường Đại học Thủ Dầu Một. Qua đánh giá, cách tiếp cận đã cho thấy tính khả thivà phù hợp với mô hình dữ liệu đang được triển khai tại trường. Từ khóa: Apache Kafka, Data warehouse, Debezium, PostgreSQL.1. ĐẶT VẤN ĐỀ Giáo dục đại học đang hoạt động trong một môi trường ngày càng phức tạp và cạnh tranhhơn. Họ phải cạnh tranh với các tổ chức khác để ứng phó với những thay đổi về kinh tế, chínhtrị và xã hội trong nước và toàn cầu. Hơn nữa, khác nhau các bên liên quan đang mong đợi cáctổ chức giáo dục đại học đưa ra giải pháp phù hợp một cách kịp thời cho những nhu cầu này.Để khắc phục tình trạng này, giáo dục đại học cần đưa ra những quyết định đúng đắn cần thiếtđể giải quyết những vấn đề nhanh chóng này. thay đổi bằng cách phân tích các nguồn dữ liệukhổng lồ đã được tạo ra. Hầu hết các cơ sở giáo dục đại học đều đầu tư rất lớn nguồn lực vềcông nghệ thông tin để triển khai hệ thống kho dữ liệu (Nambiar và nnk, 2022). Việc phát triển kho dữ liệu là cách trích xuất các thông tin quan trọng từ dữ liệu rải ráctrong một số hệ thống thông tin vào kho lưu trữ tích hợp tập trung và hỗ trợ nhu cầu về lịch sửdữ liệu. Dữ liệu tích hợp này có thể được sử dụng cho các hoạt động cung cấp thông tin có thểđược xem xét từ nhiều khía cạnh khác nhau và có thể đặt mức độ chi tiết (Hình 1). Việc sử dụng thêm thông tin có trong kho dữ liệu là hoạt động phân tích dữ liệu bằng cáckỹ thuật và phương pháp nhất định. Có một số thuật toán để khám phá dữ liệu tri thức, nhưphân loại, phân cụm và khai thác (Vaisman và nnk, 2014). Dữ liệu chứa trong kho dữ liệu cóthể được sử dụng làm đầu vào cho hệ thống ứng dụng (Guetat và nnk, 2013). 511 Hình 1. Kiến trúc tổng thể hệ thống sử dụng data warehouse theo cách tiếp cận đa tầng Trong nghiên cứu này, chúng tôi trình bày một mô hình kho dữ liệu hỗ trợ giao tiếp đakênh theo hình thức chủ động và bị động. Mô hình kho dữ liệu được kiểm thử để đánh giá khảnăng chịu tải cũng như sự phù hợp về khả năng kết nối. Mô hình kho dữ liệu có thể được triểnkhai tại các đơn vị đào tạo đại học khác với nhu cầu tương ứng. 5122. PHƯƠNG PHÁP NGHIÊN CỨU Kho dữ liệu là một kho lưu trữ lớn, tập trung dữ liệu có cấu trúc, tích hợp được sử dụngđể báo cáo và phân tích. Nó được thiết kế để hỗ trợ truy vấn và phân tích dữ liệu hiệu quả vàthường được sử dụng để hỗ trợ việc ra quyết định, kinh doanh thông minh và các hoạt động dựatrên dữ liệu khác (Berson và nnk; 1997). Mục đích chính của kho dữ liệu là hỗ trợ truy vấn và phân tích dữ liệu hiệu quả để báocáo và ra quyết định. Kho dữ liệu tích hợp dữ liệu từ nhiều nguồn khác nhau, chẳng hạn như cơsở dữ liệu giao dịch, tệp nhật ký và nguồn dữ liệu bên ngoài, đồng thời lưu trữ dữ liệu đó trongkho lưu trữ trung tâm. Điều này cho phép người dùng truy cập và phân tích dữ liệu bằng cáccông cụ như phần mềm dạng Structured Query Language (SQL) và Business Intelligent (BI). Hình 2. Mô hình data warehouse kết hợp các kênh nhận dữ liệu chủ động, bị động Trong bối cảnh các hệ thống được triển khai một cách rời rạc theo tiến độ, khả năng tíchhợp đa kênh và dễ dàng của các data warehouse cực kỳ quan trọng (Edastama và nnk; 2021).Trong nghiên cứu này, chúng tôi đề xuất một mô hình triển khai data warehouse với các kênhtiếp nhận dữ liệu chủ động sử dụng Java Spring (RESTful API) kết hợp Kafka (queue) và nhậndữ liệu bị động sử dụng Debezium (Capture Data Change - CDC) (Hình 2) để đáp ứng nhu cầuETL trong các đơn vị đào tạo đại học. Một trong những kênh nhận dữ liệu phổ biến nhất là RESTful API. Khái niệm RESTfulđược phát triển bởi Roy Thomas Fielding, một trong những tác giả chính của giao thức webHTTP. Do đó, REST là một phương pháp kiến trúc được thiết kế để tận dụng ...

Tài liệu được xem nhiều:

Gợi ý tài liệu liên quan: