Phát triển nền tảng phân tích dữ liệu thời gian thực cho thành phố thông minh

Số trang: 3 Loại file: pdf Dung lượng: 414.52 KB Lượt xem: 15 Lượt tải: 0

tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí

Xem trước 1 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Hiện nay, các thành phố hiện đại đang tìm cách xây dựng các ứng dụng thông minh có thể cung cấp nhiều dịch vụ công ích đáp ứng mọi nhu cầu của người dân. Bài viết Phát triển nền tảng phân tích dữ liệu thời gian thực cho thành phố thông minh giới thiệu quy trình công nghệ phân tích dữ liệu lớn mới được cho là hiệu quả hơn so với ETL.
Nội dung trích xuất từ tài liệu:
Phát triển nền tảng phân tích dữ liệu thời gian thực cho thành phố thông minh Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3 PHÁT TRIỂN NỀN TẢNG PHÂN TÍCH DỮ LIỆU THỜI GIAN THỰC CHO THÀNH PHỐ THÔNG MINH Nguyễn Văn Nam1, Nguyễn Ngọc Doanh2 1,2 JEAI WARM Thuyloi University, Vietnam and UMMISCO/IRD, France MSLab, CSE, Thuyloi University 1. GIỚI THIỆU CHUNG 2.2. Quy trình khai thác dữ liệu lớn Hiện nay, các thành phố hiện đại đang tìm Lưu trữ dữ liệu Tương tác dữ liệu Dữ Thu thập dữ liệut cách xây dựng các ứng dụng thông minh có liệu thể cung cấp nhiều dịch vụ công ích đáp ứng mọi nhu cầu của người dân. Điều này có thể Hình 1. Quy trình khai thác được thực hiện thông qua việc phân tích dữ Quy trình khai thác dữ liệu lớn (Hình 1) liệu nhật ký ghi lại các sự kiện xảy ra hàng được chia thành ba giai đoạn chính là : thu ngày, hàng giờ. Quy trình công nghệ khai thập dữ liệu (ingestion), lưu trữ dữ liệu phá dữ liệu truyền thống ETL (Extract- (storage) và tương tác dữ liệu (interaction) Transfer-Load) loại bỏ dữ liệu dư thừa gây (ISI)[2]. Quy trình ISI có tính mở cho phép thất thoát lượng lớn thông tin. Mục đích của thu nhận các dữ liệu mới với khuôn dạng và bài báo là giới thiệu quy trình công nghệ kích thước thay đổi, lưu trữ dữ liệu phân tán, phân tích dữ liệu lớn mới được cho là hiệu phân tích và xử lý dữ liệu gốc nhanh. quả hơn so với ETL. 2.2.1. Thu thập dữ liệu 2. PHƯƠNG PHÁP NGHIÊN CỨU Giai đoạn thu thập dữ liệu thực hiện hai công 2.1. Đặt vấn đề việc chính là phân giải dữ liệu (data filtering) và vận chuyển dữ liệu (data shipping). Thông tin về mọi hoạt động hàng ngày Dữ liệu lớn phi cấu trúc và thường là tuần trong thành phố thường được phản ánh và lưu tự theo thời gian cần phải được phân giải lại dưới dạng dữ liệu nhật ký. Đây là loại dữ thông qua các lược đồ dữ liệu (data schema). liệu lớn có khuôn dạng và kích thước không Lược đồ dữ liệu tuần tự đơn giản nhất là các xác định do tiến hóa liên tục. Nhưng đây lại tệp CSV trong đó sử dụng dấu phân cách để là nguồn dữ liệu có giá trị lớn cần phải được phân tách các trường thông tin. Tuy nhiên, khai thác hiệu quả. Quy trình khai thác dữ định dạng tệp văn bản không định nghĩa rõ liệu truyền thồng [1] gồm ba bước : lấy ràng kiểu dữ liệu của các trường thông tin. (Extract) dữ liệu từ các cơ sở dữ liệu khác JSON cũng là định dạng văn bản với các nhau, chuyển đổi (Transfer) khuân dạng dữ trường thông tin được định nghĩa trong các liệu về một dạng chuẩn chung và chuyển tải cặp khóa-giá trị. JSON cho phép xác định rõ (Load) các tập dữ liệu con đến nơi sử dụng. kiểu dữ liệu của các giá trị. Quy trình ETL dùng cho các khuôn dạng dữ Lược đồ dữ liệu Avro (Lược đồ 1) cho liệu cố định và nhu cầu có sẵn. Vì vậy, ETL phép dữ liệu được ghi lại dưới dạng JSON và loại bỏ nhiều dữ liệu dư thừa, khó mở rộng dạng nhị phân. Dữ liệu nhị phân cho phép cho các yêu cầu cũng như các khuôn dạng việc phân giải dữ liệu chính xác ngay cả khi dữ liệu mới. không biết lược đồ dữ liệu. 169 Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3 Lược đồ 1: Lược đồ dữ liệu Avro 2.2.3. Tương tác dữ liệu { 'type':'record', Dữ liệu được lưu trữ cần có giao diện 'name':'productrecord', tương tác với người sử dụng bên ngoài phục 'fields':[ {'name':'id','type':'long'}, vụ cho các mục đích tìm hiểu, phân tích, dự {'name':'created','type':'int'}, đoán. NoSQL được thiết kế để phân tích dữ {'name':'product','type':'string'}, liệu thời gian thực. Spark cung cấp Spark- {'name':'price','type':'double'} ] SQL chứa các lệnh truy vấn tương tác trực } tiếp với RDD. Mặc dù, Spark-Streaming hỗ Dữ liệu từ xuất phát từ nhiều nguồn khác trợ việc xử lý luồng dữ liệu nhưng tốc độ xử nhau được vận chuyển đến nhiều nơi sử dụng lý còn khá chậm do cần thời gian để chuyển khác nhau. Để tránh tắc nghẽn khi vận đổi dữ liệu từ lô sang luồng. Dữ liệu cũng chuyển, hàng đợi dữ liệu (message queue) [4] cần được phân tích để nhận biết hình dạng và với cơ chế định tuyến quảng bá/ thuê bao kích cỡ. Spark-MLlib là thư viện hỗ trợ mạnh (publish/subcribe) được sử dụng. mẽ các thuật toán học máy khám phá này. 2.2.2. Lưu trữ dữ liệu 2.2.4. Tích hợp hệ thống Hadoop dựa trên hệ thống tệp phân tán Nền tảng công nghệ cho thành phố thông (HDFS) cho phép lưu trữ các tệp dữ liệu với minh (hình 2) bao gồm tầng thu thập dữ liệu khuôn dạng và kích thước bất kỳ. Hadoop sử dụng nền tảng Confluent có chứa hàng đợi cung cấp cơ chế MapReduce giúp ánh xạ dữ dữ liệu Kafka Stream. Cấu trúc của các liệu thành các bản ghi khóa-giá trị giống như nguồn dữ liệu nhật ký được định nghĩa bởi trong bảng băm. Sau đó các bản ghi được truy Avro. Các lược đồ dữ liệu mới được đăng ký xuất song song trên nhiều máy ...