Big data trong công nghệ đám mây
Số trang: 18
Loại file: pdf
Dung lượng: 319.05 KB
Lượt xem: 18
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Dữ liệu lớn (Big Data) là một tính năng vốn có của công nghệ đám mây và cung cấp cơ hội chưa từng có khi sử dụng cả hai loại cơ sở dữ liệu truyền thống và mạng xã hội, dữ liệu của mạng báo hiệu và xa hơn nữa là dữ liệu đa phương tiện.
Nội dung trích xuất từ tài liệu:
Big data trong công nghệ đám mâyBig data trong công nghệ đám mâyTốc độ, khối lượng, tính đa dạng và xác thực của dữ liệuDữ liệu lớn (Big Data) là một tính năng vốn có của công nghệ đám mây và cungcấp cơ hội chưa từng có khi sử dụng cả hai loại cơ sở dữ liệu truyền thống và mạngxã hội, dữ liệu của mạng báo hiệu và xa hơn nữa là dữ liệu đa phương tiện. Cácứng dụng dữ liệu lớn yêu cầu kiến trúc trung tâm dữ liệu và nhiều giải pháp baogồm các API của nền tảng đám mây để tích hợp với tìm kiếm nâng cao, các giảithuật máy học và các phân tích nâng cao như thị giác máy tính, phân tích phim ảnhvà các công cụ phân tích trực quan. Bài viết này nghiên cứu cách sử dụng ngônngữ R và các công cụ phổ biến để phân tích dữ liệu lớn và các phương pháp để mởrộng các dịch vụ dữ liệu lớn trong các đám mây. Nó cung cấp một góc nhìn sâu sắcvề một dịch vụ dữ liệu lớn cơ bản là quản lý hình ảnh số, trong đó sử dụng các yếutố cơ bản như tìm kiếm, phân tích và máy học cho dữ liệu không có cấu trúc.Bài viết này tập trung vào những ứng dụng sử dụng dữ liệu lớn, đồng thời giảithích những khái niệm cơ bản đằng sau việc phân tích dữ liệu lớn và làm cách nàokết hợp với những ứng dụng phân tích thị trường và các kỹ thuật xử lý song songnhư thị giác máy tính (CV - Computer Vision) cũng như máy học, tất cả sẽ được đềcập đến trong mục 3 của loạt bài về Cloud scaling (Mở rộng đám mây).Sự khác biệt giữa phân tích dữ liệu lớn với phân tích video là về sự đa dạng của dữliệu xử lý, và khi so sánh các công cụ hỗ trợ tìm kiếm và phân tích, ta có thể thấyrằng sử dụng các phương pháp khai phá dữ liệu hay MapReduce chẳng những cóthể phức tạp hơn mà còn mất thời gian lâu hơn rất nhiều so với việc dùng GoogleBigQuery. Ví dụ Google BigQuery sử dụng tìm kiếm theo chiều dọc để nén và đẩynhanh quá trình tìm kiếm cho các bộ dữ liệu lớn và phi cấu trúc. Thực tế, trong bàiAn Inside Look at Google BigQuery (Tìm hiểu sâu về Google BigQuery) (xemphần Tài nguyên), Google giải thích, trong 10 giây BigQuery có thể tìm kiếm mộtđoạn chuỗi trong một bảng dữ liệu có khoảng 35 tỷ dòng và 20TB. Các công cụdùng chức năng MapReduce mất nhiều thời gian hơn để xử lý nhưng đem lại kếtquả tốt hơn.Bất cứ ai có một tài khoản Google đều có thể sử dụng BigQuery. Ý tưởng của nónhanh hơn các phương pháp tìm kiếm dữ liệu lớn khác, điển hình là khi tôi tải hìnhảnh và đưa ảnh lên trang Google Images. Bạn sẽ thấy được tất cả các trang có hìnhảnh của tôi (từ IBM, Đại học Colorado Boulder, v.v..), trong đó có thể có nhữngsai sót nhỏ. Tôi sử dụng ví dụ này chủ yếu là để đảm bảo hình ảnh tôi đã tải về lànhững hình ảnh phù hợp và cho phép tái sử dụng nhiều lần. Cùng với các ví dụkhác tôi đã khám phá, qua đó thấy được ý nghĩa của dữ liệu lớn là chúng ta đangthực hiện việc mò kim đáy bể dễ dàng hơn trong mớ hỗn độn của dữ liệu phi cấutrúc.Định nghĩa dữ liệu lớnDữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phântích dữ liệu, những việc đó đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó có thểđược truy vấn với hệ thống quản lý dữ liệu quan hệ — thường với những tệp phicấu trúc (unstructured files), video kỹ thuật số, hình ảnh, dữ liệu cảm biến, tệp lưunhật ký, thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếmkhác. Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khótổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừkhi nó có thể tương quan với dữ liệu có cấu trúc.Dữ liệu lớn cũng có những nguồn mới, như trong máy tính (vd: các file log nhật kýhay mạng cảm biến), trong thiết bị di động (video, hình ảnh, tin nhắn), và trong cácthiết bị máy móc kết nối với nhau (vd như xe, máy bay hoặc các thiết bị giám sáttừ xa) nhằm mục đích lên kế hoạch bảo trì kịp thời. Có nột cách để làm được việcnày là dựa vào đặc tính volume (khối lượng). IBM ước lượng, có 2.5 nhân 10 mũ18 bytes (2,500,000,000,000,000,000) dữ liệu được tạo ra mỗi ngày (xem phần Tàinguyên). Đặc điểm tiếp theo là velocity (tốc độ), nơi có tỷ lệ dữ liệu được gia tăngbởi vì băng thông mạng — điển hình như tỷ lệ gigabit ngày nay (gigE, 10G, 40G,100G) được so sánh với tỷ lệ megabit. Một đặc điểm khác là variety (tính đadạng), bao gồm nhiều kiểu dữ liệu phi cấu trúc, như dòng hình ảnh kỹ thuật số(digital video streams), dữ liệu cảm biến, cũng như các file log nhật ký. Cuối cùnglà veracity (tính xác thực) của dữ liệu, hay có bao nhiêu dữ liệu tin cậy khi nhữngquyết định quan trọng cần được thực hiện trên số lượng lớn dữ liệu thu thập ở tỷ lệcao. Đơn giản chỉ cần biết dữ liệu đó là không giả mạo, không bị hỏng, đến từ mộtnguồn kỳ vọng là khó khăn — nó có thể đến từ 1000 máy quay an ninh, mỗi ngàycó thể có 1000 khung hình trên 1 giờ. Vậy, chúng ta cùng phát thảo một vài khíacạnh của dữ liệu lớn, những ứng dụng và những hệ thống để hiểu tốt hơn về chúng.Có lẽ cách tốt nhất để hi ...
Nội dung trích xuất từ tài liệu:
Big data trong công nghệ đám mâyBig data trong công nghệ đám mâyTốc độ, khối lượng, tính đa dạng và xác thực của dữ liệuDữ liệu lớn (Big Data) là một tính năng vốn có của công nghệ đám mây và cungcấp cơ hội chưa từng có khi sử dụng cả hai loại cơ sở dữ liệu truyền thống và mạngxã hội, dữ liệu của mạng báo hiệu và xa hơn nữa là dữ liệu đa phương tiện. Cácứng dụng dữ liệu lớn yêu cầu kiến trúc trung tâm dữ liệu và nhiều giải pháp baogồm các API của nền tảng đám mây để tích hợp với tìm kiếm nâng cao, các giảithuật máy học và các phân tích nâng cao như thị giác máy tính, phân tích phim ảnhvà các công cụ phân tích trực quan. Bài viết này nghiên cứu cách sử dụng ngônngữ R và các công cụ phổ biến để phân tích dữ liệu lớn và các phương pháp để mởrộng các dịch vụ dữ liệu lớn trong các đám mây. Nó cung cấp một góc nhìn sâu sắcvề một dịch vụ dữ liệu lớn cơ bản là quản lý hình ảnh số, trong đó sử dụng các yếutố cơ bản như tìm kiếm, phân tích và máy học cho dữ liệu không có cấu trúc.Bài viết này tập trung vào những ứng dụng sử dụng dữ liệu lớn, đồng thời giảithích những khái niệm cơ bản đằng sau việc phân tích dữ liệu lớn và làm cách nàokết hợp với những ứng dụng phân tích thị trường và các kỹ thuật xử lý song songnhư thị giác máy tính (CV - Computer Vision) cũng như máy học, tất cả sẽ được đềcập đến trong mục 3 của loạt bài về Cloud scaling (Mở rộng đám mây).Sự khác biệt giữa phân tích dữ liệu lớn với phân tích video là về sự đa dạng của dữliệu xử lý, và khi so sánh các công cụ hỗ trợ tìm kiếm và phân tích, ta có thể thấyrằng sử dụng các phương pháp khai phá dữ liệu hay MapReduce chẳng những cóthể phức tạp hơn mà còn mất thời gian lâu hơn rất nhiều so với việc dùng GoogleBigQuery. Ví dụ Google BigQuery sử dụng tìm kiếm theo chiều dọc để nén và đẩynhanh quá trình tìm kiếm cho các bộ dữ liệu lớn và phi cấu trúc. Thực tế, trong bàiAn Inside Look at Google BigQuery (Tìm hiểu sâu về Google BigQuery) (xemphần Tài nguyên), Google giải thích, trong 10 giây BigQuery có thể tìm kiếm mộtđoạn chuỗi trong một bảng dữ liệu có khoảng 35 tỷ dòng và 20TB. Các công cụdùng chức năng MapReduce mất nhiều thời gian hơn để xử lý nhưng đem lại kếtquả tốt hơn.Bất cứ ai có một tài khoản Google đều có thể sử dụng BigQuery. Ý tưởng của nónhanh hơn các phương pháp tìm kiếm dữ liệu lớn khác, điển hình là khi tôi tải hìnhảnh và đưa ảnh lên trang Google Images. Bạn sẽ thấy được tất cả các trang có hìnhảnh của tôi (từ IBM, Đại học Colorado Boulder, v.v..), trong đó có thể có nhữngsai sót nhỏ. Tôi sử dụng ví dụ này chủ yếu là để đảm bảo hình ảnh tôi đã tải về lànhững hình ảnh phù hợp và cho phép tái sử dụng nhiều lần. Cùng với các ví dụkhác tôi đã khám phá, qua đó thấy được ý nghĩa của dữ liệu lớn là chúng ta đangthực hiện việc mò kim đáy bể dễ dàng hơn trong mớ hỗn độn của dữ liệu phi cấutrúc.Định nghĩa dữ liệu lớnDữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phântích dữ liệu, những việc đó đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó có thểđược truy vấn với hệ thống quản lý dữ liệu quan hệ — thường với những tệp phicấu trúc (unstructured files), video kỹ thuật số, hình ảnh, dữ liệu cảm biến, tệp lưunhật ký, thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếmkhác. Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khótổng hợp vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừkhi nó có thể tương quan với dữ liệu có cấu trúc.Dữ liệu lớn cũng có những nguồn mới, như trong máy tính (vd: các file log nhật kýhay mạng cảm biến), trong thiết bị di động (video, hình ảnh, tin nhắn), và trong cácthiết bị máy móc kết nối với nhau (vd như xe, máy bay hoặc các thiết bị giám sáttừ xa) nhằm mục đích lên kế hoạch bảo trì kịp thời. Có nột cách để làm được việcnày là dựa vào đặc tính volume (khối lượng). IBM ước lượng, có 2.5 nhân 10 mũ18 bytes (2,500,000,000,000,000,000) dữ liệu được tạo ra mỗi ngày (xem phần Tàinguyên). Đặc điểm tiếp theo là velocity (tốc độ), nơi có tỷ lệ dữ liệu được gia tăngbởi vì băng thông mạng — điển hình như tỷ lệ gigabit ngày nay (gigE, 10G, 40G,100G) được so sánh với tỷ lệ megabit. Một đặc điểm khác là variety (tính đadạng), bao gồm nhiều kiểu dữ liệu phi cấu trúc, như dòng hình ảnh kỹ thuật số(digital video streams), dữ liệu cảm biến, cũng như các file log nhật ký. Cuối cùnglà veracity (tính xác thực) của dữ liệu, hay có bao nhiêu dữ liệu tin cậy khi nhữngquyết định quan trọng cần được thực hiện trên số lượng lớn dữ liệu thu thập ở tỷ lệcao. Đơn giản chỉ cần biết dữ liệu đó là không giả mạo, không bị hỏng, đến từ mộtnguồn kỳ vọng là khó khăn — nó có thể đến từ 1000 máy quay an ninh, mỗi ngàycó thể có 1000 khung hình trên 1 giờ. Vậy, chúng ta cùng phát thảo một vài khíacạnh của dữ liệu lớn, những ứng dụng và những hệ thống để hiểu tốt hơn về chúng.Có lẽ cách tốt nhất để hi ...
Tìm kiếm theo từ khóa liên quan:
Quản trị mạng Lý thuyết quản trị mạng Tài liệu quản trị mạng Dữ liệu Big Data Công nghệ đám mây Hệ thống quản lý dữ liệu Mạng cảm biếnGợi ý tài liệu liên quan:
-
24 trang 348 1 0
-
Đề cương chi tiết học phần Thiết kế và cài đặt mạng
3 trang 227 0 0 -
Giáo trình Hệ thống mạng máy tính CCNA (Tập 4): Phần 2
102 trang 226 0 0 -
20 trang 225 0 0
-
Báo cáo tốt nghiệp: Tìm hiểu Proxy và ứng dụng chia sẻ Internet trong mạng LAN qua Proxy
38 trang 199 0 0 -
122 trang 189 0 0
-
Giáo trình Tin học văn phòng (Ngành: Quản trị mạng) - CĐ Công nghiệp Hải Phòng
49 trang 156 0 0 -
Giáo trình Quản trị Web Mail Server - Nghề: Quản trị mạng - CĐ Kỹ Thuật Công Nghệ Bà Rịa-Vũng Tàu
244 trang 154 0 0 -
Chuyên đề tốt nghiệp: Định tuyến trong mạng cảm biến và so sánh bằng mô phỏng
103 trang 154 0 0 -
51 trang 143 2 0