Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 6 - Các kĩ thuật xử lý dữ liệu lớn theo khối (Phần 2)
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 6 - Các kĩ thuật xử lý dữ liệu lớn theo khối (Phần 2) Chương 6Các kĩ thuật xử lý dữ liệu lớn theo khối - phần 2 Apache Spark Một nền tảng xử lý dữ liệu hợp nhất cho dữ liệu lớnMapReduce với chuỗi các jobs• Iterative jobs với MapReduce đòi hỏi thao tác I/O với dữ liệu trên HDFS• Thực tế I/O trên ổ đĩa cứng rất chậm! Toàn cảnh về I/O dữ liệu 0.1 Gb/s 1 Gb/s or125 MB/s Nodesin another Network rackCPUs: 10GB/s 1 Gb/s or125 MB/s Nodesin100MB/s 600MB/s same rack 3-12 msrandom 0.1 ms random access access $0.025 perGB $0.35 perGBRAM có khả năng thay thế ổ đĩacứng 4Một nền tảng xử lý dữ liệu hợpnhất cho dữ liệu lớn• Hỗ trợ tốt hơn MapReduce trong • Các giải thuật có tính lặp - Iterative algorithms • Khai phá dữ liệu trong môi trường tương tác - Interactive data mining• Khả năng chịu lỗi, khai thác tính địa phương của dữ liệu, tính khả mở• Ẩn đi sự phức tạp cua của môi trường phân tán khi lập trìnhMột nền tảng xử lý dữ liệu hợp nhất cho dữliệu lớnEnvironmentsYARN Workloads DataFrames API and SparkSQL Spark Streaming MLlib GraphX RDDAPI SparkCore {JSON} Data SourcesKhai thác bộ nhớ trong thay vì ổđĩa HDD HDFS HDFS HDFS 7 Sự khác nhau giữa Spark và MapReduce Apache Hadoop MR Apache SparkStorage Chỉ sử dụng HDD Sử dụng cả bộ nhớ trong và HDDOperations Hai thao tác Map và Reduce Bao gồm nhiều thao tác biến đổi (transformations) và hành động (actions) trên dữ liệuExecution model Xử lý theo khối – batch Theo khối, tương tác , luồngLanguages Java Scala, Java, Python và RSo sánh hiệu năng Spark vàMapReduce https://databricks.com/blog/2014/10/10/spark-petabyte-sort.htmlGiao diện dòng lệnh tương tác (Scala, Python and Ronly)Thực thi chương trình Spark W Ex RDD T RDD T Driver Program WorkerMachine W Ex RDD T RDD T WorkerMachineResilient Distributed Dataset(RDD)• RDDs là cấu trúc dữ liệu song song, có khả năng chịu lỗi (fault-tolerant, parallel data structures) mà cho phép người dùng chỉ định lưu trữ dữ liệu trung gian trên bộ nhớ (intermediate results in memory), điều khiển sự phân chia để tối ưu hóa việc phân tán dữ liệu, và cũng có thể thay đổi, chỉnh sửa những dữ liệu này sử dụng một tập các thao tác rất đa dạng (a rich set of operators). • RDDs có khả năng tự động tái tạo lại khi bị lỗi• RDD được thiết kế tối ưu cho các biến đổi thô, theo lô (coarse-grained transformations) thay vì hỗ trợ các thao tác cập nhật quá chi tiết (fine-grained updates) • Vd., map, filter và join mà tác động tới nhiều bản ghi dữ liệu đồng thời thay vì là các thao tác chỉ cập nhật lên một đối tượng dữ liệu riêng lẻ 12Sự phân vùng của RDD và khảnăng song song hóa RDD item-1 item-6 item-11 item-16 item-21 item-2 item-7 item-12 item-17 item-22 item-3 item-8 item-13 item-18 item-23 item-4 item-9 item-14 item-19 item-24 item-5 item-10 item-15 item-20 item-25 W W W Ex Ex Ex RDD RDD RDD RDD RDDKhởi tạo RDD• Một RDD cơ sở có thể được tạo theo 2 cách • Song song hóa một collection (ví dụ mảng trong Python) • Đọc dữ liệu từ một nguồn bên ngoài (S3, C*, HDFS, etc) Error, ts, Info, ts, msg8 Error, ts, Error, ts, msg1 Warn, Warn, ts, msg3 Info, msg4 Warn, ts, msg2 msg2 Info, ts, ts, msg5 t ...
Tìm kiếm theo từ khóa liên quan:
Lưu trữ và xử lý dữ liệu lớn Lưu trữ dữ liệu lớn Xử lý dữ liệu lớn Xử lý dữ liệu lớn theo khối MapReduce với chuỗi các jobs Khai thác bộ nhớ trong Giao diện dòng lệnh tương tácGợi ý tài liệu liên quan:
-
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 4 - Cơ sở dữ liệu phi quan hệ NoSQL (Phần 1)
43 trang 17 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 7 - Các kĩ thuật xử lý luồng dữ liệu lớn
75 trang 14 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 4 - Cơ sở dữ liệu phi quan hệ NoSQL (Phần 2)
16 trang 13 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 1 - Tổng quan về lưu trữ và xử lý dữ liệu lớn
43 trang 12 0 0 -
Một tiếp cận xử lý dữ liệu lớn trong phát hiện các tổn thương gan dựa trên chỉ số hounsfield
9 trang 11 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 2 - Hệ sinh thái Hadoop
40 trang 10 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 3.1 - Hệ thống tập tin phân tán Hadoop HDFS
18 trang 10 0 0 -
Nâng cao hiệu quả phân tích tài chính doanh nghiệp trong thời đại công nghệ số
4 trang 9 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 6 - Các kĩ thuật xử lý dữ liệu lớn theo khối (Phần 1)
58 trang 9 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 4 - Cơ sở dữ liệu phi quan hệ NoSQL (Phần 3)
50 trang 8 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 3.2 - Hệ thống tập tin phân tán Hadoop HDFS
30 trang 7 0 0 -
Bài giảng Lưu trữ và xử lý dữ liệu lớn: Chương 5 - Hệ thống truyền thông điệp phân tán
43 trang 5 0 0