Mười cân nhắc dành cho giải pháp Big Data trên đám mây
Số trang: 15
Loại file: pdf
Dung lượng: 207.01 KB
Lượt xem: 6
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Big Data là một khái niệm trong lĩnh vực CNTT đã và đang phát triển rất nhanh và mạnh. Như trong nhiều lĩnh vực CNTT, công nghệ mới này lần đầu tiên được sử dụng bởi các doanh nghiệp lớn và sau đó được chấp nhận sử dụng bởi các doanh nghiệp vừa và nhỏ.
Nội dung trích xuất từ tài liệu:
Mười cân nhắc dành cho giải pháp Big Data trên đám mâyMười cân nhắc dành cho giảipháp Big Data trên đám mâyKhởi động một môi trường tiêu thụ Big Data dễ dàng hơn trong nền đám mâyTác giả nhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự ánBig Data, thậm chí một trong số đó được coi là một thử nghiệm. Giải pháp dựa trênnền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạptrong bước đầu triển khai thực hiện Big Data.Big Data là một khái niệm trong lĩnh vực CNTT đã và đang phát triển rất nhanh vàmạnh. Như trong nhiều lĩnh vực CNTT, công nghệ mới này lần đầu tiên được sửdụng bởi các doanh nghiệp lớn và sau đó được chấp nhận sử dụng bởi các doanhnghiệp vừa và nhỏ. Big Data dường như là một tiến trình giống hệt ra đời sau.Khi Big Data phát triển trong thế giới thực, nó được áp dụng cho các thành phầndữ liệu không phải là lớn lắm. Các bộ dữ liệu thường là nhỏ bởi đa phần là do cácchuẩn mực được thực hiện bằng các công cụ khai phá Big Data theo những cáchđặc biệt dành riêng cho cấu trúc Big Data.Thậm chí, chúng ta đều đồng ý rằng trong tương lai, dữ liệu sẽ ngày càng nhiềuhơn chứ không có chuyện ít hơn; thêm nhiều nguồn dữ liệu sẽ gửi dữ liệu vào cácdoanh nghiệp và tốc độ của dòng dữ liệu sẽ chỉ tăng lên. Đây là sân chơi tương laicủa Big Data. Một câu hỏi đặt ra về sân chơi đó là nơi mà nó sẽ tồn tại — trên tiềnđề hoặc trong nền đám mây — và nhằm vào các mục đích mà bạn cần phải cânnhắc để lựa chọn dịch vụ.Xác định một giải pháp Big Data đám mâyGiống như hầu hết các giải pháp với đám mây, việc xác định chính xác đám mây làgì có thể hơi khó khăn. Có nhiều đặc trưng khác nhau của đám mây tồn tại trongkhông gian Big Data và chưa có một định nghĩa thống nhất chung nào (mặc dù cómột số tốt hơn so với những cái khác).Đầu tiên, hãy bắt đầu với một trò chơi đố chữ nho nhỏ. Trạng thái của Big Data đạtđược khi khối lượng, chủng loại và tốc độ của dữ liệu vào trở nên quá nhiều đốivới cơ sở dữ liệu quan hệ hiện hành để xử lý và sử dụng trong thời gian thực. Việctriển khai các công nghệ trong Big Data là sự nỗ lực để xử lý điều kiện đó và cungcấp những cách thức mới để sử dụng hiệu quả các dữ liệu đó — điều đó có nghĩa làphần cứng và cách thức mới tổ chức dữ liệu cho việc lưu trữ và đọc cấp tốc. Đây làbản chất của Big Data.Đó cũng là lý do tồn tại của Apache Hadoop, MapReduce, và các dự án, sản phẩmtương tự. Môi trường Big Data dựa trên nền đám mây cần có khả năng tham khảodữ liệu bên ngoài, chẳng hạn như hệ thống hoạch định nguồn lực doanh nghiệp vàcác cơ sở dữ liệu tiền đề khác, mà luôn định kỳ cập nhật dữ liệu mới. (Bên ngoài ởđây có nghĩa là bên ngoài môi trường ảo Sandbox của Big Data.)Vấn đề cần quan tâm là lưu trữ dữ liệu. Tiếp theo, bạn cần biết cách để phân tíchvà đưa việc phân tích này đến nơi nó sẽ tác động đến quá trình kinh doanh.Một dịch vụ Big Data cần có khả năng nhìn vào một nguồn dữ liệu đa dạng từ bênngoài cho đến nguồn dữ liệu chính, có khả năng bao gồm dữ liệu mới trong trungtâm dữ liệu, chứa các thành phần dữ liệu mới chưa từng nghĩ đến, và cung cấp mộtphương pháp để phân tích và báo cáo dựa trên tổng thể. Nhu cầu về tính nâng cao,tính linh hoạt và khả năng mở rộng sẽ tự hỗ trợ tốt đối với một môi trường BigData dựa trên nền đám mây.Khởi bước vào Big Data trên đám mâyNhững cân nhắc này bao gồm các tiêu chí đánh giá cơ bản cho việc khởi bước vàoBig Data. Bắt đầu, trải nghiệm và học hỏi trong suốt quá trình, nhưng khi bạn càngxác định trước được nhiều những gì bạn cần từ Big Data thì bạn càng có nhiều thờigian để tập trung vào trải nghiệm và bạn sẽ càng nhanh chóng đạt được kỹ năngthiết lập tăng tốc.1. Lập chỉ mục chung theo thời gian thực cho các dữ liệu máy bất kỳĐây là cốt lõi của dữ liệu lớn như hầu hết mọi người nghĩ về nó; nó thường đượcđánh đồng với các dự án nguồn mở Hadoop (xem Tài nguyên). Đừng nhầm lẫngiữa lập bảng chú dẫn trong Hadoop với một bảng chú dẫn trong cơ sở dữ liệuquan hệ: Một chỉ số Hadoop là một chỉ số tập tin. Bằng cách này, Hadoop có thểtiêu thụ nhiều loại dữ liệu khác nhau.Hiện tại, các công ty có thể bị tràn ngập nguồn cấp dữ liệu từ tần số RFID (RadioFrequency Identification - nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuộttrang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời gianđể làm cho nó thành dữ liệu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đócó thể là giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó sẽđược truy vấn và truy cập trong tương lai.Không cần phải biết tiềm năng sử dụng trong tương lai của dữ liệu mà Hadoopcung cấp ra. Bằng cách lấy dữ liệu ngay lúc nó vừa đi vào, Big Data sẽ qua mặtbước xác định dữ liệu cho đến sau này, khi việc phân tích được tiến hành. Hadoopphân phối dữ liệu qua nhiều máy chủ và theo dõi những địa điểm mà không hạnchế sử dụng trong tương lai.2. Hình thức tìm kiếm tự do và phân tích dữ liệu dòng lịch sử và thời gianthựcLưu trữ dữ liệu chỉ là một phần của con đường đến mục tiêu. Các thông tin cầnphải tương đối dễ dàng để gọi về. Cách nhanh nhất để làm điều đó là cung cấp khảnăng tìm kiếm nhanh chóng (như trong việc thi hành, không phải thời gian đápứng). Tìm kiếm một bộ công cụ cho phép tìm kiếm văn bản của dữ liệu phi cấutrúc. Apache Lucene (xem Tài nguyên) là một công cụ phổ biến mà cung cấp chỉmục văn bản và tìm kiếm trong một môi trường dữ liệu lớn.Việc có một phản hồi đúng trên màn hình làm người ta hài lòng, cảm giác giốngnhư rằng tất cả mọi thứ đang được lưu trữ đúng cách và có thể truy cập được. Cácbước quản trị của việc này là để lập chỉ mục nội dung của dữ liệu được lưu trữtrong các nút phân bổ. Truy vấn tìm kiếm sau đó truy cập các chỉ mục trên các nútphân bổ song song để cung cấp một phản hồi nhanh hơn.3. Tự động khám phá tri thức từ dữ liệuĐây là một trong những lý do kinh doanh sắp tới của Big Data. ...
Nội dung trích xuất từ tài liệu:
Mười cân nhắc dành cho giải pháp Big Data trên đám mâyMười cân nhắc dành cho giảipháp Big Data trên đám mâyKhởi động một môi trường tiêu thụ Big Data dễ dàng hơn trong nền đám mâyTác giả nhấn mạnh 10 yếu tố mà một công ty nên xem xét khi bắt đầu một dự ánBig Data, thậm chí một trong số đó được coi là một thử nghiệm. Giải pháp dựa trênnền đám mây được chú trọng vì nó giải quyết được nhiều yếu tố kỹ thuật phức tạptrong bước đầu triển khai thực hiện Big Data.Big Data là một khái niệm trong lĩnh vực CNTT đã và đang phát triển rất nhanh vàmạnh. Như trong nhiều lĩnh vực CNTT, công nghệ mới này lần đầu tiên được sửdụng bởi các doanh nghiệp lớn và sau đó được chấp nhận sử dụng bởi các doanhnghiệp vừa và nhỏ. Big Data dường như là một tiến trình giống hệt ra đời sau.Khi Big Data phát triển trong thế giới thực, nó được áp dụng cho các thành phầndữ liệu không phải là lớn lắm. Các bộ dữ liệu thường là nhỏ bởi đa phần là do cácchuẩn mực được thực hiện bằng các công cụ khai phá Big Data theo những cáchđặc biệt dành riêng cho cấu trúc Big Data.Thậm chí, chúng ta đều đồng ý rằng trong tương lai, dữ liệu sẽ ngày càng nhiềuhơn chứ không có chuyện ít hơn; thêm nhiều nguồn dữ liệu sẽ gửi dữ liệu vào cácdoanh nghiệp và tốc độ của dòng dữ liệu sẽ chỉ tăng lên. Đây là sân chơi tương laicủa Big Data. Một câu hỏi đặt ra về sân chơi đó là nơi mà nó sẽ tồn tại — trên tiềnđề hoặc trong nền đám mây — và nhằm vào các mục đích mà bạn cần phải cânnhắc để lựa chọn dịch vụ.Xác định một giải pháp Big Data đám mâyGiống như hầu hết các giải pháp với đám mây, việc xác định chính xác đám mây làgì có thể hơi khó khăn. Có nhiều đặc trưng khác nhau của đám mây tồn tại trongkhông gian Big Data và chưa có một định nghĩa thống nhất chung nào (mặc dù cómột số tốt hơn so với những cái khác).Đầu tiên, hãy bắt đầu với một trò chơi đố chữ nho nhỏ. Trạng thái của Big Data đạtđược khi khối lượng, chủng loại và tốc độ của dữ liệu vào trở nên quá nhiều đốivới cơ sở dữ liệu quan hệ hiện hành để xử lý và sử dụng trong thời gian thực. Việctriển khai các công nghệ trong Big Data là sự nỗ lực để xử lý điều kiện đó và cungcấp những cách thức mới để sử dụng hiệu quả các dữ liệu đó — điều đó có nghĩa làphần cứng và cách thức mới tổ chức dữ liệu cho việc lưu trữ và đọc cấp tốc. Đây làbản chất của Big Data.Đó cũng là lý do tồn tại của Apache Hadoop, MapReduce, và các dự án, sản phẩmtương tự. Môi trường Big Data dựa trên nền đám mây cần có khả năng tham khảodữ liệu bên ngoài, chẳng hạn như hệ thống hoạch định nguồn lực doanh nghiệp vàcác cơ sở dữ liệu tiền đề khác, mà luôn định kỳ cập nhật dữ liệu mới. (Bên ngoài ởđây có nghĩa là bên ngoài môi trường ảo Sandbox của Big Data.)Vấn đề cần quan tâm là lưu trữ dữ liệu. Tiếp theo, bạn cần biết cách để phân tíchvà đưa việc phân tích này đến nơi nó sẽ tác động đến quá trình kinh doanh.Một dịch vụ Big Data cần có khả năng nhìn vào một nguồn dữ liệu đa dạng từ bênngoài cho đến nguồn dữ liệu chính, có khả năng bao gồm dữ liệu mới trong trungtâm dữ liệu, chứa các thành phần dữ liệu mới chưa từng nghĩ đến, và cung cấp mộtphương pháp để phân tích và báo cáo dựa trên tổng thể. Nhu cầu về tính nâng cao,tính linh hoạt và khả năng mở rộng sẽ tự hỗ trợ tốt đối với một môi trường BigData dựa trên nền đám mây.Khởi bước vào Big Data trên đám mâyNhững cân nhắc này bao gồm các tiêu chí đánh giá cơ bản cho việc khởi bước vàoBig Data. Bắt đầu, trải nghiệm và học hỏi trong suốt quá trình, nhưng khi bạn càngxác định trước được nhiều những gì bạn cần từ Big Data thì bạn càng có nhiều thờigian để tập trung vào trải nghiệm và bạn sẽ càng nhanh chóng đạt được kỹ năngthiết lập tăng tốc.1. Lập chỉ mục chung theo thời gian thực cho các dữ liệu máy bất kỳĐây là cốt lõi của dữ liệu lớn như hầu hết mọi người nghĩ về nó; nó thường đượcđánh đồng với các dự án nguồn mở Hadoop (xem Tài nguyên). Đừng nhầm lẫngiữa lập bảng chú dẫn trong Hadoop với một bảng chú dẫn trong cơ sở dữ liệuquan hệ: Một chỉ số Hadoop là một chỉ số tập tin. Bằng cách này, Hadoop có thểtiêu thụ nhiều loại dữ liệu khác nhau.Hiện tại, các công ty có thể bị tràn ngập nguồn cấp dữ liệu từ tần số RFID (RadioFrequency Identification - nhận dạng bằng sóng vô tuyến) lưu động, nhấp chuộttrang web, và các dữ liệu khác có thể được cấu trúc nếu dân CNTT dành thời gianđể làm cho nó thành dữ liệu cấu trúc và đặt nó trong một cơ sở dữ liệu quan hệ. Đócó thể là giá trị đầu tư nếu bạn biết cách dữ liệu sẽ được sử dụng và cách nó sẽđược truy vấn và truy cập trong tương lai.Không cần phải biết tiềm năng sử dụng trong tương lai của dữ liệu mà Hadoopcung cấp ra. Bằng cách lấy dữ liệu ngay lúc nó vừa đi vào, Big Data sẽ qua mặtbước xác định dữ liệu cho đến sau này, khi việc phân tích được tiến hành. Hadoopphân phối dữ liệu qua nhiều máy chủ và theo dõi những địa điểm mà không hạnchế sử dụng trong tương lai.2. Hình thức tìm kiếm tự do và phân tích dữ liệu dòng lịch sử và thời gianthựcLưu trữ dữ liệu chỉ là một phần của con đường đến mục tiêu. Các thông tin cầnphải tương đối dễ dàng để gọi về. Cách nhanh nhất để làm điều đó là cung cấp khảnăng tìm kiếm nhanh chóng (như trong việc thi hành, không phải thời gian đápứng). Tìm kiếm một bộ công cụ cho phép tìm kiếm văn bản của dữ liệu phi cấutrúc. Apache Lucene (xem Tài nguyên) là một công cụ phổ biến mà cung cấp chỉmục văn bản và tìm kiếm trong một môi trường dữ liệu lớn.Việc có một phản hồi đúng trên màn hình làm người ta hài lòng, cảm giác giốngnhư rằng tất cả mọi thứ đang được lưu trữ đúng cách và có thể truy cập được. Cácbước quản trị của việc này là để lập chỉ mục nội dung của dữ liệu được lưu trữtrong các nút phân bổ. Truy vấn tìm kiếm sau đó truy cập các chỉ mục trên các nútphân bổ song song để cung cấp một phản hồi nhanh hơn.3. Tự động khám phá tri thức từ dữ liệuĐây là một trong những lý do kinh doanh sắp tới của Big Data. ...
Tìm kiếm theo từ khóa liên quan:
Quản trị mạng Lý thuyết quản trị mạng Tài liệu quản trị mạng Khái niệm big Data Giải pháp Big Data Môi trường Big DataGợi ý tài liệu liên quan:
-
24 trang 349 1 0
-
Đề cương chi tiết học phần Thiết kế và cài đặt mạng
3 trang 228 0 0 -
Giáo trình Hệ thống mạng máy tính CCNA (Tập 4): Phần 2
102 trang 227 0 0 -
20 trang 225 0 0
-
Báo cáo tốt nghiệp: Tìm hiểu Proxy và ứng dụng chia sẻ Internet trong mạng LAN qua Proxy
38 trang 199 0 0 -
122 trang 191 0 0
-
Giáo trình Tin học văn phòng (Ngành: Quản trị mạng) - CĐ Công nghiệp Hải Phòng
49 trang 157 0 0 -
Giáo trình Quản trị Web Mail Server - Nghề: Quản trị mạng - CĐ Kỹ Thuật Công Nghệ Bà Rịa-Vũng Tàu
244 trang 154 0 0 -
51 trang 143 2 0
-
Giáo trình về Nhập môn mạng máy tính
94 trang 141 0 0