Báo cáo đề tài: Kho Dữ Liệu
Số trang: 67
Loại file: doc
Dung lượng: 629.50 KB
Lượt xem: 16
Lượt tải: 0
Xem trước 7 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Chúng ta đang sống trong thời đại của nền kinh tế trí thức. Mọi hoạt độngcủa ta muốn đạt hiệu quả cao thì nhất thiết phải có những phương pháp để cóđược những thông tin, tri thức cần thiết một cách nhanh và chính xác.Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghiệp vụ đãmang lại những hiệu quả và lợi ích to lớn.
Nội dung trích xuất từ tài liệu:
Báo cáo đề tài: Kho Dữ Liệu GIỚI THIỆU Chúng ta đang sống trong thời đại của nền kinh tế trí th ức. Mọi hoạt đ ộngcủa ta muốn đạt hiệu quả cao thì nhất thiết phải có những ph ương pháp để cóđược những thông tin, tri thức cần thiết một cách nhanh và chính xác. Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghi ệp vụ đãmang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển,hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của th ực t ế nghiêncứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp d ụng t ừ nh ững ứngdụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến nh ững thành côngvượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ gi ải quy ết nh ữngxử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mứcđộ cao hơn. Các nhà quản lý điều hành không những biết được công việc đangdiễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tinmang tính phân tích và hệ thống thông tin có khả năng h ỗ trợ quy ết định. Tuynhiên việc xây dựng một hệ thống như thế vấp phải một số h ạn ch ế v ề m ặt k ỹthuật, đặc biệt là khi kích thước cũng như độ ph ức tạp của môi trường thông tintăng lên. Những hệ thống thông tin xây dựng theo ph ương pháp truy ền th ốngkhông làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin. Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều,lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đãđược xây dựng không tương thích với nhau và không tương thích với những hệthông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệthống thông tin hiện thời. Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhi ều lĩnhvực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, mộtvấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữliệu khổng lồ và đa dạng đó được? Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệucần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau.Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Khôngthể sử dụng được dữ liệu tìm thấy Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau làkhông đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổchức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệutừ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rấtkhó khăn. Duy trì những chương trình này gặp rất nhiều vấn đề. Một thay đổi ở một ứngdụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ. Thông thường sự phụthuộc lẫn nhau giữa các chương trình không rõ ràng hoặc là không xác định -1-được. Do sự phức tạp của công việc chuyển đổi cũng như toàn bộ quá trình b ảotrì dẫn đến mã nguồn của các chương trình trở nên hết sức phức tạp. Khốilượng dữ liệu lưu trữ tăng rất nhanh. Không kiểm soát được kh ả năng ch ồngchéo dữ liệu trong các môi trường thông tin dẫn đến kh ối lượng dữ li ệu tăngnhanh. Quản trị dữ liệu phức tạp. Thiếu những định nghĩa chuẩn, thống nhất về dữliệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin. Một thành phần dữliệu tồn tại ở nhiều nguồn khác nhau Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một khochứa dữ liệu -2- CHƯƠNG 1: KHO DỮ LIỆUI. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU1.1 Kho dữ liệu Kho dữ liệu (Data Warehouse - DW) là tập hợp các CSDL tích hợp, hướngchủ đề, được thiết kế để hỗ trợ cho chức năng tạo quyết định, mà mỗi đơn vịdữ liệu đều liên quan tới một khoảng thời gian cụ thể. Kho dữ liệu thường rất lớn, nó được xây dựng để tiện lợi cho việc truycập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có th ể k ết h ợpđược cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ nhữnghệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các hoạt động hàng ngày vàđược thu thập xử lí để phục vụ công việc nghiệp vụ cụ thể của một tổ ch ứcthường được gọi là dữ liệu tác nghiệp ( operational data) và hoạt động thu thậpxử lí loại dữ liệu này được gọi là xử lí giao d ịch trực tuy ến ( On_lineTransaction Processing - OLPT). Ngược lại, kho dữ liệu phục vụ cho việc phântích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập xử lí dữliệu loại này còn gọi là hệ xử lí phân tích trực tuy ến ( On_Line AnalyticalProcessing - OLAP). Theo John Ladley, công nghệ kho dữ liệu ( Data Warehouse Technology) làtập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, h ỗ trợ nhau đểcung cấp thông tin cho người sử dụng trên cơ sở tích hợp t ừ nhi ều ngu ồn d ữliệu, nhiều môi trường khác nhau.1.2 Mục đích của kho dữ liệu Mục đích của kho dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin củaNSD. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc củamình. Giúp cho tổ chức, xác định, quản lý và điều hành các d ự án, các nghi ệp v ụmột cách hiệu quả và chính xác. Tích hợp dữ liệu và các siêu dữ liệu từ nhiềunguồn khác nhau. Yêu cầu đối với kho dữ liệu: Nâng cao chất lượng dữ liệu bằng cácphương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định.Tổng hợp và kết nối dữ liệu. Đồng bộ hoá các nguồn dữ liệu với DW. Phânđịnh và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụchuẩn để phục vụ cho DW. Quản lí siêu dữ liệu. Cung cấp thông tin được tíchhợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề. Dùng trong các h ệ -3-thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho cáctruy ...
Nội dung trích xuất từ tài liệu:
Báo cáo đề tài: Kho Dữ Liệu GIỚI THIỆU Chúng ta đang sống trong thời đại của nền kinh tế trí th ức. Mọi hoạt đ ộngcủa ta muốn đạt hiệu quả cao thì nhất thiết phải có những ph ương pháp để cóđược những thông tin, tri thức cần thiết một cách nhanh và chính xác. Việc áp dụng công nghệ thông tin vào thực tiễn sản xuất nghi ệp vụ đãmang lại những hiệu quả và lợi ích to lớn. Công nghệ ngày càng được phát triển,hoàn thiện hơn để đáp ứn g những yêu cầu ngày càng cao của th ực t ế nghiêncứu, quản lý sản xuất và nghiệp vụ. Sự mở rộng qui mô áp d ụng t ừ nh ững ứngdụng đơn lẻ đến các hệ thống thông tin cỡ lớn đã dẫn đến nh ững thành côngvượt bậc trong nghiệp vụ. Các hệ thống thông tin từ chỗ chỉ gi ải quy ết nh ữngxử lý công việc hàng ngày nay đã tiến tới đáp ứng được những yêu cầu ở mứcđộ cao hơn. Các nhà quản lý điều hành không những biết được công việc đangdiễn ra như thế nào mà còn biết cái gì sẽ xảy ra sau đó, có nghĩa là thông tinmang tính phân tích và hệ thống thông tin có khả năng h ỗ trợ quy ết định. Tuynhiên việc xây dựng một hệ thống như thế vấp phải một số h ạn ch ế v ề m ặt k ỹthuật, đặc biệt là khi kích thước cũng như độ ph ức tạp của môi trường thông tintăng lên. Những hệ thống thông tin xây dựng theo ph ương pháp truy ền th ốngkhông làm hài lòng người sử dụng và các nhà quản lý hệ thống thông tin. Những mục tiêu này không dễ đạt được bởi vì dữ liệu ngày một nhiều,lưu trữ phân tán ở nhiều dạng không tương thích với nhau. Nhiều hệ CSDL đãđược xây dựng không tương thích với nhau và không tương thích với những hệthông tin mới được xây dựng. Nhiều khách hàng không thoả mãn với những hệthống thông tin hiện thời. Internet cũng đã mở ra nhiều khả năng và triển vọng, cung cấp nhi ều lĩnhvực thông tin phong phú và cần thiết cho hoạt động của chúng ta. Tuy nhiên, mộtvấn đề đặt ra là làm thế nào để tổ chức, khai thác được những khối lượng dữliệu khổng lồ và đa dạng đó được? Về phía người sử dụng, thường gặp các khó khăn là: Không thể tìm thấy dữ liệucần thiết vì dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau.Không thể lấy ra được dữ liệu cần thiết; Không thể hiểu dữ liệu tìm thấy; Khôngthể sử dụng được dữ liệu tìm thấy Những vấn đề về hệ thống thông tin: Phát triển các chương trình khác nhau làkhông đơn giản. Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổchức và sử dụng lại nó là rất khó khăn do hạn chế về kỹ thuật. Chuyển đổi dữ liệutừ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rấtkhó khăn. Duy trì những chương trình này gặp rất nhiều vấn đề. Một thay đổi ở một ứngdụng sẽ ảnh hưởng đến tất cả các ứng dụng khác có quan hệ. Thông thường sự phụthuộc lẫn nhau giữa các chương trình không rõ ràng hoặc là không xác định -1-được. Do sự phức tạp của công việc chuyển đổi cũng như toàn bộ quá trình b ảotrì dẫn đến mã nguồn của các chương trình trở nên hết sức phức tạp. Khốilượng dữ liệu lưu trữ tăng rất nhanh. Không kiểm soát được kh ả năng ch ồngchéo dữ liệu trong các môi trường thông tin dẫn đến kh ối lượng dữ li ệu tăngnhanh. Quản trị dữ liệu phức tạp. Thiếu những định nghĩa chuẩn, thống nhất về dữliệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin. Một thành phần dữliệu tồn tại ở nhiều nguồn khác nhau Giải pháp cho tất cả các vấn đề nêu trên chính là việc xây dựng một khochứa dữ liệu -2- CHƯƠNG 1: KHO DỮ LIỆUI. GIỚI THIỆU CHUNG VỀ KHO DỮ LIỆU1.1 Kho dữ liệu Kho dữ liệu (Data Warehouse - DW) là tập hợp các CSDL tích hợp, hướngchủ đề, được thiết kế để hỗ trợ cho chức năng tạo quyết định, mà mỗi đơn vịdữ liệu đều liên quan tới một khoảng thời gian cụ thể. Kho dữ liệu thường rất lớn, nó được xây dựng để tiện lợi cho việc truycập theo nhiều nguồn, nhiều kiểu dữ liệu khác nhau sao cho có th ể k ết h ợpđược cả những ứng dụng của các công nghệ hiện đại và kế thừa được từ nhữnghệ thống đã có sẵn từ trước. Dữ liệu phát sinh từ các hoạt động hàng ngày vàđược thu thập xử lí để phục vụ công việc nghiệp vụ cụ thể của một tổ ch ứcthường được gọi là dữ liệu tác nghiệp ( operational data) và hoạt động thu thậpxử lí loại dữ liệu này được gọi là xử lí giao d ịch trực tuy ến ( On_lineTransaction Processing - OLPT). Ngược lại, kho dữ liệu phục vụ cho việc phântích với kết quả mang tính thông tin cao. Các hệ thống thông tin thu thập xử lí dữliệu loại này còn gọi là hệ xử lí phân tích trực tuy ến ( On_Line AnalyticalProcessing - OLAP). Theo John Ladley, công nghệ kho dữ liệu ( Data Warehouse Technology) làtập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, h ỗ trợ nhau đểcung cấp thông tin cho người sử dụng trên cơ sở tích hợp t ừ nhi ều ngu ồn d ữliệu, nhiều môi trường khác nhau.1.2 Mục đích của kho dữ liệu Mục đích của kho dữ liệu nhằm đáp ứng mọi yêu cầu về thông tin củaNSD. Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả công việc củamình. Giúp cho tổ chức, xác định, quản lý và điều hành các d ự án, các nghi ệp v ụmột cách hiệu quả và chính xác. Tích hợp dữ liệu và các siêu dữ liệu từ nhiềunguồn khác nhau. Yêu cầu đối với kho dữ liệu: Nâng cao chất lượng dữ liệu bằng cácphương pháp làm sạch và tinh lọc dữ liệu theo những hướng chủ đề nhất định.Tổng hợp và kết nối dữ liệu. Đồng bộ hoá các nguồn dữ liệu với DW. Phânđịnh và đồng nhất các hệ quản trị cơ sở dữ liệu tác nghiệp như là các công cụchuẩn để phục vụ cho DW. Quản lí siêu dữ liệu. Cung cấp thông tin được tíchhợp, tóm tắt hoặc được liên kết, tổ chức theo các chủ đề. Dùng trong các h ệ -3-thống hỗ trợ quyết định, các hệ thống thông tin tác nghiệp hoặc hỗ trợ cho cáctruy ...
Tìm kiếm theo từ khóa liên quan:
báo cáo tốt nghiệp luận văn mẫu lưu trữ dữ liệu siêu dữ liệu dữ liệu nghiệp vụ tiêu chí dữ liệu dữ liệu tổng hợpGợi ý tài liệu liên quan:
-
HƯỚNG DẪN THỰC TẬP VÀ VIẾT BÁO CÁO THỰC TẬP TỐT NGHIỆP
18 trang 352 0 0 -
8 trang 261 0 0
-
Đồ án: thiết kế hệ truyền động cơ cấu nâng hạ cầu trục
71 trang 246 0 0 -
Đồ án cung cấp điện: Thiết kế hệ thống cung cấp điện cho xí nghiệp công nghiệp
108 trang 215 0 0 -
Đề tài: Thực trạng ứng dụng hệ thống CRM trong doanh nghiệp Việt Nam hiện nay và giải pháp
78 trang 203 0 0 -
46 trang 203 0 0
-
105 trang 202 0 0
-
40 trang 200 0 0
-
29 trang 199 0 0
-
Báo cáo tốt nghiệp: Phân tích hoạt động Marketing Mix của Công ty TNHH Gia Hoàng
103 trang 196 0 0