Đồ án tốt nghiệp: Nghiên cứu Datamining microsoft server 2005 với thuật toán microsoft association rules và microsoft decision tree
Số trang: 82
Loại file: pdf
Dung lượng: 1.54 MB
Lượt xem: 9
Lượt tải: 0
Xem trước 9 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Đồ án tốt nghiệp: Nghiên cứu Datamining microsoft server 2005 với thuật toán microsoft association rules và microsoft decision tree trình bày về khái niệm khai thác dữ liệu; các thuật toán khai thác dữ liệu; decision tree; định hướng phát triển. Mời các bạn tham khảo.
Nội dung trích xuất từ tài liệu:
Đồ án tốt nghiệp: Nghiên cứu Datamining microsoft server 2005 với thuật toán microsoft association rules và microsoft decision tree Đồ Án Tốt Nghiệp 1 GVHD: Ths:Võ Đình Bảy Chương 1: Khái niệm về khai thác dữ liệu 1. Giới thiệu Việc khai thác dữ liệu thường được mô tả như một quá trình lấy các thông tin có giá trị, xác thực từ những cơ sở dữ liệu lớn. Nói cách khác, việc khai thác dữ liệu bắt nguồn từ các dạng mẫu và khuynh hướng tồn tại trong dữ liệu. Các mẫu và khuynh hướng này có thể được gom lại với nhau và được định nghĩa như là một mô hình khai thác. Các mô hình này có thể được áp dụng cho các kịch bản nghiệp vụ riêng biệt như: - Dự đoán việc bán hàng. - Chuyển thư đến các khách hàng được chỉ định. - Xác định các sản phẩm nào có khả năng được bán với nhau. - Tìm các trình tự mà khách hàng chọn các sản phẩm. Một khái niệm quan trọng là xây dựng mô hình khai thác là một phần của một tiến trình lớn hơn bao gồm từ việc xác định các vấn đề cơ bản mà mô hình sẽ giải thích, đến việc triển khai mô hình này vào môi trường làm việc. Tiến trình này có thể được định nghĩa bằng việc triển khai 6 bước cơ bản sau: Bước 1: Xác định vấn đề. Bước 2. Chỉnh sửa dữ liệu. Bước 3. Thăm dò dữ liệu. Bước 4. Xây dựng mô hình. Bước 5. Thăm dò và thông qua các mô hình. Bước 6. Triển khai và cập nhật các mô hình. Biểu đồ sau mô tả mối quan hệ giữa mỗi bước trong tiến trình, và có thể sử dụng công nghệ trong Microsoft SQL Server 2005 để hoàn thành từng bước. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 2 GVHD: Ths:Võ Đình Bảy Hình 1.1: Mô tả mối quan hệ giữa các bước trong tiến trình Mặc dù tiến trình được minh họa trong biểu đồ là hình tròn, nhưng mỗi bước không trực tiếp dẫn đến bước tiếp theo. Tạo ra một mô hình khai thác dữ liệu là một tiến trình động và lặp lại. Sau khi thăm dò dữ liệu, có thể nhận ra rằng dữ liệu không đủ để tạo ra mô hình khai thác thích hợp, do đó sẽ phải tìm thêm dữ liệu. Có thể xây dựng nhiều mô hình và nhận ra là chúng không giải quyết được các vấn đề đã đưa ra khi định nghĩa vấn đề, và do đó phải xác định lại vấn đề đó. Có thể cập nhật các mô hình sau khi chúng được triển khai bởi vì nhiều dữ liệu hơn sẽ trở nên hiệu quả. Điều này quan trọng để hiểu rằng tạo ra một mô hình khai thác dữ liệu là một tiến trình, và mỗi bước trong tiến trình có thể được lập lại nhiều lần khi cần thiết để tạo ra một mô hình tốt. SQL Server 2005 cung cấp một môi trường hội nhập để tạo ra và làm việc với mô hình khai thác dữ liệu, gọi là Business Intelligence Development Studio. Môi trường này bao gồm các thuật toán khai thác dữ liệu và các công cụ mà làm cho việc xây dựng giải pháp toàn diện cho các dự án khác nhau dễ hơn. 2. Các bước trong tiến trình khai thác dữ liệu 2.1. Xác định vấn đề Bước đầu tiên trong tiến trình khai thác dữ liệu (được in đậm trong biểu đồ bên dưới (Hình 1.2)), là để xác định rõ ràng các vấn đề nghiệp vụ: SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 3 GVHD: Ths:Võ Đình Bảy Hình 1.2: Xác định các vấn đề Bước này bao gồm việc phân tích các yêu cầu nghiệp vụ, xác định phạm vi của vấn đề, xác định điểm quan trọng bằng mô hình nào sẽ đánh giá, và xác định mục tiêu cuối cùng cho dự án khai thác dữ liệu. Những công việc này thông dịch thành các câu hỏi như: - Đang tìm kiếm gì? - Dự đoán các thuộc tính nào của dataset? - Đang tìm những dạng quan hệ nào? - Muốn dự đoán từ mô hình khai thác dữ liệu hay chỉ tìm các dạng mẫu và kết hợp yêu thích. - Dữ liệu được phân bố như thế nào? - Các cột liên quan như thế nào, hay nếu có nhiều bảng thì mối quan hệ của chúng như thế nào? Để trả lời những câu hỏi này, có thể phải tìm hiểu về dữ liệu thực tế, điều tra nhu cầu của người dùng nghiệp vụ cùng với sự quan tâm về dữ liệu thực tế. Nếu dữ liệu không cung cấp được cho nhu cầu người dùng, có thể phải xác định lại dự án. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 4 GVHD: Ths:Võ Đình Bảy 2.2. Chỉnh sửa dữ liệu Bước thứ hai trong tiến trình khai thác dữ liệu (được in đậm trong mô hình bên dưới (Hình 1.3)), để củng cố và chỉnh sửa lại dữ liệu được xác định trong bước xác định vấn đề: Hình 1.3: Chỉnh sữa dữ liệu Microsoft SQL Server 2005 Integration Services (SSI) chứa tất cả các công cụ, bao gồm việc thay đổi dữ liệu rõ ràng và vững chắc hơn. Dữ liệu có thể được chứa ở nhiều nơi trong công ty và được định dạng khác nhau, hay có thể có những mâu thuẫn như bị rạn nứt hay mất một số mục nào đó. Ví dụ: Dữ liệu có thể chỉ ra rằng khách hàng đã mua hàng hóa trước khi khách hàng đó được sinh ra, hay khách hàng đi mua sắm tại cửa hàng cách nhà khoảng 2000 dặm. Trước khi bạn bắt đầu xây dựng mô hình, phải sửa chữa các vấn đề này. Điển hình như đang làm việc với một số lượng lớn các dataset và không thể đọc lướt qua tất cả các giao tác. Do đó, phải sử dụng các dạng tự động, như Integration Services, để khảo sát tất cả dữ liệu và tìm ra các mâu thuẫn. 2.3. Khảo sát dữ liệu Bước thứ ba trong tiến trình khai thác dữ liệu (được in đậm trong mô hình bên dưới (Hình 1.4)) là khảo sát các dữ liệu đã được sửa chữa SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 5 GVHD: Ths:Võ Đình Bảy Hình 1.4: Khảo sát dữ liệu Phải hiểu dữ liệu để đưa ra một quyết định thích hợp khi tạo ra các mô hình. Các kĩ thuật khảo sát bao gồm tính toán các giá trị nhỏ nhất và lớn nhất, tính toán độ trung bình và độ chênh lệch, và nhìn vào thuộc tính của dữ liệu. Sau đó, khảo sát dữ liệu, có thể quyết định x ...
Nội dung trích xuất từ tài liệu:
Đồ án tốt nghiệp: Nghiên cứu Datamining microsoft server 2005 với thuật toán microsoft association rules và microsoft decision tree Đồ Án Tốt Nghiệp 1 GVHD: Ths:Võ Đình Bảy Chương 1: Khái niệm về khai thác dữ liệu 1. Giới thiệu Việc khai thác dữ liệu thường được mô tả như một quá trình lấy các thông tin có giá trị, xác thực từ những cơ sở dữ liệu lớn. Nói cách khác, việc khai thác dữ liệu bắt nguồn từ các dạng mẫu và khuynh hướng tồn tại trong dữ liệu. Các mẫu và khuynh hướng này có thể được gom lại với nhau và được định nghĩa như là một mô hình khai thác. Các mô hình này có thể được áp dụng cho các kịch bản nghiệp vụ riêng biệt như: - Dự đoán việc bán hàng. - Chuyển thư đến các khách hàng được chỉ định. - Xác định các sản phẩm nào có khả năng được bán với nhau. - Tìm các trình tự mà khách hàng chọn các sản phẩm. Một khái niệm quan trọng là xây dựng mô hình khai thác là một phần của một tiến trình lớn hơn bao gồm từ việc xác định các vấn đề cơ bản mà mô hình sẽ giải thích, đến việc triển khai mô hình này vào môi trường làm việc. Tiến trình này có thể được định nghĩa bằng việc triển khai 6 bước cơ bản sau: Bước 1: Xác định vấn đề. Bước 2. Chỉnh sửa dữ liệu. Bước 3. Thăm dò dữ liệu. Bước 4. Xây dựng mô hình. Bước 5. Thăm dò và thông qua các mô hình. Bước 6. Triển khai và cập nhật các mô hình. Biểu đồ sau mô tả mối quan hệ giữa mỗi bước trong tiến trình, và có thể sử dụng công nghệ trong Microsoft SQL Server 2005 để hoàn thành từng bước. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 2 GVHD: Ths:Võ Đình Bảy Hình 1.1: Mô tả mối quan hệ giữa các bước trong tiến trình Mặc dù tiến trình được minh họa trong biểu đồ là hình tròn, nhưng mỗi bước không trực tiếp dẫn đến bước tiếp theo. Tạo ra một mô hình khai thác dữ liệu là một tiến trình động và lặp lại. Sau khi thăm dò dữ liệu, có thể nhận ra rằng dữ liệu không đủ để tạo ra mô hình khai thác thích hợp, do đó sẽ phải tìm thêm dữ liệu. Có thể xây dựng nhiều mô hình và nhận ra là chúng không giải quyết được các vấn đề đã đưa ra khi định nghĩa vấn đề, và do đó phải xác định lại vấn đề đó. Có thể cập nhật các mô hình sau khi chúng được triển khai bởi vì nhiều dữ liệu hơn sẽ trở nên hiệu quả. Điều này quan trọng để hiểu rằng tạo ra một mô hình khai thác dữ liệu là một tiến trình, và mỗi bước trong tiến trình có thể được lập lại nhiều lần khi cần thiết để tạo ra một mô hình tốt. SQL Server 2005 cung cấp một môi trường hội nhập để tạo ra và làm việc với mô hình khai thác dữ liệu, gọi là Business Intelligence Development Studio. Môi trường này bao gồm các thuật toán khai thác dữ liệu và các công cụ mà làm cho việc xây dựng giải pháp toàn diện cho các dự án khác nhau dễ hơn. 2. Các bước trong tiến trình khai thác dữ liệu 2.1. Xác định vấn đề Bước đầu tiên trong tiến trình khai thác dữ liệu (được in đậm trong biểu đồ bên dưới (Hình 1.2)), là để xác định rõ ràng các vấn đề nghiệp vụ: SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 3 GVHD: Ths:Võ Đình Bảy Hình 1.2: Xác định các vấn đề Bước này bao gồm việc phân tích các yêu cầu nghiệp vụ, xác định phạm vi của vấn đề, xác định điểm quan trọng bằng mô hình nào sẽ đánh giá, và xác định mục tiêu cuối cùng cho dự án khai thác dữ liệu. Những công việc này thông dịch thành các câu hỏi như: - Đang tìm kiếm gì? - Dự đoán các thuộc tính nào của dataset? - Đang tìm những dạng quan hệ nào? - Muốn dự đoán từ mô hình khai thác dữ liệu hay chỉ tìm các dạng mẫu và kết hợp yêu thích. - Dữ liệu được phân bố như thế nào? - Các cột liên quan như thế nào, hay nếu có nhiều bảng thì mối quan hệ của chúng như thế nào? Để trả lời những câu hỏi này, có thể phải tìm hiểu về dữ liệu thực tế, điều tra nhu cầu của người dùng nghiệp vụ cùng với sự quan tâm về dữ liệu thực tế. Nếu dữ liệu không cung cấp được cho nhu cầu người dùng, có thể phải xác định lại dự án. SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 4 GVHD: Ths:Võ Đình Bảy 2.2. Chỉnh sửa dữ liệu Bước thứ hai trong tiến trình khai thác dữ liệu (được in đậm trong mô hình bên dưới (Hình 1.3)), để củng cố và chỉnh sửa lại dữ liệu được xác định trong bước xác định vấn đề: Hình 1.3: Chỉnh sữa dữ liệu Microsoft SQL Server 2005 Integration Services (SSI) chứa tất cả các công cụ, bao gồm việc thay đổi dữ liệu rõ ràng và vững chắc hơn. Dữ liệu có thể được chứa ở nhiều nơi trong công ty và được định dạng khác nhau, hay có thể có những mâu thuẫn như bị rạn nứt hay mất một số mục nào đó. Ví dụ: Dữ liệu có thể chỉ ra rằng khách hàng đã mua hàng hóa trước khi khách hàng đó được sinh ra, hay khách hàng đi mua sắm tại cửa hàng cách nhà khoảng 2000 dặm. Trước khi bạn bắt đầu xây dựng mô hình, phải sửa chữa các vấn đề này. Điển hình như đang làm việc với một số lượng lớn các dataset và không thể đọc lướt qua tất cả các giao tác. Do đó, phải sử dụng các dạng tự động, như Integration Services, để khảo sát tất cả dữ liệu và tìm ra các mâu thuẫn. 2.3. Khảo sát dữ liệu Bước thứ ba trong tiến trình khai thác dữ liệu (được in đậm trong mô hình bên dưới (Hình 1.4)) là khảo sát các dữ liệu đã được sửa chữa SVTH: Hoàng Thị Thu-104102128 Đồ Án Tốt Nghiệp 5 GVHD: Ths:Võ Đình Bảy Hình 1.4: Khảo sát dữ liệu Phải hiểu dữ liệu để đưa ra một quyết định thích hợp khi tạo ra các mô hình. Các kĩ thuật khảo sát bao gồm tính toán các giá trị nhỏ nhất và lớn nhất, tính toán độ trung bình và độ chênh lệch, và nhìn vào thuộc tính của dữ liệu. Sau đó, khảo sát dữ liệu, có thể quyết định x ...
Tìm kiếm theo từ khóa liên quan:
Nghiên cứu Datamining microsoft server 2005 Thuật toán microsoft association rules Microsoft decision tree Đồ án tốt nghiệp Công nghệ thông tin Khai thác dữ liệu Thuật toán khai thác dữ liệuGợi ý tài liệu liên quan:
-
Tóm tắt Đồ án tốt nghiệp Công nghệ thông tin: Lập trình game với ứng dụng Unity
16 trang 458 0 0 -
Tóm tắt Đồ án tốt nghiệp Công nghệ thông tin: Xây dựng game 2D trên Unity
21 trang 334 1 0 -
24 trang 294 0 0
-
64 trang 202 0 0
-
83 trang 194 0 0
-
81 trang 177 0 0
-
Đồ án tốt nghiệp Công nghệ thông tin: Xây dựng ứng dụng quản lý bàn ăn trên thiết bị di động Android
73 trang 174 0 0 -
20 trang 166 1 0
-
Đồ án tốt nghiệp Công nghệ thông tin: Xây dựng ứng dụng chat trong Android với Firebase
81 trang 162 0 0 -
76 trang 156 0 0