Các độ đo khoảng cách trên chuỗi dữ liệu thời gian ứng dụng trong phân tích và quản trị dữ liệu thông minh (Distance measures for Time series data in Smart Data Analytics and Management)
Số trang: 16
Loại file: pdf
Dung lượng: 818.71 KB
Lượt xem: 6
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết "Các độ đo khoảng cách trên chuỗi dữ liệu thời gian ứng dụng trong phân tích và quản trị dữ liệu thông minh (Distance measures for Time series data in Smart Data Analytics and Management)" giới thiệu một số phương pháp xác định độ đo khoảng cách thường áp dụng trong việc xác định khoảng cách khác biệt giữa các điểm dữ liệu trong chuỗi dữ liệu theo thời gian. Đây là một vấn đề quan trọng trong việc xây dựng mô hình các bài toán về quản trị dữ liệu thông minh và phân tích dữ liệu thông minh trên các chuỗi dữ liệu theo thời gian (Time Series Data). Mời các bạn cùng tham khảo!
Nội dung trích xuất từ tài liệu:
Các độ đo khoảng cách trên chuỗi dữ liệu thời gian ứng dụng trong phân tích và quản trị dữ liệu thông minh (Distance measures for Time series data in Smart Data Analytics and Management)CÁC ĐỘ ĐO KHOẢNG CÁCH TRÊN CHUỖI DỮ LIỆU THỜI GIAN ỨNG DỤNG TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG MINH(Distance measures for Time series data in Smart Data Analytics and Management) VÕ XUÂN THỂ Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email: vxthe@ufm.edu.vn Tóm tắt: Bài viết này giới thiệu một số phương pháp xác định độ đo khoảng cách thường ápdụng trong việc xác định khoảng cách khác biệt giữa các điểm dữ liệu trong chuỗi dữ liệu theo thờigian. Đây là một vần đề quan trọng trong việc xây dựng mô hình các bài toán về quản trị dữ liệuthông minh và phân tích dữ liệu thông minh trên các chuỗi dữ liệu theo thời gian (Time SeriesData). Có rất nhiều bài toán về dữ liệu thông minh trên chuỗi dữ liệu thời gian được áp dụng trongthực tiễn thuộc nhiều lĩnh vực khác nhau, như: kinh tế, xã hội, khoa học – kỹ thuật. Đây là nhữngbài toán góp phần vào Cách mạng công nghiệp lần thứ 4 trên nền tảng BigData. Mỗi độ đo khoảngcách có tính hiệu quả nhất định cho từng bài toán Data Base theo từng dự án (Projetc) thực tiễn,vì vậy việc lựa chọn một độ đo khoảng cách hợp lý cho từng bài toán là rất cần thiết, và đó cũnglà mục tiêu giới thiệu của bài viết này. Một số độ đo thông dụng thường áo dụng trên chuỗi dữ liệutheo thời gian, như: độ đo Hamming, độ đo tựa (tương tự) Cosin, độ đo Minkowski , độ đoManhattan, độ đo Euclidean và độ đo Chebyshev sẽ được giới thiệu trong bài viết này. đặc biệt làđộ đo Euclidean. Từ khóa: Chuỗi dữ liệu thời gian – Time series data, độ đo khoảng cách - Distance Measures,Phân tích dữ liệu thông minh – Smart Data analytics, Quản trị dữ liệu thông tin – Smart DataManagement.1. GIỚI THIỆU CHUNG Cuộc cách mạng công nghiệp lần thứ 4 đã và đang mang lại nhiều kết quả cũng nhưthách thức lớn cho ngành khoa học máy tính nói chung và lĩnh vực khai phá dữ liệu nóiriêng, đặc biệt là dữ liệu có yếu tố thời gian như: tỷ giá ngoại tệ, giá vàng, chỉ số chứngkhoán, dự báo thời tiết, thiên văn học, đo mực nước, điện tâm đồ,… Hướng nghiên cứutrong lĩnh vực khai phá dữ liệu và học máy được nhiều giới khoa học quan tâm hiệnnay. Một trong nhưng khai phá dữ liệu phổ biến hiện nay là khai phá dữ liệu chuỗi thờigian đã và đang thu hút sự quan tâm của nhiều nhà nghiên cứu trên thế giới. Có rất nhiều dạng bài toán khai phá dữ liệu chuỗi thời gian như: Gom cụm, Lập chỉmục, Phân lớp, Phát hiện Motif, Phát hiện bất thường,. . .được áp dụng trong nhiều lĩnh 350vực như: chứng khoán - tài chính – ngân hàng, y học, thiên văn học, địa chất, côn trùnghọc … Các lĩnh vực nghiên cứu như y học hay tài chính, ngân hàng, … thường yêu cầuvề độ chính xác cao. Việc lựa chọn độ đo khoảng cách hợp lý cho các bài toán nêu trên là rất cần thiết, vìmỗi dữ liệu chuỗi thời gian có những đặc tính và đặc thù riêng của nó (tùy theo dự án:project đang thực hiện) nên độ đo khoảng cách thường ảnh hưởng nhiều đến các kết quảkhai phá dữ liệu. Cho nên việc xác định độ đo khoảng cách trên dữ liệu chuỗi thời gianđóng vai trò quan trọng đối với những bài toán khai phá dữ liệu chuỗi thời gian. Bài viết này nhằm giới thiệu tổng quan mang tính học thuật về các độ đo khoảng cáchthường áp dụng trên các chuỗi dữ liệu thời gian trong các các bài toán về phân tích vàquản trị dữ liệu thông minh. Đối tượng tham khảo bài viết này gồm: các giảng viên đại học, người học, nhà nghiêncứu thuộc chuyên ngành Khoa học dữ liệu và Khoa học máy tính nói chung.2. GIỚI THIỆU VỀ CHUỖI DỮ LIỆU THỜI GIAN2.1. Chuỗi thời gian (Time Series Data: TSD) 1 Chuỗi thời gian T = t1, t2, … tn là một tập theo thứ tự các biến giá trị thực có chiều dài n. Ví dụ về chuỗi thời gian là: lưu lượng mưa hàng năm ở miền nam Việt Nam, kếtquả điện tâm đồ (như Hình 11) [19], thời tiết… Hình 11. Minh họa về chuỗi dữ liệu thời gian Điện tâm đồ ECG1 Có nhiều khái niệm về TSD (theo nhiều góc độ khác nhau), đây là khái niệm được tổng hợp và biên tập bởi tác giải bài viết này. 3512.2. Chuỗi con Cho một chuỗi con Ti,m của chuỗi thời gian T = (t1, t2…, tn), là một tập hợp con liên tục các giá trị của T có độ dài m, bắt đầu từ vị trí i. Ti,m = (ti,ti+1,…,ti+m-1) với 1≤ i ≤ n-m+1 [1].2.3. Cửa sổ trượt (Sliding Window) Cho một dữ liệu chuỗi thời gian T có chiều dài n, để xác định được chuỗi con có chiều dài m, ta dùng một cửa sổ trượt có kích thước m trượt qua từng điểm từ trái sang phải trên chuỗi T để xác định mỗi chuỗi con Q như Hình 12. Hình 12. Minh họa cửa sổ trượt trên chuỗi dữ liệu thời gian2.4. So trùng mẫu Cho một số thực R (gọi là phạm vi và do người dùng định nghĩa) và một dữ liệu chuỗi thời gian T chứa một chuỗi con C bắt đầu tại vị trí p và một chuỗi con M bắt đầu tại vị trí q, nếu hàm tính khoảng cách từ C đến M ký hiệu D(C, M) ≤ R (ta dùng công thức tính khoảng cách euclid để tính toán khoảng cách giữa 2 chuỗi con) [1] thì ta nói là chuỗi con M khớp được với chuỗi con C, như Hình 13. Hình 13. Minh họa về So trùng mẫu giữa chuỗi con C và chuỗi con M được trích từ chuỗi dữ liệu thời gian T2.4.1. So trùng tầm thường Cho một số thực dương R và một chuỗi thời gian T. Một chuỗi con Ci của T bắt đầu tại vị trí i và một chuỗi con Cj của T bắt đầu tại vị trí j, nếu DIST(Ci , Cj) ≤ R thì Cj được gọi là chuỗi con tương tự của Ci. ...
Nội dung trích xuất từ tài liệu:
Các độ đo khoảng cách trên chuỗi dữ liệu thời gian ứng dụng trong phân tích và quản trị dữ liệu thông minh (Distance measures for Time series data in Smart Data Analytics and Management)CÁC ĐỘ ĐO KHOẢNG CÁCH TRÊN CHUỖI DỮ LIỆU THỜI GIAN ỨNG DỤNG TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG MINH(Distance measures for Time series data in Smart Data Analytics and Management) VÕ XUÂN THỂ Khoa Công nghệ Thông tin. Trường Đại học Tài chính – Marketing Email: vxthe@ufm.edu.vn Tóm tắt: Bài viết này giới thiệu một số phương pháp xác định độ đo khoảng cách thường ápdụng trong việc xác định khoảng cách khác biệt giữa các điểm dữ liệu trong chuỗi dữ liệu theo thờigian. Đây là một vần đề quan trọng trong việc xây dựng mô hình các bài toán về quản trị dữ liệuthông minh và phân tích dữ liệu thông minh trên các chuỗi dữ liệu theo thời gian (Time SeriesData). Có rất nhiều bài toán về dữ liệu thông minh trên chuỗi dữ liệu thời gian được áp dụng trongthực tiễn thuộc nhiều lĩnh vực khác nhau, như: kinh tế, xã hội, khoa học – kỹ thuật. Đây là nhữngbài toán góp phần vào Cách mạng công nghiệp lần thứ 4 trên nền tảng BigData. Mỗi độ đo khoảngcách có tính hiệu quả nhất định cho từng bài toán Data Base theo từng dự án (Projetc) thực tiễn,vì vậy việc lựa chọn một độ đo khoảng cách hợp lý cho từng bài toán là rất cần thiết, và đó cũnglà mục tiêu giới thiệu của bài viết này. Một số độ đo thông dụng thường áo dụng trên chuỗi dữ liệutheo thời gian, như: độ đo Hamming, độ đo tựa (tương tự) Cosin, độ đo Minkowski , độ đoManhattan, độ đo Euclidean và độ đo Chebyshev sẽ được giới thiệu trong bài viết này. đặc biệt làđộ đo Euclidean. Từ khóa: Chuỗi dữ liệu thời gian – Time series data, độ đo khoảng cách - Distance Measures,Phân tích dữ liệu thông minh – Smart Data analytics, Quản trị dữ liệu thông tin – Smart DataManagement.1. GIỚI THIỆU CHUNG Cuộc cách mạng công nghiệp lần thứ 4 đã và đang mang lại nhiều kết quả cũng nhưthách thức lớn cho ngành khoa học máy tính nói chung và lĩnh vực khai phá dữ liệu nóiriêng, đặc biệt là dữ liệu có yếu tố thời gian như: tỷ giá ngoại tệ, giá vàng, chỉ số chứngkhoán, dự báo thời tiết, thiên văn học, đo mực nước, điện tâm đồ,… Hướng nghiên cứutrong lĩnh vực khai phá dữ liệu và học máy được nhiều giới khoa học quan tâm hiệnnay. Một trong nhưng khai phá dữ liệu phổ biến hiện nay là khai phá dữ liệu chuỗi thờigian đã và đang thu hút sự quan tâm của nhiều nhà nghiên cứu trên thế giới. Có rất nhiều dạng bài toán khai phá dữ liệu chuỗi thời gian như: Gom cụm, Lập chỉmục, Phân lớp, Phát hiện Motif, Phát hiện bất thường,. . .được áp dụng trong nhiều lĩnh 350vực như: chứng khoán - tài chính – ngân hàng, y học, thiên văn học, địa chất, côn trùnghọc … Các lĩnh vực nghiên cứu như y học hay tài chính, ngân hàng, … thường yêu cầuvề độ chính xác cao. Việc lựa chọn độ đo khoảng cách hợp lý cho các bài toán nêu trên là rất cần thiết, vìmỗi dữ liệu chuỗi thời gian có những đặc tính và đặc thù riêng của nó (tùy theo dự án:project đang thực hiện) nên độ đo khoảng cách thường ảnh hưởng nhiều đến các kết quảkhai phá dữ liệu. Cho nên việc xác định độ đo khoảng cách trên dữ liệu chuỗi thời gianđóng vai trò quan trọng đối với những bài toán khai phá dữ liệu chuỗi thời gian. Bài viết này nhằm giới thiệu tổng quan mang tính học thuật về các độ đo khoảng cáchthường áp dụng trên các chuỗi dữ liệu thời gian trong các các bài toán về phân tích vàquản trị dữ liệu thông minh. Đối tượng tham khảo bài viết này gồm: các giảng viên đại học, người học, nhà nghiêncứu thuộc chuyên ngành Khoa học dữ liệu và Khoa học máy tính nói chung.2. GIỚI THIỆU VỀ CHUỖI DỮ LIỆU THỜI GIAN2.1. Chuỗi thời gian (Time Series Data: TSD) 1 Chuỗi thời gian T = t1, t2, … tn là một tập theo thứ tự các biến giá trị thực có chiều dài n. Ví dụ về chuỗi thời gian là: lưu lượng mưa hàng năm ở miền nam Việt Nam, kếtquả điện tâm đồ (như Hình 11) [19], thời tiết… Hình 11. Minh họa về chuỗi dữ liệu thời gian Điện tâm đồ ECG1 Có nhiều khái niệm về TSD (theo nhiều góc độ khác nhau), đây là khái niệm được tổng hợp và biên tập bởi tác giải bài viết này. 3512.2. Chuỗi con Cho một chuỗi con Ti,m của chuỗi thời gian T = (t1, t2…, tn), là một tập hợp con liên tục các giá trị của T có độ dài m, bắt đầu từ vị trí i. Ti,m = (ti,ti+1,…,ti+m-1) với 1≤ i ≤ n-m+1 [1].2.3. Cửa sổ trượt (Sliding Window) Cho một dữ liệu chuỗi thời gian T có chiều dài n, để xác định được chuỗi con có chiều dài m, ta dùng một cửa sổ trượt có kích thước m trượt qua từng điểm từ trái sang phải trên chuỗi T để xác định mỗi chuỗi con Q như Hình 12. Hình 12. Minh họa cửa sổ trượt trên chuỗi dữ liệu thời gian2.4. So trùng mẫu Cho một số thực R (gọi là phạm vi và do người dùng định nghĩa) và một dữ liệu chuỗi thời gian T chứa một chuỗi con C bắt đầu tại vị trí p và một chuỗi con M bắt đầu tại vị trí q, nếu hàm tính khoảng cách từ C đến M ký hiệu D(C, M) ≤ R (ta dùng công thức tính khoảng cách euclid để tính toán khoảng cách giữa 2 chuỗi con) [1] thì ta nói là chuỗi con M khớp được với chuỗi con C, như Hình 13. Hình 13. Minh họa về So trùng mẫu giữa chuỗi con C và chuỗi con M được trích từ chuỗi dữ liệu thời gian T2.4.1. So trùng tầm thường Cho một số thực dương R và một chuỗi thời gian T. Một chuỗi con Ci của T bắt đầu tại vị trí i và một chuỗi con Cj của T bắt đầu tại vị trí j, nếu DIST(Ci , Cj) ≤ R thì Cj được gọi là chuỗi con tương tự của Ci. ...
Tìm kiếm theo từ khóa liên quan:
Kỷ yếu hội thảo khoa học Hội thảo Phân tích - quản trị dữ liệu thông minh Chuỗi dữ liệu thời gian Quản trị dữ liệu thông tin Phân tích dữ liệu thông tin Bài toán khai phá dữ liệu chuỗi thời gianGợi ý tài liệu liên quan:
-
Yếu tố nhận diện người thứ ba ngay tình trong giao dịch dân sự
11 trang 316 0 0 -
197 trang 275 0 0
-
Cách tính nhanh giá trị riêng của ma trận vuông cấp 2 và cấp 3
4 trang 271 0 0 -
Một số vấn đề về chuyển đổi số và ứng dụng trong doanh nghiệp
11 trang 258 0 0 -
Quản lý dữ liệu thông tin người hưởng bảo hiểm xã hội
6 trang 224 0 0 -
Thuật toán khai phá tập mục thường xuyên trong cơ sở dữ liệu lớn thông qua mẫu đại diện
11 trang 221 0 0 -
Phương pháp nhận diện biển số xe ô tô sử dụng học máy và thư viện OpenCV
6 trang 205 0 0 -
11 trang 205 0 0
-
Nghi thức chào hỏi trong văn hóa giao tiếp của người Nhật
13 trang 158 0 0 -
Một số ứng dụng của xác suất thống kê
5 trang 145 0 0