![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên
Số trang: 8
Loại file: pdf
Dung lượng: 392.52 KB
Lượt xem: 8
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Trong bài viết "Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên" đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê. Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản lượng cây nông nghiệp của tỉnh Thái Nguyên
Nội dung trích xuất từ tài liệu:
Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2 1 Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên, 2 Đại học Nội vụ Hà Nội TÓM TẮT Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê. Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản lượng cây nông nghiệp của tỉnh Thái Nguyên. Keywords: Dữ liệu thống kê, dự báo, thông tin địa lý, phân cụm mờ, phân cụm bán giám sát, độ đo, sản lượng cây nông nghiệp GIỚI THIỆU* Khai phá dữ liệu là một khái niệm ra đời vào cuối những năm 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ liệu (CSDL) và có thể xem là một bước trong quá trình khám phá tri thức. Khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ CSDL, các tri thức này sẽ hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo dục, kinh doanh, dự báo,… Trong những năm trở lại, đây việc nghiên cứu về khai phá dữ liệu đã có xu hướng chuyển từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ liệu không gian [12, 17]. Sự thay đổi này không những giúp hiểu được dữ liệu không gian mà còn giúp khám phá được mối quan hệ giữa dữ liệu không gian và phi không gian, các mô hình dựa trên tri thức không gian, phương pháp tối ưu câu truy vấn, tổ chức dữ liệu trong cơ sở dữ liệu không gian, ... Khai phá dữ liệu không gian được sử dụng nhiều trong các hệ thống thông tin địa lý (GIS) [5], viễn thám [16], khai phá dữ liệu * Email: nthuong@ictu.edu.vn ảnh, ảnh y học [1],… Khám phá tri thức từ dữ liệu không gian có thể được thực hiện dưới nhiều hình thức khác nhau như sử dụng các quy tắc đặc trưng và quyết định, trích rút và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian,… Các dữ liệu về kinh tế, xã hội, môi trường … đều gắn với các địa phương, tức là các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá dữ liệu. Có nhiều phương pháp khai phá dữ liệu, trong đó phân cụm là một phương pháp được sử dụng khá nhiều. Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau như: dựa trên phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ hay dựa trên mô hình [6,18], dựa trên đồ thị… và phân cụm dữ liệu địa lý là một hướng nghiên cứu nhiều triển vọng. Trong các phương pháp phân cụm bao gồm phân cụm có giám sát, phân cụm không giám sát và phân cụm bán giám sát thì các thuật toán phân cụm bán giám sát, đặc biệt là phân cụm bán giám sát mờ rất hiệu quả trong các lĩnh vực như xử lý ảnh [4, 6, 9], nhận dạng mẫu, nhận dạng khuôn mặt [1, 7], đánh giá rủi ro [3], dự báo phá sản [8]. Trong báo cáo này, 23 Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 nhóm tác giả đề cập đến các thuật toán phân cụm bán giám sát mờ với dữ liệu thông tin về một số chỉ số về sản lượng cây nông nghiệp trên địa bàn tỉnh Thái Nguyên. Trên cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào chương trình thực hiện thuật toán phân cụm bán giám sát mờ với dữ liệu không gian, chúng tôi sẽ áp dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm bán giám sát mờ. Do vậy, đóng góp chính của bài báo đã đưa ra một mô hình kết hợp phân cụm bán giám sát mờ với hệ thống thông tin địa lý (GIS: geographic information system) để phân tích và dự báo các số liệu thống kê thông qua việc thu thập các số liệu thống kê về sản lượng cây lương thực có hạt phân theo huyện/thị xã/thành phố của tỉnh Thái Nguyên từ 2011 đến 2015, từ đó cài đặt thực nghiệm mô hình đề xuất với các số liệu thống kê thu thập được. cùng một cụm là tương đồng cao, còn các phần tử dữ liệu thuộc các cụm khác nhau sẽ tương đồng thấp. Ý nghĩa của nghiên cứu này đưa ra một mô hình hiệu quả trong việc phân tích các số liệu thống kê để từ đó dự báo số liệu trong thời gian sắp tới. Quá trình phân tích và dự báo này có ý nghĩa rất lớn với nhà quản lý và doanh nghiệp để hoạch định các chiến lược phát triển nông nghiệp tại tỉnh Thái Nguyên trong thời gian tiếp theo. + m là số mờ hóa + C là số cụm, N là số phần tử dữ liệu, r là số chiều của dữ liệu. + ukj là độ thuộc của phần tử dữ liệu Xk vào cụm j. + X k R r là phần tử thứ k của dữ liệu Trong các phần tiếp theo của báo cáo chúng tôi trình bày như sau: phần 2, trình bày về các kiến thức cơ sở bao gồm kiến thức về phân cụm bán giám sát mờ và kiến thức về dữ liệu địa lý. Phần 3 đưa ra mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Phần 4 là một số kết quả thực nghiêm mô hình kết hợp đề xuất dựa trên bộ dữ liệu thực tế. Cuối cùng là kết luận và các hướng phát triển trong thời gian tới. Khi đó ràng buộc của bài toán là: Phân cụm dữ liệu cứng là phương pháp phân cụm mà mỗi phần tử thuộc CSDL chỉ thuộc vào đúng một cụm. Còn trong phân cụm dữ liệu mờ, mỗi phần tử dữ liệu có thể thuộc vào nhiều hơn một cụm v ...
Nội dung trích xuất từ tài liệu:
Ứng dụng phân cụm bán giám sát mờ trong phân tích và dự báo dữ liệu sản lượng cây nông nghiệp tỉnh Thái Nguyên Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 ỨNG DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG PHÂN TÍCH VÀ DỰ BÁO DỮ LIỆU SẢN LƯỢNG CÂY NÔNG NGHIỆP TỈNH THÁI NGUYÊN Nguyễn Thu Hương1*, Trần Duy Minh1, Nguyễn Thu Huyền2 1 Trường Đại học Công nghệ thông tin & Truyền thông – ĐH Thái Nguyên, 2 Đại học Nội vụ Hà Nội TÓM TẮT Phân tích dữ liệu và xử lý thống kê thông tin sao cho có hiệu quả là một trong những vấn đề đã và được nhiều nhà khoa học quan tâm. Từ các số liệu thống kê chúng ta phân tích nhằm thu được các thông tin hữu ích cho người sử dụng đồng thời từ đó dự báo các số liệu tương lai là một trong những bài toán đã được nhiều nhà khoa học quan tâm. Nhằm giải quyết bài toán này, trong thời gian gần đây các người ta quan tâm đến các phương pháp tính toán thông tin kết hợp với hệ thống thông tin địa lý để phân tích và dự báo các số liệu thống kê. Trong bài báo này, nhóm nghiên cứu của chúng tôi đề xuất một mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Trong đó kỹ thuật phân cụm bán giám sát mờ sử dụng để phân tích số liệu thống kê, hệ thống thông tin địa lý dùng để dự báo các số liệu thống kê. Trên cơ sở mô hình mới đề xuất chúng tôi thực nghiệm với dữ liệu thực tế về một số chỉ số về sản lượng cây nông nghiệp của tỉnh Thái Nguyên. Keywords: Dữ liệu thống kê, dự báo, thông tin địa lý, phân cụm mờ, phân cụm bán giám sát, độ đo, sản lượng cây nông nghiệp GIỚI THIỆU* Khai phá dữ liệu là một khái niệm ra đời vào cuối những năm 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ liệu (CSDL) và có thể xem là một bước trong quá trình khám phá tri thức. Khai phá dữ liệu là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ CSDL, các tri thức này sẽ hỗ trợ trong việc ra quyết định trong các lĩnh vực như: khoa học, giáo dục, kinh doanh, dự báo,… Trong những năm trở lại, đây việc nghiên cứu về khai phá dữ liệu đã có xu hướng chuyển từ cơ sở dữ liệu quan hệ và cơ sở dữ liệu giao dịch sang cơ sở dữ liệu không gian [12, 17]. Sự thay đổi này không những giúp hiểu được dữ liệu không gian mà còn giúp khám phá được mối quan hệ giữa dữ liệu không gian và phi không gian, các mô hình dựa trên tri thức không gian, phương pháp tối ưu câu truy vấn, tổ chức dữ liệu trong cơ sở dữ liệu không gian, ... Khai phá dữ liệu không gian được sử dụng nhiều trong các hệ thống thông tin địa lý (GIS) [5], viễn thám [16], khai phá dữ liệu * Email: nthuong@ictu.edu.vn ảnh, ảnh y học [1],… Khám phá tri thức từ dữ liệu không gian có thể được thực hiện dưới nhiều hình thức khác nhau như sử dụng các quy tắc đặc trưng và quyết định, trích rút và mô tả các cấu trúc hoặc cụm nổi bật, kết hợp không gian,… Các dữ liệu về kinh tế, xã hội, môi trường … đều gắn với các địa phương, tức là các dữ liệu địa lý, và nhiều bài toán thực tế đòi hỏi phải khai phá dữ liệu. Có nhiều phương pháp khai phá dữ liệu, trong đó phân cụm là một phương pháp được sử dụng khá nhiều. Hiện nay đã có nhiều cách tiếp cận thuật toán phân cụm khác nhau như: dựa trên phân hoạch, phân cấp, dựa trên lưới, dựa trên mật độ hay dựa trên mô hình [6,18], dựa trên đồ thị… và phân cụm dữ liệu địa lý là một hướng nghiên cứu nhiều triển vọng. Trong các phương pháp phân cụm bao gồm phân cụm có giám sát, phân cụm không giám sát và phân cụm bán giám sát thì các thuật toán phân cụm bán giám sát, đặc biệt là phân cụm bán giám sát mờ rất hiệu quả trong các lĩnh vực như xử lý ảnh [4, 6, 9], nhận dạng mẫu, nhận dạng khuôn mặt [1, 7], đánh giá rủi ro [3], dự báo phá sản [8]. Trong báo cáo này, 23 Nguyễn Thu Hương và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 189(13): 23 - 30 nhóm tác giả đề cập đến các thuật toán phân cụm bán giám sát mờ với dữ liệu thông tin về một số chỉ số về sản lượng cây nông nghiệp trên địa bàn tỉnh Thái Nguyên. Trên cơ sở tìm hiểu nắm vững kỹ thuật xử lý dữ liệu không gian và vận dụng được vào chương trình thực hiện thuật toán phân cụm bán giám sát mờ với dữ liệu không gian, chúng tôi sẽ áp dụng với các dữ liệu thực tế, phân tích diễn giải ý nghĩa kết quả phân cụm bán giám sát mờ. Do vậy, đóng góp chính của bài báo đã đưa ra một mô hình kết hợp phân cụm bán giám sát mờ với hệ thống thông tin địa lý (GIS: geographic information system) để phân tích và dự báo các số liệu thống kê thông qua việc thu thập các số liệu thống kê về sản lượng cây lương thực có hạt phân theo huyện/thị xã/thành phố của tỉnh Thái Nguyên từ 2011 đến 2015, từ đó cài đặt thực nghiệm mô hình đề xuất với các số liệu thống kê thu thập được. cùng một cụm là tương đồng cao, còn các phần tử dữ liệu thuộc các cụm khác nhau sẽ tương đồng thấp. Ý nghĩa của nghiên cứu này đưa ra một mô hình hiệu quả trong việc phân tích các số liệu thống kê để từ đó dự báo số liệu trong thời gian sắp tới. Quá trình phân tích và dự báo này có ý nghĩa rất lớn với nhà quản lý và doanh nghiệp để hoạch định các chiến lược phát triển nông nghiệp tại tỉnh Thái Nguyên trong thời gian tiếp theo. + m là số mờ hóa + C là số cụm, N là số phần tử dữ liệu, r là số chiều của dữ liệu. + ukj là độ thuộc của phần tử dữ liệu Xk vào cụm j. + X k R r là phần tử thứ k của dữ liệu Trong các phần tiếp theo của báo cáo chúng tôi trình bày như sau: phần 2, trình bày về các kiến thức cơ sở bao gồm kiến thức về phân cụm bán giám sát mờ và kiến thức về dữ liệu địa lý. Phần 3 đưa ra mô hình kết hợp giữa phân cụm bán giám sát mờ với hệ thống thông tin địa lý để phân tích và dự báo số liệu thống kê. Phần 4 là một số kết quả thực nghiêm mô hình kết hợp đề xuất dựa trên bộ dữ liệu thực tế. Cuối cùng là kết luận và các hướng phát triển trong thời gian tới. Khi đó ràng buộc của bài toán là: Phân cụm dữ liệu cứng là phương pháp phân cụm mà mỗi phần tử thuộc CSDL chỉ thuộc vào đúng một cụm. Còn trong phân cụm dữ liệu mờ, mỗi phần tử dữ liệu có thể thuộc vào nhiều hơn một cụm v ...
Tìm kiếm theo từ khóa liên quan:
Ứng dụng phân cụm bán giám sát mờ Dự báo dữ liệu sản lượng cây nông nghiệp Thông tin địa lý Phân cụm mờ Phân cụm bán giám sát Sản lượng cây nông nghiệpTài liệu liên quan:
-
Phân vùng ảnh viễn thám kích thước lớn dựa trên phân cụm mờ
7 trang 103 0 0 -
Hướng dẫn sử dụng Mapinfo Professional-Phần cơ bản
57 trang 87 0 0 -
trang 50 0 0
-
Phân cụm mờ với trọng số mũ ngôn ngữ
10 trang 33 0 0 -
Giáo trình Hệ thống thông tin địa lý - Trần Thị Băng Tâm
140 trang 33 0 0 -
Tiểu luận : 'Nghiên cứu công nghệ viễn thám và GIS trong thành lập bản chuyên đề'
31 trang 32 0 0 -
Một tiếp cận phân vùng ảnh viễn thám dựa trên MapReduce và phân cụm mờ
8 trang 29 0 0 -
24 trang 28 0 0
-
Mô hình hệ thống phát hiện bất thường sử dụng thuật toán phân cụm mờ lai ghép
15 trang 25 0 0 -
Hướng dẫn sử dụng MapInfo Professional 7.5 - Chương 5
0 trang 25 0 0