Phân cụm trực quan tập các bài báo khoa học theo mô hình nguyên tử trong không gian ba chiều
Số trang: 8
Loại file: pdf
Dung lượng: 444.15 KB
Lượt xem: 16
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài báo này đề xuất một cách tiếp cận mới để xây dựng một hệ thống phân cụm trực quan bằng hình ảnh 3D cho việc phân nhóm các bài báo khoa học bằng cách sử dụng kết hợp hai kỹ thuật trong lĩnh vực trí tuệ nhân tạo là SOM và k-means. Cụ thể, SOM sẽ đóng vai trò cho việc cung cấp một hình ảnh trực quan để quyết định tham số K cho thuật toán k-means tiếp theo.
Nội dung trích xuất từ tài liệu:
Phân cụm trực quan tập các bài báo khoa học theo mô hình nguyên tử trong không gian ba chiều1PHÂN CỤM TRỰC QUAN TẬP CÁC BÀI BÁO KHOA HỌCTHEO MÔ HÌNH NGUYÊN TỬ TRONG KHÔNG GIAN BA CHIỀUVisually clustering research papers using an atom model in 3D spaceNghị Vĩnh Khanh1Tóm tắtAbstractBài báo này đề xuất một cách tiếp cận mới đểxây dựng một hệ thống phân cụm trực quan bằnghình ảnh 3D cho việc phân nhóm các bài báo khoahọc bằng cách sử dụng kết hợp hai kỹ thuật tronglĩnh vực trí tuệ nhân tạo là SOM và k-means. Cụthể, SOM sẽ đóng vai trò cho việc cung cấp mộthình ảnh trực quan để quyết định tham số K chothuật toán k-means tiếp theo. Một thiết kế đồ thị sẽthể hiện các cụm mà mỗi cụm được đại diện bởimột hạt nhân (tâm của cụm) và các điện tử (cácbài báo) bao quanh. Các điện tử sẽ quay quanh hạtnhân bằng các lực hấp dẫn. Bên cạnh đó, chúng tôisử dụng kỹ thuật ArcBall trong lĩnh vực đồ họa máytính ba chiều để hỗ trợ sự tương tác người dùng.Dựa trên hệ thống này, người dùng có thể thựchiện đánh giá sự thống nhất về cấu trúc cụm theocách đơn giản hơn các phương pháp trước đây.This paper proposes a new approach toconstruct a visually clustering system with 3Dimage for scientific papers by using two combinedtechniques in the field of artificial intelligence,which are SOM and k -means. Specifically, theSOM will play an important role in providing avisual image in order to determine parameter Kfor k-means algorithm in the next step. A graphlayout is designed to show the clusters, each ofwhich is represented by an atomic nucleus (thecenter of cluster) and electron (the papers) around.The electron will orbit the nucleus by the force ofgravity. In addition, ArcBall techniques (in 3Dcomputer graphics field) are used to support userinteraction. Based on this system, users are able toevaluate the unification of Cluster’s structure in asimpler way than in the previous ones.Từ khóa: phân cụm, trực quan hóa, trí tuệ nhântạo, đồ họa ba chiều, tương tác người dùng.Key words: clustering, visualization, artificialintelligence, 3D computer graphic, user interaction.1. Giới thiệu 1Trong bài báo này, chúng tôi đề xuất mộtthiết kế đồ họa trực quan ba chiều gọi là mô hìnhcấu trúc nguyên tử cho việc phân cụm dữ liệu. Môhình này sử dụng giải thuật SOM để ước lượngsố các cụm cần được tách ra từ tập các tài liệu nóichung và các bài báo khoa học nói riêng (được viếtbằng tiếng Anh) có định dạng PDF. Sau đó, dựatrên mô hình không gian vector, cụ thể là vectortf-idf, chúng tôi sử dụng thuật toán k-means đểtách tập dữ liệu thành k nhóm. Cuối cùng cáccụm sẽ được trực quan hóa thành dạng các cấutrúc nguyên tử trong không gian ba chiều. Để đơngiản, chúng tôi tổ chức một nguyên tử có tối đanăm mức năng lượng được tính bằng độ tươngđồng Cosin giữa các vector điện tử và hạt nhân.Sự phân cụm là một trong những kỹ thuật rấtcần thiết cho việc khám phá tri thức nhân loại. Nógiúp cho chúng ta tách các nhóm đối tượng từ tậpdữ liệu dựa trên các đặc tính tương đồng trongnhóm. Ngày nay, các kỹ thuật phân cụm được sửdụng rộng rãi trong các ứng dụng như khai phá dữliệu, xử lý ảnh, nhận dạng mẫu, thống kê, tin sinhhọc và các lĩnh vực khác. Bên cạnh đó, áp dụng cáckỹ thuật trực quan trong việc phân tích cụm dữ liệurất quan trọng trong việc thể hiện xu hướng củacác tập dữ liệu, nó cho chúng ta cái nhìn tổng quancũng như sự hiểu biết chi tiết về tập dữ liệu. Hiệnnay, nhiều nghiên cứu đã và đang tập trung về vấnđề phân tích trực quan các cụm rất thành công nhưGrand Tour, OPTICS, HD-EYE, H-BLOB, StarCoordinate (Ankerst, Mihael; Grinstein, Georges;Keim, Daniel;, 2002), SOM-based techniques(Kohoren, 1997), HOV3 (Zhang, Ke-Bing; Orgun,Mehmet A; Zhang, Kang;, 2006).1Thạc sĩ, Ban Phát triển Hệ thống CNTT, Trường ĐH Trà VinhCách tiếp cận của bài báo này sẽ giải quyếtđược các vấn đề sau:- Thứ nhất, hiển thị được tập các vector nhiềuchiều (lớn hơn 1000) trong không gian ba chiều,trong đó thể hiện rõ sự phân phối dữ liệu, mối quanhệ giữa mỗi tâm của các cụm cũng như giữa cácbài báo khoa học với nhau.Soá 16, thaùng 12/201412- Thứ hai, phương pháp tiếp cận của chúng tôitránh được lựa chọn tùy ý các cụm k bởi sự kết hợpcủa SOM và K-means. Do đó, mô hình này cungcấp cho người dùng một phương pháp trực quan cómục đích và có hiệu quả vào việc phân tích cluster.- Thứ ba, có thể vượt qua giới hạn của khônggian khi so sánh với các phương pháp 2D trướcđó bằng cách sử dụng kỹ thuật arcball để tươngtác. Nó tạo cho chúng ta cảm giác nhập vai vào hệthống và thao tác từng đối tượng giống như chơigame 3D hay sử dụng các hệ thống thực tế ảo - vídụ CAVE (Cruz-Neira C; Sandin D.; DeFanti T.;Kenyon R.; Hart J.;, 1992).Trong các phần sau, chúng tôi tổ chức cấu trúcbài báo như sau: phần 2 - tổng quan các kết quảnghiên cứu trước đây, phần 3 - phương pháp thựchiện, phần 4 - đánh giá kết quả và phần 5 - kết luận.2. Tổng quan các kết quả nghiên ...
Nội dung trích xuất từ tài liệu:
Phân cụm trực quan tập các bài báo khoa học theo mô hình nguyên tử trong không gian ba chiều1PHÂN CỤM TRỰC QUAN TẬP CÁC BÀI BÁO KHOA HỌCTHEO MÔ HÌNH NGUYÊN TỬ TRONG KHÔNG GIAN BA CHIỀUVisually clustering research papers using an atom model in 3D spaceNghị Vĩnh Khanh1Tóm tắtAbstractBài báo này đề xuất một cách tiếp cận mới đểxây dựng một hệ thống phân cụm trực quan bằnghình ảnh 3D cho việc phân nhóm các bài báo khoahọc bằng cách sử dụng kết hợp hai kỹ thuật tronglĩnh vực trí tuệ nhân tạo là SOM và k-means. Cụthể, SOM sẽ đóng vai trò cho việc cung cấp mộthình ảnh trực quan để quyết định tham số K chothuật toán k-means tiếp theo. Một thiết kế đồ thị sẽthể hiện các cụm mà mỗi cụm được đại diện bởimột hạt nhân (tâm của cụm) và các điện tử (cácbài báo) bao quanh. Các điện tử sẽ quay quanh hạtnhân bằng các lực hấp dẫn. Bên cạnh đó, chúng tôisử dụng kỹ thuật ArcBall trong lĩnh vực đồ họa máytính ba chiều để hỗ trợ sự tương tác người dùng.Dựa trên hệ thống này, người dùng có thể thựchiện đánh giá sự thống nhất về cấu trúc cụm theocách đơn giản hơn các phương pháp trước đây.This paper proposes a new approach toconstruct a visually clustering system with 3Dimage for scientific papers by using two combinedtechniques in the field of artificial intelligence,which are SOM and k -means. Specifically, theSOM will play an important role in providing avisual image in order to determine parameter Kfor k-means algorithm in the next step. A graphlayout is designed to show the clusters, each ofwhich is represented by an atomic nucleus (thecenter of cluster) and electron (the papers) around.The electron will orbit the nucleus by the force ofgravity. In addition, ArcBall techniques (in 3Dcomputer graphics field) are used to support userinteraction. Based on this system, users are able toevaluate the unification of Cluster’s structure in asimpler way than in the previous ones.Từ khóa: phân cụm, trực quan hóa, trí tuệ nhântạo, đồ họa ba chiều, tương tác người dùng.Key words: clustering, visualization, artificialintelligence, 3D computer graphic, user interaction.1. Giới thiệu 1Trong bài báo này, chúng tôi đề xuất mộtthiết kế đồ họa trực quan ba chiều gọi là mô hìnhcấu trúc nguyên tử cho việc phân cụm dữ liệu. Môhình này sử dụng giải thuật SOM để ước lượngsố các cụm cần được tách ra từ tập các tài liệu nóichung và các bài báo khoa học nói riêng (được viếtbằng tiếng Anh) có định dạng PDF. Sau đó, dựatrên mô hình không gian vector, cụ thể là vectortf-idf, chúng tôi sử dụng thuật toán k-means đểtách tập dữ liệu thành k nhóm. Cuối cùng cáccụm sẽ được trực quan hóa thành dạng các cấutrúc nguyên tử trong không gian ba chiều. Để đơngiản, chúng tôi tổ chức một nguyên tử có tối đanăm mức năng lượng được tính bằng độ tươngđồng Cosin giữa các vector điện tử và hạt nhân.Sự phân cụm là một trong những kỹ thuật rấtcần thiết cho việc khám phá tri thức nhân loại. Nógiúp cho chúng ta tách các nhóm đối tượng từ tậpdữ liệu dựa trên các đặc tính tương đồng trongnhóm. Ngày nay, các kỹ thuật phân cụm được sửdụng rộng rãi trong các ứng dụng như khai phá dữliệu, xử lý ảnh, nhận dạng mẫu, thống kê, tin sinhhọc và các lĩnh vực khác. Bên cạnh đó, áp dụng cáckỹ thuật trực quan trong việc phân tích cụm dữ liệurất quan trọng trong việc thể hiện xu hướng củacác tập dữ liệu, nó cho chúng ta cái nhìn tổng quancũng như sự hiểu biết chi tiết về tập dữ liệu. Hiệnnay, nhiều nghiên cứu đã và đang tập trung về vấnđề phân tích trực quan các cụm rất thành công nhưGrand Tour, OPTICS, HD-EYE, H-BLOB, StarCoordinate (Ankerst, Mihael; Grinstein, Georges;Keim, Daniel;, 2002), SOM-based techniques(Kohoren, 1997), HOV3 (Zhang, Ke-Bing; Orgun,Mehmet A; Zhang, Kang;, 2006).1Thạc sĩ, Ban Phát triển Hệ thống CNTT, Trường ĐH Trà VinhCách tiếp cận của bài báo này sẽ giải quyếtđược các vấn đề sau:- Thứ nhất, hiển thị được tập các vector nhiềuchiều (lớn hơn 1000) trong không gian ba chiều,trong đó thể hiện rõ sự phân phối dữ liệu, mối quanhệ giữa mỗi tâm của các cụm cũng như giữa cácbài báo khoa học với nhau.Soá 16, thaùng 12/201412- Thứ hai, phương pháp tiếp cận của chúng tôitránh được lựa chọn tùy ý các cụm k bởi sự kết hợpcủa SOM và K-means. Do đó, mô hình này cungcấp cho người dùng một phương pháp trực quan cómục đích và có hiệu quả vào việc phân tích cluster.- Thứ ba, có thể vượt qua giới hạn của khônggian khi so sánh với các phương pháp 2D trướcđó bằng cách sử dụng kỹ thuật arcball để tươngtác. Nó tạo cho chúng ta cảm giác nhập vai vào hệthống và thao tác từng đối tượng giống như chơigame 3D hay sử dụng các hệ thống thực tế ảo - vídụ CAVE (Cruz-Neira C; Sandin D.; DeFanti T.;Kenyon R.; Hart J.;, 1992).Trong các phần sau, chúng tôi tổ chức cấu trúcbài báo như sau: phần 2 - tổng quan các kết quảnghiên cứu trước đây, phần 3 - phương pháp thựchiện, phần 4 - đánh giá kết quả và phần 5 - kết luận.2. Tổng quan các kết quả nghiên ...
Tìm kiếm theo từ khóa liên quan:
Bài báo khoa học Mô hình nguyên tử Không gian ba chiều Tham số K Thuật toán k-means Trực quan hóa Trí tuệ nhân tạo Đồ họa ba chiều Tương tác người dùngGợi ý tài liệu liên quan:
-
Đề cương chi tiết học phần Trí tuệ nhân tạo
12 trang 416 0 0 -
7 trang 210 0 0
-
Kết quả bước đầu của ứng dụng trí tuệ nhân tạo trong phát hiện polyp đại tràng tại Việt Nam
10 trang 166 0 0 -
Xu hướng và tác động của cách mạng công nghiệp lần thứ tư đến môi trường thông tin số
9 trang 161 0 0 -
6 trang 151 0 0
-
9 trang 150 0 0
-
Tìm hiểu về Luật An ninh mạng (hiện hành): Phần 1
93 trang 145 0 0 -
Luận văn tốt nghiệp: Ứng dụng trí tuệ nhân tạo trong xây dựng GAME
0 trang 129 0 0 -
Xác lập tư cách pháp lý cho trí tuệ nhân tạo
6 trang 115 0 0 -
Tác động của ứng dụng công nghệ tài chính đến hiệu quả hoạt động của ngân hàng thương mại Việt Nam
10 trang 113 0 0