Phương pháp phân cụm từ tiếng Việt dựa trên phương pháp Dendrogram và Wikipedia
Thông tin tài liệu:
Nội dung trích xuất từ tài liệu:
Phương pháp phân cụm từ tiếng Việt dựa trên phương pháp Dendrogram và WikipediaTẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG - SỐ 7(80).2014 129 PHƯƠNG PHÁP PHÂN CỤM TỪ TIẾNG VIỆT DỰA TRÊN PHƯƠNG PHÁP DENDROGRAMVÀ WIKIPEDIAVIETNAMESE WORDS CLUSTERING METHOD BASED ON DENDROGRAM AND WIKIPEDIA Nguyễn Thị Lệ Quyên, Phạm Minh Tuấn Trường Đại học Bách khoa, Đại học Đà Nẵng; Email: quyen09t1@gmail.com, pmtuan@dut.udn.vnTóm tắt - Ngày nay, cùng với phát triển thông tin một cách nhanh Abstract - Nowadays, within the development of quick informationchóng, việc phân loại văn bản tự động đang là một vấn đề cấp thiết. technology, the automatic document classification is an urgent issue.Nhiều phương pháp học máy như cây quyết định, mạng nơron Many machine learning methods such as decision trees, artificialnhân tạo hay máy vector hỗ trợ được áp dụng cho tiếng Anh và neural networks and support vector machines are applied to classifymang lại hiệu quả cao.Tuy nhiên các phương pháp này lại gặp khó English documents and bring high efficiency. However, thesekhăn khi áp dụng cho phân loại tiếng Việt vì tiếng Việt có rất nhiều methods are difficult to apply to classify Vietnamese documentstừ đồng nghĩa nhưng cách biễu diễn khác nhau. Báo cáo này đề because Vietnamese has many synonyms but performing differentxuất phương pháp phân cụm các từ tiếng Việt dựa vào tần số xuất ways. This paper proposed a Vietnamese word clustering methodshiện cùng nhau trên một trang Wikipedia tiếng Việt nhằm rút gọn based on frequency appearing together on a Vietnamese Wikipediavector thuộc tính của văn bản. Báo cáo này đồng thời đề xuất sử page to shortened the length of feature vector of the document. Thisdụng phương pháp phân tích nhóm (Cluster Analysis) sử dụng đồ paper also proposed methods using cluster analysis based on graphthị dendrogram trong việc phân cụm các từ Tiếng Việt. Kết quả clustering dendrogram. The experimental results show that thethực nghiệm cho thấy phương pháp đề xuất đã phân cụm đúng proposed method has the correct clustering of the synonyms and thecác từ đồng nghĩa và các từ có chung một chủ đề. words with a common theme.Từ khóa - Văn bản tiếng Việt, Phân cụm từ, Phân tích nhóm, Key words - Vietnamese documents; words clustering; clusterdendrogram, wikipedia analysis; dendrogram; wikipedia1. Đặt vấn đề là một trong số các phương pháp VSM thông dụng có thể kể tới. Từ kết quả phương pháp VSM này, các mô hình xác suất Ngày nay, việc trao đổi thông tin hầu hết đều dưới dạng được xây dựng thông qua học máy (Machine Learning)văn bản như: thời sự, tư liệu, tài liệu, kết quả nghiên cứu nhằm mục đích phân loại văn bản một cách tự động.khoa học… Cùng với việc phát triển tri thức cũng như toàncầu hóa về internet, số lượng văn bản này ngày càng được Trong nghiên cứu này, tác giả chú trọng vào các vấn đềgia tăng và lan truyền rộng rãi một cách nhanh chóng. Tuy trích chọn đặc tính trong phân loại văn bản tiếng Việtnhiên, trong quá trình lan truyền và cập nhật thông tin một [2][3][9]. Vấn đề được đặt ra là trong tiếng Việt có rấtcách nhanh chóng này, các thông tin được lưu trữ (dưới nhiều từ đồng nghĩa nhưng cách viết các ký tự lại khác nhaudạng tài liệu số) cũng ngày càng tăng và rất khó khăn trong trên văn bản số. Ví dụ như, nghĩa các từ “khủng khiếp”,việc sắp xếp hay truy vấn tài liệu nếu không được phân loại “kinh khủng” và “kinh hoàng” rất tương đồng nhưng khimột cách hợp lý. so sánh về mặt ký tự thì không giống nhau, dẫn tới các văn bản cùng nghĩa nhưng khác về cách viết sẽ có hệ số hàm Phân loại văn bản là một vấn đề quan trọng trong lĩnh tương quan thấp. Ngoài ra, trong tiếng Việt cũng có rấtvực xử lý ngôn ngữ. Nhiệm vụ của bài toán là phân loại các nhiều nhóm từ thường xuất hiện đi kèm cùng nhau trongtài liệu vào các nhóm chủ đề cho trước. Đây là bài toán một văn bản. Ví dụ như từ “nhồi máu” thường đi với từ “cơthường gặp trong th ...
Tìm kiếm theo từ khóa liên quan:
Văn bản tiếng Việt Phân cụm từ Phân tích nhóm Phương pháp VSM Phân loại văn bảnGợi ý tài liệu liên quan:
-
Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định
7 trang 274 0 0 -
Văn bản tiếng Việt - Lý thuyết và thực hành: Phần 1
249 trang 61 1 0 -
Tiểu luận môn Kỹ năng tạo lập văn bản
53 trang 49 0 0 -
78 trang 42 0 0
-
Một ý kiến nhỏ về cách ghi dấu thanh trên văn bản tiếng Việt
3 trang 38 0 0 -
Phân loại văn bản dựa trên kỹ thuật khai thác đồ thị con phổ biến
5 trang 36 0 0 -
Đề xuất thuật toán phân loại văn bản tiếng Việt sử dụng mạng LSTM và Word2vec
13 trang 33 0 0 -
Bài giảng Xử lý ngôn ngữ tự nhiên (Natural Language Processing): Bài 7.3 - Lê Thanh Hương
4 trang 31 0 0 -
Kỹ thuật xây dựng và ban hành văn bản: Phần 1 - TS. Lưu Kiếm Thanh
172 trang 31 0 0 -
Bài giảng kỹ thuật soạn thảo văn bản
185 trang 31 0 0 -
Ứng dụng mô hình BERT cho bài toán phân loại hồ sơ theo thời hạn bảo quản
9 trang 28 0 0 -
Văn bản tiếng Việt - Lý thuyết và thực hành: Phần 2
98 trang 27 0 0 -
LUẬN VĂN: NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT
73 trang 26 0 0 -
Phân loại ngôn ngữ theo quan hệ cội nguồn
3 trang 25 0 0 -
Nhận diện ngôn ngữ độc hại tiếng Việt
12 trang 24 0 0 -
10 trang 23 0 0
-
Luận án Tiến sĩ Toán học: Nghiên cứu, phát triển các kỹ thuật tự động tóm tắt văn bản tiếng Việt
168 trang 22 0 0 -
Giáo trình Quản trị hành chính văn phòng: Phần 2
116 trang 22 0 0 -
Hệ thống trả lời tự động tư vấn tuyển sinh sau đại học
8 trang 22 0 0 -
132 trang 21 0 0