Danh mục

Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và tiếng dân tộc thiểu số

Số trang: 5      Loại file: pdf      Dung lượng: 714.17 KB      Lượt xem: 13      Lượt tải: 0    
10.10.2023

Hỗ trợ phí lưu trữ khi tải xuống: miễn phí Tải xuống file đầy đủ (5 trang) 0
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Bài viết nghiên cứu nhằm tạo điều kiện thuận lợi cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát huy hơn nữa hiệu quả quá trình nghiên cứu.
Nội dung trích xuất từ tài liệu:
Nghiên cứu và xây dựng môi trường quản lý, truy cập tài nguyên phục vụ xử lý tiếng Việt và tiếng dân tộc thiểu số ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 12(97).2015, QUYỂN 2 49 NGHIÊN CỨU VÀ XÂY DỰNG MÔI TRƯỜNG QUẢN LÝ, TRUY CẬP TÀI NGUYÊN PHỤC VỤ XỬ LÝ TIẾNG VIỆT VÀ TIẾNG DÂN TỘC THIỂU SỐ RESEARCHING AND BUILDING AN ENVIRONMENT FOR ACCESSING AND MANAGING RESOURCES FOR VIETNAMESE AND ETHNIC MINORITY LANGUAGE PROCESSING Huỳnh Công Pháp, Văn Đỗ Cẩm Vân Trường Cao đẳng Công nghệ Thông tin, Đại học Đà Nẵng; hcphap@gmail.com; van156dnvn@gmail.com Tóm tắt - Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS) Abstract - Nowadays, processing Vietnam ese and ethnic minority là một lĩnh vực nghiên cứu rất được quan tâm và cấp bách đối với languages is an urgent and interesting issue for m any Việt Nam. Vấn đề đặt ra là làm thế nào để tạo điều kiện thuận lợi organizations and individuals. However, the resources which are cho cộng đồng nghiên cứu về lĩnh vực này nhằm nâng cao và phát available to the research of processing Vietnamese language as huy hơn nữa hiệu quả quá trình nghiên cứu. Bởi lẽ, các nguồn tài well as som e languages of m inorities were stored in a discrete way. nguyên phục vụ xử lý TV và TDTTS được lưu trữ phân tán, nên This is the reason why the exploitation and the inheritance of these việc khai thác các nguồn tài nguyên này gặp nhiều khó khăn. Do resources meet a lot of difficulties. Therefore, the paper proposes đó, ý tưởng và giải pháp của bài báo trước hết là tập hợp và xây som e measures to im prove the situation. Firstly, collecting and dựng hệ thống truy cập tập trung các tài nguyên phục vụ xử lý TV constructing a centralized system of scientific documents on this và TDTTS. Sau đó, hợp nhất chúng, tạo nên nguồn dữ liệu lớn field. Secondly, merging them in order to create the bigger hơn. Cuối cùng, xây dựng một hệ thống hoạt động theo kiến trúc resources. Finally, constructing the service – oriented architecture hướng dịch vụ (SOA) sao cho việc truy xuất khai thác các tài system which allows users to access and exploit the tools of nguyên và công cụ xử lý TV và TDTTS dễ dàng và hiệu quả hơn. processing Vietnam ese and m inority languages effectively. Từ khóa - xử lý tiếng Việt; xử lý tiếng dân tộc thiểu số; tập hợp; Key words - process Vietnam ese language; process m inority môi trường quản lý; hợp nhất; khai thác. languages; collect; m anagem ent environm ent; m erge; exploit. 1. Đặt vấn đề 2. Tổng quan về tình hình nghiên cứu xử lý TV và Xử lý tiếng Việt (TV) và tiếng dân tộc thiểu số (TDTTS) TDTTS hiện nay là một trong những nhiệm vụ và hướng nghiên cứu quan Trước chủ trương, chính sách và sự quan tâm đặc biệt trọng đối với sự phát triển của ngành Công nghệ thông tin của Việt Nam về nghiên cứu xử lý TV và TDTTS trên máy hiện nay. Trước xu thế này, nhiều nguồn tài nguyên bao gồm tính, nhiều nhà khoa học và tổ chức trong nước đã nghiên các tài liệu khoa học, dữ liệu, công cụ phục vụ xử lý TV và cứu, phát triển nhiều nguồn tài nguyên xử lý TV và TDTTS. TDTTS được xây dựng và phát triển. Tuy nhiên, một trong 2.1. Tổng quan về các nhóm nghiên cứu xử lý TV và những vấn đề lớn tồn tại hiện nay là các nguồn tài nguyên TDTTS này tồn tại một cách rời rạc, dưới các dạng khác nhau, dẫn đến việc sử dụng và khai thác chúng trở nên rất khó khăn, Trong số rất nhiều tổ chức và cá nhân nghiên cứu về xử thậm chí không thể truy cập được. Thật vậy, hiện nay nhiều lý TV và TDTTS, chúng ta có thể kể đến một số nhóm tài liệu nghiên cứu như bài báo khoa học, luận văn thạc sỹ… nghiên cứu nổi bật, đó là: Nhóm nghiên cứu xử lý tại Trung về xử lý TV và TDTTS đã được công bố, nhưng chúng được tâm DATIC – Khoa Công nghệ thông tin Trường Đại học lưu trữ và quản lý rải rác, không có hệ thống, nên việc truy Bách khoa và các trường thành viên của Đại học Đà Nẵng; cập và nghiên cứu chúng trở nên rất khó khăn. Tương tự, dữ Trung tâm CNTT-TT Sở Thông tin và Truyền thông Gia liệu phục vụ xử lý TV và TDTTS như các kho ngữ liệu, dữ Lai; Công ty TNHH Công nghệ Tin học tuổi trẻ Lạc Việt; liệu từ điển cũng đã được xây dựng, nhưng cấu trúc, định Phòng Nhận dạng và Công nghệ tri thức, Viện Công nghệ dạng khác biệt của chúng cũng đã dẫn đến việc khai thác Thông tin Hà Nội; Trung tâm MICA, Đại học Bách khoa chúng trở nên không hiệu quả. Ngoài ra, nhiều tổ chức, cá Hà Nội; Nhóm nghiên cứu của Khoa CNTT, Trường Đại nhân nghiên cứu phát triển các công cụ phục vụ xử lý TV và học Khoa học Tự nhiên TPHCM… TDTTS một cách đơn lẻ, rời rạc, đôi lúc trùng lặp như các Các nhóm nghiên cứu trên đã thực hiện nhiều công trình bộ từ điển, bộ gõ, công cụ tách đoạn, tách từ, gióng hàng, nghiên cứu, hướng dẫn nhiều luận văn thạc sĩ và tiến sĩ, công làm giàu thông tin… nên việc sử dụng, kế thừa các công cụ bố nhiều công trình nghiên cứu cũng như phát triển nhiều này cũng rất khó khăn và hạn chế. sản phẩm, công cụ về xử lý TV và TDTTS [2], [8], [9], [10]. Từ các vấn đề nêu trên, nhằm cho phép khai thác hiệu 2.2. Tổng quan về tài nguyên xử lý TV và TDTTS quả hơn nữa các nguồn tài nguyên phục vụ xử lý TV và Như đã đề cập ở phần mở đầu, tài nguyên xử lý TV và TDTTS hiện có, giải pháp cấp bách là cần phải nghiên cứu ...

Tài liệu được xem nhiều:

Tài liệu liên quan: