Luận văn thạc sĩ: Xây dựng kho dữ liệu song ngữ Việt - Cơ tu phục vụ tra cứu văn hóa dân tộc cơ tu
Số trang: 26
Loại file: pdf
Dung lượng: 742.65 KB
Lượt xem: 20
Lượt tải: 0
Xem trước 3 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Văn hóa dân tộc Cơ Tu có từ lâu đời, đó là văn hóa Làng, văn hóa cộng đồng và văn hóa dân gian lành mạnh, trong sáng. Văn hóa dân tộc Cơ Tu nói chung, chữ viết của người Cơ Tu nói riêng là một trong những bộ phận cấu thành tạo nên một “Nền văn hóa Việt Nam đậm đà bản sắc dân tộc”.
Nội dung trích xuất từ tài liệu:
Luận văn thạc sĩ: Xây dựng kho dữ liệu song ngữ Việt - Cơ tu phục vụ tra cứu văn hóa dân tộc cơ tu BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG ĐỖ GIA TRINH XÂY DỰNG KHO DỮ LIỆU SONG NGỮ VIỆT - CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Phản biện 1: TS. ĐẶNG BÁ KHẮC TRIỀU Phản biện 2: TS. NGUYỄN MẬU HÂN Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 18 tháng 5 năm 2013. Có thể tìm hiểu luận văn tại: Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng -1- MỞ ĐẦU 1. Lý do chọn đề tài Việt Nam với 54 dân tộc anh em, trong đó dân tộc thiểu số sống rãi rác ở vùng rừng núi cao, dọc theo dãy Trường Sơn hùng vĩ. Đặc điểm địa lý vùng sâu, vùng xa, địa hình đi lại khó khăn, mỗi dân tộc có những đặc trưng văn hóa khác nhau, ngôn ngữ giao tiếp khác nhau tạo nên sự khó khăn trong việc giao lưu học tập, trao đổi văn hóa. Đồng bào dân tộc Cơ Tu sống ở khu vực miền Trung, cư trú tập trung ở miền núi, vùng cao, vùng biên giới. Đây là vùng đặc biệt khó khăn, kinh tế chậm phát triển; giao thông cách trở; cơ sở hạ tầng còn quá nhiều thiếu thốn; tỷ lệ hộ nghèo cao; trình độ dân trí thấp; thông tin liên lạc còn nhiều hạn chế. Văn hóa dân tộc Cơ Tu có từ lâu đời, đó là văn hóa Làng, văn hóa cộng đồng và văn hóa dân gian lành mạnh, trong sáng. Văn hóa dân tộc Cơ Tu nói chung, chữ viết của người Cơ Tu nói riêng là một trong những bộ phận cấu thành tạo nên một “Nền văn hóa Việt Nam đậm đà bản sắc dân tộc”. Hiện nay do nhiều nguyên nhân ảnh hưởng đến nên văn hóa và chữ viết dân tộc Cơ Tu dần bị mai một và có nguy cơ mất đi. Đặc biệt, thế hệ trẻ ngày nay đã tiếp cận với nền văn hóa hiện đại ngay từ nhỏ nên không biết tiếng mẹ đẻ. Nguy cơ thất truyền chữ viết của đồng bào Cơ Tu đang là vấn đề rất cấp thiết, rất cần một giải pháp nhằm bảo tồn chữ viết của đồng bào nơi đây. Thời gian qua, nhiều đề tài nghiên cứu về tiếng Cơ Tu đã được thực hiện, tuy nhiên về mặt tin học thì còn hạn chế. Cho đến nay mới chỉ có đề tài xây dựng bộ gõ tiếng Cơ Tu do tác giả Phạm -2- Văn Tài, Cán bộ Trung tâm Công nghệ thông tin và Truyền thông thuộc Sở Thông tin và Truyền thông tỉnh Quảng Nam thực hiện. Các công cụ hỗ trợ học tiếng Cơ Tu như băng, đĩa, từ điển giấy, từ điểm máy tính, giáo viên dạy tiếng Cơ Tu, cũng như số lượng người biết sử dụng tiếng Cơ Tu còn rất ít, đây là một trong những trở ngại lớn cho những người muốn quan tâm tìm hiểu, học tiếng Cơ Tu. Mặt khác, về giáo trình học tập, cũng như các tài liệu tham khảo học tập tiếng Cơ Tu còn hạn chế nên người học không có môi trường để rèn luyện khả năng đọc hiểu và viết tiếng Cơ Tu. Với sự phát triển mạnh mẽ của công nghệ thông tin, các dịch vụ truyền thông ngày càng trở nên phổ biến và không thể thiếu của con người thì việc xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu là điều cần làm nhằm hỗ trợ, phục vụ cho việc tìm hiểu về văn hóa dân tộc Cơ Tu, rút ngắn khoảng cách thông tin giữa đồng bằng và miền núi, giữa các dân tộc, đồng thời giới thiệu bản sắc văn hóa vùng đồng bào dân tộc Cơ Tu đến với đông đảo người dân trên mọi miền tổ quốc và cả thế giới. Với lý do trên tôi chọn đề tài “Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu”. 2. Mục tiêu của đề tài Mục tiêu chính mà đề tài hướng đến là nghiên c ứu các vấn đề về xử lý ngôn ngữ tiếng Việt như phương pháp tách từ tiếng Việt, kho dữ liệu song ngữ Việt – Cơ Tu,… Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ nhu cầu khai thác, tra cứu văn hóa dân tộc Cơ Tu về các lĩnh vực văn hóa – xã hội, kinh tế, an ninh – quốc phòng. -3- 3. Đối tƣợng và phạm vi nghiên cứu Đê đap ưng muc tiêu đa nêu, đề tài cần giải quyết những vấn ̉ ́ ́ ̣ ̃ đề chính sau: Tìm hiểu lý thuyết Tìm hiểu chữ viết, văn hóa và đặc trưng ngữ pháp của tiếng Cơ Tu. Tìm hiểu về phương pháp tách từ tiếng Việt, cơ sở dữ liệu đa ngữ, cách tổ chức kho dữ liệu song ngữ bằng XML. Xây dựng kho dữ liệu song ngữ Phân tích cấu trúc cơ sở dữ liệu song ngữ, kho dữ liệu thô, chuyển đổi cơ sở dữ liệu từ dạng winword sang XML. Cập nhật kho dữ liệu song ngữ Việt – Cơ Tu Cập nhật kho dữ liệu bằng phương pháp thủ công, cập nhật tự động, tìm hiểu một số phương pháp tách từ tiếng việt. Xây dựng ứng dụng Xây dựng chương trình tra cứu song ngữ Việt – Cơ Tu phục vụ nhu cầu khai thác, tra cứu văn hóa dân tộc Cơ Tu của người dùng. 4. Phƣơng pháp nghiên cứu Phương pháp nghiên cứu lý thuyết Nghiên cứu tài liệu, công cụ và công nghệ liên quan. Tổng hợp các tài liệu, dữ liệu. Phương pháp nghiên cứu thực tế Tìm hiểu, đi thực tế nghiên cứu về văn hóa dân tộc Cơ Tu tại địa phương. Phân tích yêu cầu, xây dựng ứng dụng. Kiểm tra, thử nghiệm và đánh giá kết quả. 5. Ý nghĩa khoa học và thực tiễn của đề tài Ý nghĩa khoa học -4- Nắm bắt được các vấn đề cơ bản trong xử lý tiếng Việt. Đây là tiền đề cho các bài toán xử lý ngôn ngữ tự nhiên cho ngôn ngữ của các dân tộc thiểu số (như dịch, từ điển, phần mềm học tập, website đa ngữ…). Ứng dụng những thành quả của công nghệ thông tin vào lĩnh vực văn hóa. Ý nghĩa thực tiễn Xây dựng kho dữ liệu song ngữ Việt - Cơ Tu tra cứu thông tin về văn hóa dân tộc Cơ Tu, giúp gìn giữ bản sắc văn hó ...
Nội dung trích xuất từ tài liệu:
Luận văn thạc sĩ: Xây dựng kho dữ liệu song ngữ Việt - Cơ tu phục vụ tra cứu văn hóa dân tộc cơ tu BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG ĐỖ GIA TRINH XÂY DỰNG KHO DỮ LIỆU SONG NGỮ VIỆT - CƠ TU PHỤC VỤ TRA CỨU VĂN HÓA DÂN TỘC CƠ TU Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - Năm 2013 Công trình được hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Ngƣời hƣớng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Phản biện 1: TS. ĐẶNG BÁ KHẮC TRIỀU Phản biện 2: TS. NGUYỄN MẬU HÂN Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 18 tháng 5 năm 2013. Có thể tìm hiểu luận văn tại: Trung tâm Thông tin - Học liệu, Đại Học Đà Nẵng -1- MỞ ĐẦU 1. Lý do chọn đề tài Việt Nam với 54 dân tộc anh em, trong đó dân tộc thiểu số sống rãi rác ở vùng rừng núi cao, dọc theo dãy Trường Sơn hùng vĩ. Đặc điểm địa lý vùng sâu, vùng xa, địa hình đi lại khó khăn, mỗi dân tộc có những đặc trưng văn hóa khác nhau, ngôn ngữ giao tiếp khác nhau tạo nên sự khó khăn trong việc giao lưu học tập, trao đổi văn hóa. Đồng bào dân tộc Cơ Tu sống ở khu vực miền Trung, cư trú tập trung ở miền núi, vùng cao, vùng biên giới. Đây là vùng đặc biệt khó khăn, kinh tế chậm phát triển; giao thông cách trở; cơ sở hạ tầng còn quá nhiều thiếu thốn; tỷ lệ hộ nghèo cao; trình độ dân trí thấp; thông tin liên lạc còn nhiều hạn chế. Văn hóa dân tộc Cơ Tu có từ lâu đời, đó là văn hóa Làng, văn hóa cộng đồng và văn hóa dân gian lành mạnh, trong sáng. Văn hóa dân tộc Cơ Tu nói chung, chữ viết của người Cơ Tu nói riêng là một trong những bộ phận cấu thành tạo nên một “Nền văn hóa Việt Nam đậm đà bản sắc dân tộc”. Hiện nay do nhiều nguyên nhân ảnh hưởng đến nên văn hóa và chữ viết dân tộc Cơ Tu dần bị mai một và có nguy cơ mất đi. Đặc biệt, thế hệ trẻ ngày nay đã tiếp cận với nền văn hóa hiện đại ngay từ nhỏ nên không biết tiếng mẹ đẻ. Nguy cơ thất truyền chữ viết của đồng bào Cơ Tu đang là vấn đề rất cấp thiết, rất cần một giải pháp nhằm bảo tồn chữ viết của đồng bào nơi đây. Thời gian qua, nhiều đề tài nghiên cứu về tiếng Cơ Tu đã được thực hiện, tuy nhiên về mặt tin học thì còn hạn chế. Cho đến nay mới chỉ có đề tài xây dựng bộ gõ tiếng Cơ Tu do tác giả Phạm -2- Văn Tài, Cán bộ Trung tâm Công nghệ thông tin và Truyền thông thuộc Sở Thông tin và Truyền thông tỉnh Quảng Nam thực hiện. Các công cụ hỗ trợ học tiếng Cơ Tu như băng, đĩa, từ điển giấy, từ điểm máy tính, giáo viên dạy tiếng Cơ Tu, cũng như số lượng người biết sử dụng tiếng Cơ Tu còn rất ít, đây là một trong những trở ngại lớn cho những người muốn quan tâm tìm hiểu, học tiếng Cơ Tu. Mặt khác, về giáo trình học tập, cũng như các tài liệu tham khảo học tập tiếng Cơ Tu còn hạn chế nên người học không có môi trường để rèn luyện khả năng đọc hiểu và viết tiếng Cơ Tu. Với sự phát triển mạnh mẽ của công nghệ thông tin, các dịch vụ truyền thông ngày càng trở nên phổ biến và không thể thiếu của con người thì việc xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu là điều cần làm nhằm hỗ trợ, phục vụ cho việc tìm hiểu về văn hóa dân tộc Cơ Tu, rút ngắn khoảng cách thông tin giữa đồng bằng và miền núi, giữa các dân tộc, đồng thời giới thiệu bản sắc văn hóa vùng đồng bào dân tộc Cơ Tu đến với đông đảo người dân trên mọi miền tổ quốc và cả thế giới. Với lý do trên tôi chọn đề tài “Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ tra cứu văn hóa dân tộc Cơ Tu”. 2. Mục tiêu của đề tài Mục tiêu chính mà đề tài hướng đến là nghiên c ứu các vấn đề về xử lý ngôn ngữ tiếng Việt như phương pháp tách từ tiếng Việt, kho dữ liệu song ngữ Việt – Cơ Tu,… Xây dựng kho dữ liệu song ngữ Việt – Cơ Tu phục vụ nhu cầu khai thác, tra cứu văn hóa dân tộc Cơ Tu về các lĩnh vực văn hóa – xã hội, kinh tế, an ninh – quốc phòng. -3- 3. Đối tƣợng và phạm vi nghiên cứu Đê đap ưng muc tiêu đa nêu, đề tài cần giải quyết những vấn ̉ ́ ́ ̣ ̃ đề chính sau: Tìm hiểu lý thuyết Tìm hiểu chữ viết, văn hóa và đặc trưng ngữ pháp của tiếng Cơ Tu. Tìm hiểu về phương pháp tách từ tiếng Việt, cơ sở dữ liệu đa ngữ, cách tổ chức kho dữ liệu song ngữ bằng XML. Xây dựng kho dữ liệu song ngữ Phân tích cấu trúc cơ sở dữ liệu song ngữ, kho dữ liệu thô, chuyển đổi cơ sở dữ liệu từ dạng winword sang XML. Cập nhật kho dữ liệu song ngữ Việt – Cơ Tu Cập nhật kho dữ liệu bằng phương pháp thủ công, cập nhật tự động, tìm hiểu một số phương pháp tách từ tiếng việt. Xây dựng ứng dụng Xây dựng chương trình tra cứu song ngữ Việt – Cơ Tu phục vụ nhu cầu khai thác, tra cứu văn hóa dân tộc Cơ Tu của người dùng. 4. Phƣơng pháp nghiên cứu Phương pháp nghiên cứu lý thuyết Nghiên cứu tài liệu, công cụ và công nghệ liên quan. Tổng hợp các tài liệu, dữ liệu. Phương pháp nghiên cứu thực tế Tìm hiểu, đi thực tế nghiên cứu về văn hóa dân tộc Cơ Tu tại địa phương. Phân tích yêu cầu, xây dựng ứng dụng. Kiểm tra, thử nghiệm và đánh giá kết quả. 5. Ý nghĩa khoa học và thực tiễn của đề tài Ý nghĩa khoa học -4- Nắm bắt được các vấn đề cơ bản trong xử lý tiếng Việt. Đây là tiền đề cho các bài toán xử lý ngôn ngữ tự nhiên cho ngôn ngữ của các dân tộc thiểu số (như dịch, từ điển, phần mềm học tập, website đa ngữ…). Ứng dụng những thành quả của công nghệ thông tin vào lĩnh vực văn hóa. Ý nghĩa thực tiễn Xây dựng kho dữ liệu song ngữ Việt - Cơ Tu tra cứu thông tin về văn hóa dân tộc Cơ Tu, giúp gìn giữ bản sắc văn hó ...
Tìm kiếm theo từ khóa liên quan:
Xây dựng hệ thống trợ Văn hóa cơ tu Tin học văn phòng Khoa học máy tính Luận văn công nghệ thông tin Dữ liệu đa ngữ Kỹ thuật tách tiếng Việt Luận văn thạc sĩ Luận văn thạc sĩ kỹ thuật Luận văn khoa học máy tínhTài liệu liên quan:
-
Tóm tắt Đồ án tốt nghiệp Khoa học máy tính: Xây dựng ứng dụng quản lý quán cà phê
15 trang 476 1 0 -
73 trang 428 2 0
-
Đề thi kết thúc học phần học kì 2 môn Cơ sở dữ liệu năm 2019-2020 có đáp án - Trường ĐH Đồng Tháp
5 trang 378 6 0 -
Luận văn Thạc sĩ Kinh tế: Quản trị chất lượng dịch vụ khách sạn Mường Thanh Xa La
136 trang 365 5 0 -
Nhập môn Tin học căn bản: Phần 1
106 trang 332 0 0 -
97 trang 330 0 0
-
Giáo trình Tin học văn phòng: Phần 2 - Bùi Thế Tâm
65 trang 318 0 0 -
97 trang 313 0 0
-
Luận văn Thạc sĩ Khoa học máy tính: Tìm hiểu xây dựng thuật toán giấu tin mật và ứng dụng
76 trang 302 0 0 -
155 trang 281 0 0