![Phân tích tư tưởng của nhân dân qua đoạn thơ: Những người vợ nhớ chồng… Những cuộc đời đã hóa sông núi ta trong Đất nước của Nguyễn Khoa Điềm](https://timtailieu.net/upload/document/136415/phan-tich-tu-tuong-cua-nhan-dan-qua-doan-tho-039-039-nhung-nguoi-vo-nho-chong-nhung-cuoc-doi-da-hoa-song-nui-ta-039-039-trong-dat-nuoc-cua-nguyen-khoa-136415.jpg)
Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê
Số trang: 8
Loại file: pdf
Dung lượng: 5.18 MB
Lượt xem: 5
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Bài viết đề xuất giải pháp sắp xếp mục từ Ê Đê trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê, nhằm góp phần trong tra cứu, kiểm tra và quản lý dữ liệu, xây dựng các bảng biểu dữ liệu tiếng Ê Đê theo trật tự bảng chữ cái tiếng Ê Đê.
Nội dung trích xuất từ tài liệu:
Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê146 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê Hoàng Thị Mỹ Lệ1 và Phan Huy Khánh2 1 Trường Đại học Sư phạm Kỹ thuật, Đại học Đà Nẵng htmle@ute.udn.vn 2 Trường Đại học Bách Khoa, Đại học Đà Nẵng phkhanh@dut.udn.vn Tóm tắt. Quá trình truy vấn dữ liệu trong kho dữ liệu từ vựng, công việc thực hiện sắp xếp dữ liệu theo thứ tự tăng dần hoặc giảm dần theo thứ tự ABC của mỗi ngôn ngữ là tiêu chí cần được quan tâm trong nghiên cứu xây dựng kho dữ liệu từ vựng. Việc thực hiện sắp xếp một bảng dữ liệu tiếng Anh theo thứ tự ABC với mệnh đề Order by trong câu lệnh SQL là đơn giản. Bởi vì bảng mã ASCII và các hệ quản trị cơ sở dữ liệu đều dùng với bảng chữ cái tiếng Anh. Tuy nhiên, với tiếng dân tộc thiểu số Việt Nam nói chung và tiếng Ê Đê nói riêng, việc thực hiện sắp xếp thứ tự theo bảng chữ cái vẫn chưa được hỗ trợ và chưa được sự quan tâm nghiên cứu của các nhà khoa học. Do đó, khi viết một lập trình cơ sở dữ liệu cho tiếng Ê Đê gặp phải khó khăn trong việc trình bày một bảng dữ liệu sắp xếp theo thứ tự ABC. Để giải quyết vấn đề này cho tiếng Ê Đê trong kho dữ liệu từ vựng, bài báo đề xuất giải pháp sắp xếp mục từ Ê Đê trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê, nhằm góp phần trong tra cứu, kiểm tra và quản lý dữ liệu, xây dựng các bảng biểu dữ liệu tiếng Ê Đê theo trật tự bảng chữ cái tiếng Ê Đê. Từ khóa: xử lý tiếng Ê Đê, mã hóa Unicode, sắp xếp mục từ, kho dữ liệu từ vựng, truy vấn dữ liệu.1 Đặt vấn đề Mọi hoạt động xử lý thông tin trên máy tính đều liên quan đến soạn thảo văn bản. Sắp xếp làquá trình bố trí lại các phần tử của một tập đối tượng nào đó theo một thứ tự nhất định như: tăngdần hay giảm dần đối với một dãy số, theo thứ tự tự điển đối với các từ. Công việc sắp xếpthường được ứng dụng thường xuyên trong các ứng dụng Tin học với các mục đích như: sắpxếp dữ liệu trong máy tính để tìm kiếm cho thuận lợi, sắp xếp các kết quả xử lý để in ra trên cácbảng biểu. Để giải quyết vấn đề này cho tiếng Việt và tiếng Ê Đê trong kho dữ liệu từ vựngViệt-Ê Đê [3], [4], bài báo đề xuất giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng Việt-Ê Đê , nội dung giải pháp như sau: - Đầu tiên, thực hiện mã hóa các chữ cái tiếng Việt và tiếng Ê Đê vào một vùng liên tục để kế thừa được phép so sánh chuỗi trong các ứng dụng lập trình. - Chuyển các mục từ sau khi đã được mã hóa vào mảng. - Sắp xếp mảng theo thứ tự ABC. - Chuyển chỉ số của mảng sau khi đã sắp xếp vào thuộc tính chỉ số sắp xếp trong kho dữ liệu tương ứng với mục từ được giải mã từ mảng. Như vậy, sau này khi thực hiện sắp xếp các mục từ trong kho dữ liệu thay vì sắp xếp theothuộc tính mục từ, ta thực hiện sắp xếp theo thuộc tính chỉ số sắp xếp.Hoàng Thị Mỹ Lệ và Phan Huy Khánh 1472 Phương pháp mã hóa chữ cái tiếng Việt và tiếng Ê Đê2.1 Mã hóa chữ cái tiếng Việt Với mỗi chữ cái tiếng Việt sẽ được ánh xạ vào vùng liên tục trong bảng mã Unicode. Vùngđược chọn để ánh xạ có phạm vi từ 1F00:1F5E. Cở sở để chọn vùng này vì đây là vùng liên tụccó chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Việt. Bảng 1là bảng ánh xạ chữ cái tiếng Việt theo thứ tự ABC vào vùng kí tự Hy Lạp mở rộng trong bảngmã Unicode. Ví dụ: mục từ nhà trường được mã hóa Bảng 1. Ánh xạ chữ cái tiếng Việt vào vùng kí tự Hy Lạp mở rộng `148 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC2.2 Mã hóa chữ cái tiếng Ê Đê Bộ chữ cái tiếng Ê Đê cũng được xếp vào họ La tinh, với 76 ký tự Ê Đê kể cả ký tự chữ hoavà ký tự chữ thường như trong bảng 2 [1], [6]. Trong đó có 66 kí tự là thành phần cơ bản củahầu hết tất cả các phông chữ Unicode, còn 8 kí tự chưa có trong bảng mãUnicode [2]. Bảng 2. Bảng chữ cái Ê Đê Với mỗi chữ cái tiếng Ê Đê cũng được ánh xạ vào vùng liên tục trong bảng mã Unicode.Vùng được chọn để ánh xạ có phạm vi từ 1F00:1F25. Cở sở để chọn vùng này vì đây là vùngliên tục có chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Ê Đê. Khác với chữ cái tiếng Việt, chữ cái Ê Đê trước khi mã hóa phải thực hiện chuyển đổi cácchữ cái dạng mã tổ hợp với hai kí tự thành một kí tự để khi sắp xếp được xem như là một kí tự.Qui định chuy ...
Nội dung trích xuất từ tài liệu:
Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê146 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Giải pháp sắp xếp mục từ trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê Hoàng Thị Mỹ Lệ1 và Phan Huy Khánh2 1 Trường Đại học Sư phạm Kỹ thuật, Đại học Đà Nẵng htmle@ute.udn.vn 2 Trường Đại học Bách Khoa, Đại học Đà Nẵng phkhanh@dut.udn.vn Tóm tắt. Quá trình truy vấn dữ liệu trong kho dữ liệu từ vựng, công việc thực hiện sắp xếp dữ liệu theo thứ tự tăng dần hoặc giảm dần theo thứ tự ABC của mỗi ngôn ngữ là tiêu chí cần được quan tâm trong nghiên cứu xây dựng kho dữ liệu từ vựng. Việc thực hiện sắp xếp một bảng dữ liệu tiếng Anh theo thứ tự ABC với mệnh đề Order by trong câu lệnh SQL là đơn giản. Bởi vì bảng mã ASCII và các hệ quản trị cơ sở dữ liệu đều dùng với bảng chữ cái tiếng Anh. Tuy nhiên, với tiếng dân tộc thiểu số Việt Nam nói chung và tiếng Ê Đê nói riêng, việc thực hiện sắp xếp thứ tự theo bảng chữ cái vẫn chưa được hỗ trợ và chưa được sự quan tâm nghiên cứu của các nhà khoa học. Do đó, khi viết một lập trình cơ sở dữ liệu cho tiếng Ê Đê gặp phải khó khăn trong việc trình bày một bảng dữ liệu sắp xếp theo thứ tự ABC. Để giải quyết vấn đề này cho tiếng Ê Đê trong kho dữ liệu từ vựng, bài báo đề xuất giải pháp sắp xếp mục từ Ê Đê trong kho dữ liệu từ vựng song ngữ Việt-Ê Đê, nhằm góp phần trong tra cứu, kiểm tra và quản lý dữ liệu, xây dựng các bảng biểu dữ liệu tiếng Ê Đê theo trật tự bảng chữ cái tiếng Ê Đê. Từ khóa: xử lý tiếng Ê Đê, mã hóa Unicode, sắp xếp mục từ, kho dữ liệu từ vựng, truy vấn dữ liệu.1 Đặt vấn đề Mọi hoạt động xử lý thông tin trên máy tính đều liên quan đến soạn thảo văn bản. Sắp xếp làquá trình bố trí lại các phần tử của một tập đối tượng nào đó theo một thứ tự nhất định như: tăngdần hay giảm dần đối với một dãy số, theo thứ tự tự điển đối với các từ. Công việc sắp xếpthường được ứng dụng thường xuyên trong các ứng dụng Tin học với các mục đích như: sắpxếp dữ liệu trong máy tính để tìm kiếm cho thuận lợi, sắp xếp các kết quả xử lý để in ra trên cácbảng biểu. Để giải quyết vấn đề này cho tiếng Việt và tiếng Ê Đê trong kho dữ liệu từ vựngViệt-Ê Đê [3], [4], bài báo đề xuất giải pháp sắp xếp các mục từ trong kho dữ liệu từ vựng Việt-Ê Đê , nội dung giải pháp như sau: - Đầu tiên, thực hiện mã hóa các chữ cái tiếng Việt và tiếng Ê Đê vào một vùng liên tục để kế thừa được phép so sánh chuỗi trong các ứng dụng lập trình. - Chuyển các mục từ sau khi đã được mã hóa vào mảng. - Sắp xếp mảng theo thứ tự ABC. - Chuyển chỉ số của mảng sau khi đã sắp xếp vào thuộc tính chỉ số sắp xếp trong kho dữ liệu tương ứng với mục từ được giải mã từ mảng. Như vậy, sau này khi thực hiện sắp xếp các mục từ trong kho dữ liệu thay vì sắp xếp theothuộc tính mục từ, ta thực hiện sắp xếp theo thuộc tính chỉ số sắp xếp.Hoàng Thị Mỹ Lệ và Phan Huy Khánh 1472 Phương pháp mã hóa chữ cái tiếng Việt và tiếng Ê Đê2.1 Mã hóa chữ cái tiếng Việt Với mỗi chữ cái tiếng Việt sẽ được ánh xạ vào vùng liên tục trong bảng mã Unicode. Vùngđược chọn để ánh xạ có phạm vi từ 1F00:1F5E. Cở sở để chọn vùng này vì đây là vùng liên tụccó chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Việt. Bảng 1là bảng ánh xạ chữ cái tiếng Việt theo thứ tự ABC vào vùng kí tự Hy Lạp mở rộng trong bảngmã Unicode. Ví dụ: mục từ nhà trường được mã hóa Bảng 1. Ánh xạ chữ cái tiếng Việt vào vùng kí tự Hy Lạp mở rộng `148 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC2.2 Mã hóa chữ cái tiếng Ê Đê Bộ chữ cái tiếng Ê Đê cũng được xếp vào họ La tinh, với 76 ký tự Ê Đê kể cả ký tự chữ hoavà ký tự chữ thường như trong bảng 2 [1], [6]. Trong đó có 66 kí tự là thành phần cơ bản củahầu hết tất cả các phông chữ Unicode, còn 8 kí tự chưa có trong bảng mãUnicode [2]. Bảng 2. Bảng chữ cái Ê Đê Với mỗi chữ cái tiếng Ê Đê cũng được ánh xạ vào vùng liên tục trong bảng mã Unicode.Vùng được chọn để ánh xạ có phạm vi từ 1F00:1F25. Cở sở để chọn vùng này vì đây là vùngliên tục có chứa kí tự và các kí tự trong vùng này không xuất hiện trong các văn bản tiếng Ê Đê. Khác với chữ cái tiếng Việt, chữ cái Ê Đê trước khi mã hóa phải thực hiện chuyển đổi cácchữ cái dạng mã tổ hợp với hai kí tự thành một kí tự để khi sắp xếp được xem như là một kí tự.Qui định chuy ...
Tìm kiếm theo từ khóa liên quan:
Xử lý tiếng Ê Đê Mã hóa Unicode Từ vựng song ngữ Việt-Ê Đê Truy vấn dữ liệu Phương pháp mã hóa chữ cái tiếng Việt Mã hóa chữ cái tiếng Ê ĐêTài liệu liên quan:
-
Ngôn ngữ lập trình C# 2005 - Tập 4, Quyển 1: Lập trình cơ sở dữ liệu (Phần 1)
208 trang 134 0 0 -
204 trang 134 1 0
-
Bài giảng Lập trình web nâng cao: Chương 8 - Trường ĐH Văn Hiến
36 trang 121 1 0 -
Giáo trình Hệ quản trị cơ sở dữ liệu - Trần Thiên Thành
130 trang 79 0 0 -
79 trang 65 0 0
-
110 trang 62 2 0
-
Tài liệu ôn tập học kì 1 môn Tin học lớp 12 năm 2023-2024 - Trường THPT Gia Viễn
16 trang 57 0 0 -
183 trang 52 0 0
-
Giáo trình Thực hành Gis: Phần 1
73 trang 49 0 0 -
119 trang 49 1 0