Báo cáo khoa học: MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT
Số trang: 4
Loại file: pdf
Dung lượng: 279.75 KB
Lượt xem: 5
Lượt tải: 0
Xem trước 2 trang đầu tiên của tài liệu này:
Thông tin tài liệu:
Tóm tắt: Hiện nay, tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóa các loại văn bản: từ trang web, các dữ liệu điện tử đến các cơ sở dữ iệu… Việc nhận biết bảng mã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết, không chỉ mang lại lợi ích cho các lập trình viên mà cho cả nhân viên văn phòng, nhân viên xử lý văn bản. Công việc này cũng tạo tiền đề cho các việc xử lý tiếp theo trong tiếng Việt như: kiểm tra...
Nội dung trích xuất từ tài liệu:
Báo cáo khoa học: "MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT" MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT ThS. PHẠM XUÂN TÍCH Bộ môn Khoa học máy tính Khoa Công nghệ thông tin Trường Đại học Giao thông Vận tải Tóm tắt: Hiện nay, tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóa các loại văn bản: từ trang web, các dữ liệu điện tử đến các cơ sở dữ iệu… Việc nhận biết bảng mã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết, không chỉ mang lại lợi ích cho các lập trình viên mà cho cả nhân viên văn phòng, nhân viên xử lý văn bản. Công việc này cũng tạo tiền đề cho các việc xử lý tiếp theo trong tiếng Việt như: kiểm tra phát hiện lỗi chính tả, tóm tắt văn bản, làm từ điển, thậm chí cả dịch máy và xử lý ngôn ngữ tự nhiên. Trong khuôn khổ bài báo này, chúng tôi đưa ra một thuật toán nhận dạng mã để dễ dàng chuyển đổi mã tiếng Việt mà các chương trình hiện nay hầu hết chỉ chuyển mã biết trước mà không nhận dạng được các bảng mã, cũng như không xử lý được các văn bản tiếng Việt có nhiều loại mã trong cùng một văn bản. Summary: In recent years, there are over 40 Vietnamese codes for encoding on all types of data from websites, databases to documents, and many others. Codes recognization and conversion have so many advantages for not only programmers but office clients and secretaries as well.. It makes premises for advanced Vietnamese processing such as: spell checking, syntact correcting, document abstracting, dictionary constructing, even machine translating and natural language processing. CNTT-CB In this article, we present an algorithrm which can recognize many kinds of Vietnamese codes to make them easy to convert, while almost other programs can only convert some known codes and cannot recognize codes or process Vietnamese documents having more than one code.I. MÃ HOÁ TIẾNG VIỆT TRONG CÔNG NGHỆ THÔNG TIN Công nghệ thông tin là một ngành non trẻ ở nước ta, với khoảng 20 năm phát triển nhưngnó cũng đang là một ngành có nhiều đóng góp đối với nền kinh tế đất nước. Với chi phí rất ítnhưng nó đem lại lợi nhuận cao, là một hướng đi tắt đón đầu cho các nước đang phát triển bắtkịp với các nước khác. Không những thế công nghệ thông tin làm hiện đại hóa, công nghiệp hóakhông chỉ nền sản xuất xã hội, mà còn làm thay đổi bộ mặt đời sống văn hóa tinh thần của toànxã hội. Việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn bản mà còn xây dựng pháttriển các phần mềm có giao diện tiếng Việt, thậm chí xử lý tiếng Việt. Dẫn tới việc xuất hiệncác bảng mã tiếng Việt, cho phép soạn thảo và xử lý chúng. Hiện nay, với trên 40 bảng mã khácnhau được sử dụng, nên việc khai thác tài liệu, xử lý dữ liệu rất phức tạp. Các bảng mã tự bảnthân cũng phức tạp bởi có loại 1 byte có loại 2 byte; có loại tổ hợp nguyên âm và dấu lại có loạidựng sẵn cho cả nguyên âm lẫn dấu. Nhưng về cơ bản các phụ âm, nguyên âm không dấu đềusử dụng theo mã ASCII. Sự khác nhau chỉ là nguyên âm có dấu. Ví dụ: Bảng mã Unicode dựng sẵn cho các nguyên âm và nguyên âm có dấu [2.] Ký Không dấu Huyền Sắ c Nặng Hỏi Ngã tự 0x0061 0x00e0 0x00e1 0x1ea1 0x1ea3 0x00e3 ơ 0x0103 0x1eb1 0x1eaf 0x1eb7 0x1eb3 0x1eb5 ă 0x00e2 0x1ea7 0x1ea5 0x1ead 0x1ea9 0x1eab â 0x0065 0x00e8 0x00e9 0x1eb9 0x1ebb 0x1ebd e 0x00ea 0x1ec1 0x1ebf 0x1ec7 0x1ec3 0x1ec5 ê 0x0069 0x00ec 0x00ed 0x1ecb 0x1ec9 0x0129 i 0x006f 0x00f2 0x00f3 0x1ecd 0x1ecf 0x00f5 o 0x00f4 0x1ed3 0x1ed1 0x1ed9 0x1ed5 0x1ed7 ô 0x01a1 0x1edd 0x1edb 0x1ee3 0x1edf 0x1ee1 ơ 0x0075 0x00f9 0x00fa 0x1ee5 0x1ee7 0x0169 u 0x01b0 0x1eeb 0x1ee9 0x1ef1 0x1eed 0x1eef ư 0x0079 0x1ef3 0x00fd 0x1ef5 0x1ef7 0x1ef9 ...
Nội dung trích xuất từ tài liệu:
Báo cáo khoa học: "MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT" MỘT SỐ THUẬT TOÁN NHẬN DẠNG VÀ CHUYỂN MÃ TIẾNG VIỆT ThS. PHẠM XUÂN TÍCH Bộ môn Khoa học máy tính Khoa Công nghệ thông tin Trường Đại học Giao thông Vận tải Tóm tắt: Hiện nay, tiếng Việt có hơn 40 loại bảng mã khác nhau được sử dụng để mã hóa các loại văn bản: từ trang web, các dữ liệu điện tử đến các cơ sở dữ iệu… Việc nhận biết bảng mã và chuyển đổi giữa các bảng mã tiếng Việt là rất cần thiết, không chỉ mang lại lợi ích cho các lập trình viên mà cho cả nhân viên văn phòng, nhân viên xử lý văn bản. Công việc này cũng tạo tiền đề cho các việc xử lý tiếp theo trong tiếng Việt như: kiểm tra phát hiện lỗi chính tả, tóm tắt văn bản, làm từ điển, thậm chí cả dịch máy và xử lý ngôn ngữ tự nhiên. Trong khuôn khổ bài báo này, chúng tôi đưa ra một thuật toán nhận dạng mã để dễ dàng chuyển đổi mã tiếng Việt mà các chương trình hiện nay hầu hết chỉ chuyển mã biết trước mà không nhận dạng được các bảng mã, cũng như không xử lý được các văn bản tiếng Việt có nhiều loại mã trong cùng một văn bản. Summary: In recent years, there are over 40 Vietnamese codes for encoding on all types of data from websites, databases to documents, and many others. Codes recognization and conversion have so many advantages for not only programmers but office clients and secretaries as well.. It makes premises for advanced Vietnamese processing such as: spell checking, syntact correcting, document abstracting, dictionary constructing, even machine translating and natural language processing. CNTT-CB In this article, we present an algorithrm which can recognize many kinds of Vietnamese codes to make them easy to convert, while almost other programs can only convert some known codes and cannot recognize codes or process Vietnamese documents having more than one code.I. MÃ HOÁ TIẾNG VIỆT TRONG CÔNG NGHỆ THÔNG TIN Công nghệ thông tin là một ngành non trẻ ở nước ta, với khoảng 20 năm phát triển nhưngnó cũng đang là một ngành có nhiều đóng góp đối với nền kinh tế đất nước. Với chi phí rất ítnhưng nó đem lại lợi nhuận cao, là một hướng đi tắt đón đầu cho các nước đang phát triển bắtkịp với các nước khác. Không những thế công nghệ thông tin làm hiện đại hóa, công nghiệp hóakhông chỉ nền sản xuất xã hội, mà còn làm thay đổi bộ mặt đời sống văn hóa tinh thần của toànxã hội. Việc đưa tiếng Việt vào máy tính không chỉ để soạn thảo văn bản mà còn xây dựng pháttriển các phần mềm có giao diện tiếng Việt, thậm chí xử lý tiếng Việt. Dẫn tới việc xuất hiệncác bảng mã tiếng Việt, cho phép soạn thảo và xử lý chúng. Hiện nay, với trên 40 bảng mã khácnhau được sử dụng, nên việc khai thác tài liệu, xử lý dữ liệu rất phức tạp. Các bảng mã tự bảnthân cũng phức tạp bởi có loại 1 byte có loại 2 byte; có loại tổ hợp nguyên âm và dấu lại có loạidựng sẵn cho cả nguyên âm lẫn dấu. Nhưng về cơ bản các phụ âm, nguyên âm không dấu đềusử dụng theo mã ASCII. Sự khác nhau chỉ là nguyên âm có dấu. Ví dụ: Bảng mã Unicode dựng sẵn cho các nguyên âm và nguyên âm có dấu [2.] Ký Không dấu Huyền Sắ c Nặng Hỏi Ngã tự 0x0061 0x00e0 0x00e1 0x1ea1 0x1ea3 0x00e3 ơ 0x0103 0x1eb1 0x1eaf 0x1eb7 0x1eb3 0x1eb5 ă 0x00e2 0x1ea7 0x1ea5 0x1ead 0x1ea9 0x1eab â 0x0065 0x00e8 0x00e9 0x1eb9 0x1ebb 0x1ebd e 0x00ea 0x1ec1 0x1ebf 0x1ec7 0x1ec3 0x1ec5 ê 0x0069 0x00ec 0x00ed 0x1ecb 0x1ec9 0x0129 i 0x006f 0x00f2 0x00f3 0x1ecd 0x1ecf 0x00f5 o 0x00f4 0x1ed3 0x1ed1 0x1ed9 0x1ed5 0x1ed7 ô 0x01a1 0x1edd 0x1edb 0x1ee3 0x1edf 0x1ee1 ơ 0x0075 0x00f9 0x00fa 0x1ee5 0x1ee7 0x0169 u 0x01b0 0x1eeb 0x1ee9 0x1ef1 0x1eed 0x1eef ư 0x0079 0x1ef3 0x00fd 0x1ef5 0x1ef7 0x1ef9 ...
Tìm kiếm theo từ khóa liên quan:
trình bày báo cáo cách trình bày báo cáo báo cáo ngành giao thông các công trình giao thông xây dựng cầu đườngTài liệu liên quan:
-
HƯỚNG DẪN THỰC TẬP VÀ VIẾT BÁO CÁO THỰC TẬP TỐT NGHIỆP
18 trang 359 0 0 -
Hướng dẫn trình bày báo cáo thực tập chuyên ngành
14 trang 290 0 0 -
Hướng dẫn thực tập tốt nghiệp dành cho sinh viên đại học Ngành quản trị kinh doanh
20 trang 242 0 0 -
Đồ án: Nhà máy thủy điện Vĩnh Sơn - Bình Định
54 trang 223 0 0 -
23 trang 213 0 0
-
40 trang 201 0 0
-
Báo cáo môn học vi xử lý: Khai thác phần mềm Proteus trong mô phỏng điều khiển
33 trang 187 0 0 -
BÁO CÁO IPM: MÔ HÌNH '1 PHẢI 5 GIẢM' - HIỆN TRẠNG VÀ KHUYNH HƯỚNG PHÁT TRIỂN
33 trang 186 0 0 -
8 trang 185 0 0
-
Đồ án tốt nghiệp: Thiết kế tuyến đường qua Thăng Bình và Hiệp Đức - Tỉnh Quảng Nam
0 trang 184 0 0