Danh mục

MỘT SỐ KẾT QUẢ ỨNG DỤNG CNTT PHỤC VỤ NGHIÊN CỨU CHỮ NÔM

Số trang: 14      Loại file: pdf      Dung lượng: 1.30 MB      Lượt xem: 15      Lượt tải: 0    
tailieu_vip

Hỗ trợ phí lưu trữ khi tải xuống: 4,000 VND Tải xuống file đầy đủ (14 trang) 0

Báo xấu

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Việc phát triển quan hệ kinh tế với TQ, Đài Loan, Hồng Kông, Singapore đã thúc đẩy phong trào học tiếng Hoa trong nước, đặc biệt từ cuối những năm 1990. Việc chế bản vi tính chữ Hán du nhập vào nước ta từ khoảng đầu những năm 1990 với các phần mềm tiếng Hoa như Windows 3.1 tiếng Hoa, TwinBrigde (Song Kiều), Chinese Star hay ET .v.v. Xu hướng chung là khai thác khả năng của Song Kiều cho phép đăng ký thâu nhập pháp tự biên soạn để đánh chữ Hán theo âm Hán Việt, và nhờ khả...
Nội dung trích xuất từ tài liệu:
MỘT SỐ KẾT QUẢ ỨNG DỤNG CNTT PHỤC VỤ NGHIÊN CỨU CHỮ NÔM BÁO CÁO THAM DỰ HỘI NGHỊ QUỐC TẾ VỀ CHỮ NÔM (Hà Nội 11/2004) MỘT SỐ KẾT QUẢ ỨNG DỤNG CNTT PHỤC VỤ NGHIÊN CỨU CHỮ NÔM Người viết báo cáo: Phan Anh Dũng, Chuyên viên Công ty Sách-TBTH TT-Huế, Cộng tác viên của Trung tâm Công nghệ phần mềm Huế (Huesoft). I. Giới thiệu: Việc phát triển quan hệ kinh tế với TQ, Đài Loan, Hồng Kông, Singapor đã thúc đẩy phong trào học tiếng Hoa trong nước, đặc biệt từ cuối những năm 1990. Việc chế bản vi tính chữ Hán du nhập vào nước ta từ khoảng đầu những năm 1990 với các phần mềm tiếng Hoa như Windows 3.1 tiếng Hoa, TwinBrigde (Song Kiều), Chinese Star hay ET .v.v. Xu hướng chung là khai thác khả năng của Song Kiều cho phép đăng ký thâu nhập pháp tự biên soạn để đánh chữ Hán theo âm Hán Việt, và nhờ khả năng của Song Kiều cho phép vẽ bổ sung nhiều chữ mới, nên có thể vẽ và chế bản cả chữ Nôm. Nhóm chúng tôi đã tận dụng các khả năng này của Song Kiều để chế bản được một số tác phẩm chữ Nôm kinh điển. Đồng thời trong những năm đó Viện nghiên cứu Hán Nôm ở Hà Nội phối hợp với Hội bảo tồn di sản chữ Nôm (NômFoundation) đã đi trước một bước cơ bản là xúc tiến việc đưa chữ Nôm vào chuẩn Unicode quốc tế. Hiện tại đã đưa được 9299 chữ Nôm căn bản nhất vào chuẩn Unicode 3.1 và sẽ còn tiếp tục bổ sung. NômFoundation cũng đang xúc tiến việc vẽ font chữ, làm các công cụ tra cứu trên mạng Internet và bắt tay xây dựng phần mềm xử lý chữ Nôm có bài bản... Nhóm chúng tôi ở Huế cụ thể là Phan Anh Dũng, Nguyễn Thế với sự cố vấn của Nhà giáo ưu tú Nguyễn Đình Thảng, cũng quan tâm tới lĩnh vực ứng dụng CNTT vào nghiên cứu chữ Nôm, chúng tôi chọn con đường thực nghiệm, bắt đầu từ việc vẽ font chữ Nôm để biên khảo và chế bản in một số sách chữ Nôm, làm các tự điển tra cứu chữ Hán và chữ Nôm, đặc biệt đi sâu nghiên cứu về tuồng chữ Nôm cổ... dần dà đã có một căn bản Hán Nôm tương đối và thu nhập được nhiều kinh nghiệm thực tế rất bổ ích trong lĩnh vực ứng dụng vi tính vào Hán Nôm. Và cũng từ đó chúng tôi nảy sinh ý tưởng xây dựng một phần mềm Hán Nôm độc lập hoàn chỉnh. Phần mềm đó phải có khả năng chạy trực tiếp trên hệ điều hành Windows tiếng Anh cũng như Hoa hay Việt, không cần tới các chương trình hỗ trợ tiếng Hoa, với những chức năng cơ bản là: có một hệ thống font chữ Nôm Unicode tương đối đầy đủ, có thâu nhập pháp (IME, gọi nôm na là bộ gõ) để có thể đánh được chữ Nôm (tất nhiên là cả chữ Hán) vào văn bản, có khả năng tra cứu ý nghĩa cả chữ Hán và Nôm dưới dạng tự điển vi tính, và một số chức năng phụ trợ khác như phiên âm, vẽ chữ bổ sung, hiệu chỉnh IME... Nhóm chúng tôi đã mạnh dạn đặt vấn đề với địa phương (tỉnh Thừa Thiên Huế) về đề án xây dựng một phần mềm Hán Nôm hoàn chỉnh và độc lập, lại được nhiều tổ chức và cá nhân hỗ trợ hay khuyến khích, như TS Đỗ Nam GĐ sở KH-CN-MT Thừa Thiên Huế, ông 1 Nguyễn Xuân Hoa GĐ sở Thông tin Văn Hoá TT-Huế, Trung tâm phần mềm Huế, TS Ngô Trung Việt ở viện Công nghệ TT .v.v. Báo cáo này giới thiệu một số kết quả nghiên cứu của đề tài trên. II. Vấn đề mã hoá Unicode chữ Nôm, hiển thị chữ Nôm trên máy tính cá nhân và đưa chữ Nôm lên internet. Việc chuẩn hóa chữ Nôm và đưa vào chuẩn mã Unicode quốc tế là một công trình lớn và hết sức giá trị, việc phát triển các phần mềm Hán Nôm sắp tới sẽ dựa hoàn toàn vào đó. Các vấn đề kỹ thuật liên quan đã có các báo cáo của các chuyên gia cao cấp. Ở đây chúng tôi chỉ tập trung thảo luận các kinh nghiệm thực tiễn mà chúng tôi nắm được. Sau khi mở rộng tới 21bits hệ thống mã Unicode hiện nay gồm 17 mặt phẳng mã hoá, mỗi mặt phẳng có kích thước 256*256, tính ra có hơn một triệu vị trí mã. Quan trọng nhất chính là mặt phẳng đa ngữ cơ sở chứa các kí tự ASCII và các kí tự 2byte “cũ”, xin xem sơ đồ kiến trúc Unicode ở phụ lục. Không kể các chữ Hán mượn làm chữ Nôm, thì phần lớn các “thuần Nôm” nằm ở mặt phẳng mã hóa bổ sung 2, có mã số lớn hơn 2bytes, chúng được biểu diễn bởi 2 ký tự trong khu vực surrogate của mặt phẳng đa ngữ cơ sở, đó gọi là cơ chế surrogate (thay thế), công thức mã hoá surrogate xin xem ở phụ lục. Việc sử dụng các chữ thuần Nôm đó cần có các phần mềm hỗ trợ kỹ thuật surrogate. Theo tài liệu của các chuyên gia như TS Ngô Trung Việt, Đỗ Bá Phước thì số lượng các phần mềm hiện hỗ trợ kỹ thuật surrogate hiện còn khá hạn chế: - Windows XP, Office XP, và các phầnn mềm khác dựa trên công nghệ UniScribe của Microsoft. - Mac OS X, và các phần mềm khác dựa trên công nghệ ATSUI của Apple. Như vậy việc dùng các chữ Nôm ở mặt phẳng 2 trong điều kiện ở nước ta hiện nay có nhiều cái khó khăn. Nhất là vấn đề đưa chữ Nôm lên mạng internet, nếu theo đúng chuẩn unicode thì vấp phải một số vấn đề kĩ thuật khá rắc rối. Thử nghiệm ngay với OfficeXP và WinXP tuy nói là hỗ trợ surrogate, nhưng thực tế vẫn còn có chỗ chưa được suôn sẻ ... Chúng ta có thể chọn giải pháp tạm thời là ánh xạ các chữ thuần Nôm vào khu vực người dùng tự do định nghĩa trong mặt phẳng cơ sở. Khu vực này từ E000 tới F8B0 có 6320 mã đủ cho các chữ thuần Nôm Unicode 3.1. Tuy nhiên vì nhiều lý do, trong phiên bản chương trình đầu tiên chúng tôi đã áp mã vào khu vực CJK cơ sở. Tuy chiếm dụng mã CJK cơ sở, nhưng không chiếm dụng mã các chữ Hán trong BIG5 và GB, chỉ chiếm các mã bổ sung mới của CJK. Do đó khi dùng bộ font TTF chữ Nôm có cả chữ Hán trong chương trình để xem các trang WEB của TQ cũng như Đài Loan thấy vẫn hiển thị đầy đủ, hầu như không có lỗi. Do mã chữ Nôm được xếp ở các „khe hở“ trong khu vực CJK nên IE bị đánh lừa, coi nó hoàn toàn như chữ Hán, việc đưa các chữ Nôm này lên mạng Internet, hay sao chép giữa các chương trình Windows rất dễ dàng, thông suốt, không có trục trặc gì cả. Tuy nhiên về lâu dài thì tất yếu phải theo chuẩn Unicode, muốn thế phải giải quyết vấn đề hiển thị surogate. Ban đầu chúng tôi chỉ biết OfficeXP có hỗ ...

Tài liệu được xem nhiều: