Nghiên cứu tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, nghiên cứu này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế.
Nội dung trích xuất từ tài liệu:
Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc
132 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc
Ninh Khánh Chi1, Ninh Khánh Duy2
1
Trường Cao đẳng Công nghệ thông tin Hữu nghị Việt - Hàn
2
Trường Đại học Bách Khoa, Đại học Đà Nẵng
chink@viethanit.edu.vn, nkduy@dut.udn.vn
Abstract. Chuẩn hóa văn bản là một bước quan trọng trong các hệ thống xử lý ngôn ngữ tự
nhiên và tiếng nói, đặc biệt là trong ứng dụng chuyển văn bản thành tiếng nói. Văn bản
tiếng Việt nói chung thường chứa những từ chưa được chuẩn hoá như chữ số, chữ viết tắt
và từ ngữ nước ngoài. Để chuẩn hóa văn bản, chúng ta cần phải chuyển tất cả các từ chưa
được chuẩn hoá thành dạng chuẩn là ngôn ngữ tự nhiên. Nghiên cứu tập trung trình bày giải
pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc
chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, nghiên cứu này
đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do
chúng tôi tự thiết kế. Kết quả thực nghiệm cho thấy giải pháp chúng tôi đề xuất mặc dù đơn
giản nhưng vẫn có thể phân lớp các từ chưa được chuẩn hóa trong văn bản tiếng Việt với độ
chính xác trên 90% cho 19 trên tổng số 24 lớp ký hiệu.
Keywords: Chuẩn Hóa Văn Bản, Phân Lớp Ký Hiệu, Bộ Quy Tắc.
1 Bài toán chuẩn hóa văn bản
Trong hệ thống ngôn ngữ trên thế giới hiện nay, tiếng Việt được xem là một trong những
ngôn ngữ có sự phong phú và đa dạng. Chính sự phong phú và phức tạp của tiếng Việt đã dẫn
đến những khó khăn cho người dùng và cả cho máy khi xử lý các văn bản tiếng Việt, đặc biệt là
trong lĩnh vực chuyển văn bản thành tiếng nói (text-to-speech) [1]. Văn bản tiếng Việt nói
chung thường chứa những từ chưa được chuẩn hoá như chữ số, chữ viết tắt và từ ngữ nước
ngoài [2]. Vì vậy văn bản cần được chuẩn hóa trước khi chuyển thành tiếng nói. Một văn bản
đơn thuần bao gồm rất nhiều loại ký tự khác nhau, ngôn ngữ tự nhiên chỉ là một trong số đó. Để
chuẩn hóa văn bản, ta cần phải chuyển tất cả các ký tự đó thành ngôn ngữ tự nhiên để hệ thống
có thể đọc thành lời được. Xét một ví dụ văn bản chưa được chuẩn hoá là “Vào 12h đêm 11/12,
anh Tùng (SN 1989) để xe Dream II trước số 11/12A Tây Hồ, Q.10, TPHCM”. Đoạn văn bản
này cần được chuẩn hoá thành “Vào mười hai giờ đêm ngày mười một tháng mười hai, anh
Tùng sinh năm một nghìn chín trăm tám mươi chín để xe đơ-rim hai trước số mười một trên
mười hai a Tây Hồ, quận mười, thành phố Hồ Chí Minh”.
Chúng tôi đã đề xuất một mô-đun chuẩn hoá văn bản như trong Hình 1. Văn bản chưa chuẩn
hóa được đưa vào bộ tách thẻ để cắt thành các câu, mỗi câu sau đó được cắt thành các thẻ
(token). Ví dụ, cụm từ “12h đêm 11/12” được cắt thành các thẻ {12, h, đêm, 11, /, 12}. Sau đó,
mỗi thẻ được đưa vào bộ phân lớp thẻ để gán nhãn lớp ký hiệu tương ứng (gọi là phân lớp ký
hiệu). Cuối cùng, tùy vào lớp ký hiệu mà thẻ được giải mã ký hiệu và chuyển thành lời
(verbalization) ở dạng chuẩn hóa.
Trong các nghiên cứu [3][4], chúng tôi đã phát triển các thuật toán chuyển thành lời riêng
cho chữ viết tắt và từ ngữ có nguồn gốc nước ngoài, vốn không được quan tâm trong các nghiên
cứu của các tác giả khác về chuẩn hóa văn bản tiếng Việt [5][6]. Để tìm dạng chuẩn hóa của
một thẻ thuộc lớp “Chữ viết tắt”, chúng tôi đã xây dựng một bộ từ điển gồm hơn 1.000 chữ viết
Ninh Khánh Chi, Ninh Khánh Duy 133
tắt kèm theo (các) khai triển tương ứng của từng chữ. Nếu gặp chữ viết tắt nào có nhiều hơn một
khai triển trong từ điển, một thuật toán khử nhập nhằng sẽ được sử dụng để tìm ra khai triển phù
hợp nhất [3]. Đối với từ ngữ có nguồn gốc nước ngoài (chủ yếu là tiếng Anh) có thẻ tương ứng
thuộc lớp “Ngôn ngữ tự nhiên”, chúng tôi đã đề xuất một giải pháp Việt hoá cách phát âm các
từ này [4]. Các giải pháp này đảm bảo toàn bộ văn bản đầu vào sẽ được chuẩn hoá.
Hình 1. Sơ đồ khối mô-đun chuẩn hoá văn bản
Trong nghiên cứu này, chúng tôi chỉ tập trung trình bày giải pháp thiết kế bộ phân lớp ký
hiệu (hay bộ phân lớp thẻ), thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa
văn bản. Các nghiên cứu về chuẩn hóa văn bản tiếng Việt cho ứng dụng chuyển văn bản thành
tiếng nói [5][6] sử dụng tiếp cận hướng dữ liệu (dùng dữ liệu lớn) để phân lớp ký hiệu. Chúng
tôi đề xuất một bộ phân lớp ký hiệu sử dụng bộ quy tắc tự thiết kế dựa trên kinh nghiệm ngôn
ngữ của chính mình. Cách tiếp cận này có ưu điểm đơn giản, không cần dữ liệu để huấn luyện
bộ phân lớp nhưng vẫn có thể xử lý hiệu quả các trường hợp văn bản tiếng Việt không chuẩn
thường gặp.
Nội dung còn lại của nghiên cứu gồm Phần 2 và 3 lần lượt mô tả thuật toán phân lớp ký hiệu
và đánh giá độ chính xác của thuật toán phân lớp trên bộ dữ liệu văn bản thu thập từ các trang
báo mạng tiếng Việt có nhiều người đọc. Phần cuối của nghiên cứu đưa ra kết luận và hướng
phát triển.
2 Phân lớp ký hiệu dùng bộ quy tắc
2.1 Đặt vấn đề
Văn bản không đơn giản chỉ là sự mã hóa của ngôn ngữ tự nhiên. Thay vào đó, văn bản là
một tín hiệu vật lý phổ biến được sử dụng để mã hóa nhiều hệ thống ký hiệu khác nhau, trong
đó ngôn ngữ tự nhiên chỉ là một trường hợp phổ biến. Như vậy, để chuẩn hóa văn bản, máy tính
cần phân lớp từng thẻ (token) trong văn bản vào một trong các lớp ký hiệu được con người sử
dụng, gọi là phân lớp ký hiệu. Việc phân lớp ký hiệu là việc gán mỗi thẻ vào một lớp ký hiệu
134 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
tương ứng một cách chính xác. Ngôn ngữ tiếng Việt tuy phong phú và đa dạng nhưng lại gây ra
sự nhập nhằng, th ...