Danh mục

Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc

Số trang: 7      Loại file: pdf      Dung lượng: 740.29 KB      Lượt xem: 6      Lượt tải: 0    
Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Nghiên cứu tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, nghiên cứu này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế.
Nội dung trích xuất từ tài liệu:
Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc 132 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc Ninh Khánh Chi1, Ninh Khánh Duy2 1 Trường Cao đẳng Công nghệ thông tin Hữu nghị Việt - Hàn 2 Trường Đại học Bách Khoa, Đại học Đà Nẵng chink@viethanit.edu.vn, nkduy@dut.udn.vn Abstract. Chuẩn hóa văn bản là một bước quan trọng trong các hệ thống xử lý ngôn ngữ tự nhiên và tiếng nói, đặc biệt là trong ứng dụng chuyển văn bản thành tiếng nói. Văn bản tiếng Việt nói chung thường chứa những từ chưa được chuẩn hoá như chữ số, chữ viết tắt và từ ngữ nước ngoài. Để chuẩn hóa văn bản, chúng ta cần phải chuyển tất cả các từ chưa được chuẩn hoá thành dạng chuẩn là ngôn ngữ tự nhiên. Nghiên cứu tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu, thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa. Khác với các nghiên cứu trước sử dụng tiếp cận hướng dữ liệu, nghiên cứu này đề xuất giải pháp phân lớp ký hiệu sử dụng bộ quy tắc dựa trên kinh nghiệm ngôn ngữ do chúng tôi tự thiết kế. Kết quả thực nghiệm cho thấy giải pháp chúng tôi đề xuất mặc dù đơn giản nhưng vẫn có thể phân lớp các từ chưa được chuẩn hóa trong văn bản tiếng Việt với độ chính xác trên 90% cho 19 trên tổng số 24 lớp ký hiệu. Keywords: Chuẩn Hóa Văn Bản, Phân Lớp Ký Hiệu, Bộ Quy Tắc. 1 Bài toán chuẩn hóa văn bản Trong hệ thống ngôn ngữ trên thế giới hiện nay, tiếng Việt được xem là một trong những ngôn ngữ có sự phong phú và đa dạng. Chính sự phong phú và phức tạp của tiếng Việt đã dẫn đến những khó khăn cho người dùng và cả cho máy khi xử lý các văn bản tiếng Việt, đặc biệt là trong lĩnh vực chuyển văn bản thành tiếng nói (text-to-speech) [1]. Văn bản tiếng Việt nói chung thường chứa những từ chưa được chuẩn hoá như chữ số, chữ viết tắt và từ ngữ nước ngoài [2]. Vì vậy văn bản cần được chuẩn hóa trước khi chuyển thành tiếng nói. Một văn bản đơn thuần bao gồm rất nhiều loại ký tự khác nhau, ngôn ngữ tự nhiên chỉ là một trong số đó. Để chuẩn hóa văn bản, ta cần phải chuyển tất cả các ký tự đó thành ngôn ngữ tự nhiên để hệ thống có thể đọc thành lời được. Xét một ví dụ văn bản chưa được chuẩn hoá là “Vào 12h đêm 11/12, anh Tùng (SN 1989) để xe Dream II trước số 11/12A Tây Hồ, Q.10, TPHCM”. Đoạn văn bản này cần được chuẩn hoá thành “Vào mười hai giờ đêm ngày mười một tháng mười hai, anh Tùng sinh năm một nghìn chín trăm tám mươi chín để xe đơ-rim hai trước số mười một trên mười hai a Tây Hồ, quận mười, thành phố Hồ Chí Minh”. Chúng tôi đã đề xuất một mô-đun chuẩn hoá văn bản như trong Hình 1. Văn bản chưa chuẩn hóa được đưa vào bộ tách thẻ để cắt thành các câu, mỗi câu sau đó được cắt thành các thẻ (token). Ví dụ, cụm từ “12h đêm 11/12” được cắt thành các thẻ {12, h, đêm, 11, /, 12}. Sau đó, mỗi thẻ được đưa vào bộ phân lớp thẻ để gán nhãn lớp ký hiệu tương ứng (gọi là phân lớp ký hiệu). Cuối cùng, tùy vào lớp ký hiệu mà thẻ được giải mã ký hiệu và chuyển thành lời (verbalization) ở dạng chuẩn hóa. Trong các nghiên cứu [3][4], chúng tôi đã phát triển các thuật toán chuyển thành lời riêng cho chữ viết tắt và từ ngữ có nguồn gốc nước ngoài, vốn không được quan tâm trong các nghiên cứu của các tác giả khác về chuẩn hóa văn bản tiếng Việt [5][6]. Để tìm dạng chuẩn hóa của một thẻ thuộc lớp “Chữ viết tắt”, chúng tôi đã xây dựng một bộ từ điển gồm hơn 1.000 chữ viết Ninh Khánh Chi, Ninh Khánh Duy 133 tắt kèm theo (các) khai triển tương ứng của từng chữ. Nếu gặp chữ viết tắt nào có nhiều hơn một khai triển trong từ điển, một thuật toán khử nhập nhằng sẽ được sử dụng để tìm ra khai triển phù hợp nhất [3]. Đối với từ ngữ có nguồn gốc nước ngoài (chủ yếu là tiếng Anh) có thẻ tương ứng thuộc lớp “Ngôn ngữ tự nhiên”, chúng tôi đã đề xuất một giải pháp Việt hoá cách phát âm các từ này [4]. Các giải pháp này đảm bảo toàn bộ văn bản đầu vào sẽ được chuẩn hoá. Hình 1. Sơ đồ khối mô-đun chuẩn hoá văn bản Trong nghiên cứu này, chúng tôi chỉ tập trung trình bày giải pháp thiết kế bộ phân lớp ký hiệu (hay bộ phân lớp thẻ), thành phần đóng vai trò quyết định độ chính xác của việc chuẩn hóa văn bản. Các nghiên cứu về chuẩn hóa văn bản tiếng Việt cho ứng dụng chuyển văn bản thành tiếng nói [5][6] sử dụng tiếp cận hướng dữ liệu (dùng dữ liệu lớn) để phân lớp ký hiệu. Chúng tôi đề xuất một bộ phân lớp ký hiệu sử dụng bộ quy tắc tự thiết kế dựa trên kinh nghiệm ngôn ngữ của chính mình. Cách tiếp cận này có ưu điểm đơn giản, không cần dữ liệu để huấn luyện bộ phân lớp nhưng vẫn có thể xử lý hiệu quả các trường hợp văn bản tiếng Việt không chuẩn thường gặp. Nội dung còn lại của nghiên cứu gồm Phần 2 và 3 lần lượt mô tả thuật toán phân lớp ký hiệu và đánh giá độ chính xác của thuật toán phân lớp trên bộ dữ liệu văn bản thu thập từ các trang báo mạng tiếng Việt có nhiều người đọc. Phần cuối của nghiên cứu đưa ra kết luận và hướng phát triển. 2 Phân lớp ký hiệu dùng bộ quy tắc 2.1 Đặt vấn đề Văn bản không đơn giản chỉ là sự mã hóa của ngôn ngữ tự nhiên. Thay vào đó, văn bản là một tín hiệu vật lý phổ biến được sử dụng để mã hóa nhiều hệ thống ký hiệu khác nhau, trong đó ngôn ngữ tự nhiên chỉ là một trường hợp phổ biến. Như vậy, để chuẩn hóa văn bản, máy tính cần phân lớp từng thẻ (token) trong văn bản vào một trong các lớp ký hiệu được con người sử dụng, gọi là phân lớp ký hiệu. Việc phân lớp ký hiệu là việc gán mỗi thẻ vào một lớp ký hiệu 134 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” tương ứng một cách chính xác. Ngôn ngữ tiếng Việt tuy phong phú và đa dạng nhưng lại gây ra sự nhập nhằng, th ...

Tài liệu được xem nhiều: