Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt

Số trang: 6 Loại file: pdf Dung lượng: 440.44 KB Lượt xem: 8 Lượt tải: 0

tailieu_vip

Phí lưu trữ: 2,000 VND

Xem trước 2 trang đầu tiên của tài liệu này:

Thông tin tài liệu:

Các bài toán nhúng văn bản tiếng Việt trong dữ liệu audio đều phải giải quyết hai vấn đề liên quan, đó là tăng hiệu quả nhúng và bảo mật nội dung tin nhúng. Chúng tôi giải quyết bài toán này bằng cách phân tích đặc điểm của chữ viết tiếng Việt; từ đó xây dựng khóa mã, dùng để mã hóa và nén văn bản tiếng Việt trước khi thực hiện nhúng. Kết quả thử nghiệm với các văn bản tiếng Việt thông dụng, cho thấy số bit tin cần nhúng giảm đáng kể so với phương pháp nhúng thông thường; đồng thời nội dung văn bản nhúng được bảo mật.
Nội dung trích xuất từ tài liệu:
Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt Vũ Văn Tâm và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ 122(08): 53 - 58 NHÚNG VĂN BẢN TIẾNG VIỆT TRONG DỮ LIỆU AUDIO DỰA VÀO ĐẶC ĐIỂM CỦA CHỮ VIẾT TIẾNG VIỆT Vũ Văn Tâm1*, Phan Trọng Hanh2 1Đại học Kỹ thuật – Hậu cần CAND (Bộ Công an), 2Học viện Kỹ thuật Quân sự (Bộ Quốc phòng) TÓM TẮT Các bài toán nhúng văn bản tiếng Việt trong dữ liệu audio đều phải giải quyết hai vấn đề liên quan, đó là tăng hiệu quả nhúng và bảo mật nội dung tin nhúng. Chúng tôi giải quyết bài toán này bằng cách phân tích đặc điểm của chữ viết tiếng Việt; từ đó xây dựng khóa mã, dùng để mã hóa và nén văn bản tiếng Việt trước khi thực hiện nhúng. Kết quả thử nghiệm với các văn bản tiếng Việt thông dụng, cho thấy số bit tin cần nhúng giảm đáng kể so với phương pháp nhúng thông thường; đồng thời nội dung văn bản nhúng được bảo mật. Từ khóa: Nhúng văn bản; nhúng dữ liệu; mã hóa văn bản; nén văn bản; nhúng audio ĐẶT VẤN ĐỀ* Nhúng văn bản tiếng Việt trong dữ liệu audio là một trong những bài toán cơ bản nhất của kỹ thuật giấu tín hiệu trong dữ liệu số. Hiện nay, đã có nhiều phương pháp tiếp cận khác nhau như: Phương pháp nhúng LSB (Least Significant Bit) [2], [4], [5]; Mã hóa Parity (Parity Coding) [2], [4]; Mã hóa Phase (Phase Coding) [2], [5]; Ứng dụng kỹ thuật trải phổ [1], [2]; Kỹ thuật mã hóa echo [2], [6]. Các phương pháp nêu trên tập trung chủ yếu vào xây dựng thuật toán nhúng tin nhằm bảo đảm tin nhúng được ổn định. Việc kết hợp giữa nhúng tin với nén và mã hóa tin có thể sẽ tăng được hiệu quả nhúng và bảo mật được tin cần nhúng. Trên cơ sở nghiên cứu về đặc điểm của chữ viết tiếng Việt, từ đó xây dựng các khóa mã dùng để nén và mã hóa chữ viết tiếng Việt trước khi thực hiện nhúng vào dữ liệu audio. Với cách tiếp cận như trên, bài báo được trình bày theo thứ tự sau: Đặc điểm chữ viết tiếng Việt; Xây dựng mô hình; Xây dựng các thuật toán; Thử nghiệm và đánh giá và cuối cùng là phần kết luận. ĐẶC ĐIỂM CHỮ VIẾT TIẾNG VIỆT Bộ chữ viết tiếng Việt được chia làm 2 loại: Chữ số (từ 0 đến 9), là loại không có dấu, * Tel: 0168975888;, Email: tamt36bca@gmail.com chúng có thể kết hợp với nhau để tạo thành các giá trị số lớn hơn; Chữ cái bao gồm 3 thành phần chính, đó là: Thành phần phụ âm (b c t v d s w x đ g r f z y j h q p n m l k tr qu ch th kh nh gi ng ngh gh ph); Thành phần nguyên âm (a ă â an ăn ân am ăm âm au âu ai ao ac ăc âc at ăt ât ach anh ang ăng âng ap ăp âp ay ây o ô ơ on ôn ơn om ôm ơm oc ôc owc ot ôt ơt op ôp ơp oat oăt oen oam oan oăn oanh oap oăc oa oet oac oai oi ôi ơi oe oach ông ôc oang ong ông oay u ư ut ưt uc ưc ươn uây ua ưa uyêt uêch uênh ương uông um ưm un ưn ưng uya ươm uôm uen uôn uyên uyt ươn ui ưi ươu e ê en ên em êm et êt ep êp ec êc êu eo eng êng ênh êch i it in im ip iu ia inh ing iêng iêp iêc iêt iên iêm iêu ich yêt yêu yên ; / . = ? % ~ ! @ # $ ^ & * ( ) - + “ | [ ] { }) và thành phần dấu (không dấu, nặng, huyền, sắc, hỏi và ngã). Nếu coi chữ số là phụ âm thì tổng số phụ âm là 10 + 33 = 43, tổng số nguyên âm là 185 và tổng số dấu là 6. Do vậy, số phụ âm, nguyên âm và dấu là hữu hạn và chúng ta hoàn toàn có thể biết trước. Với phương pháp nhúng văn bản tiếng Việt thông thường, mỗi ký tự sẽ được mã hóa thành 8 bit, ví dụ chữ “Nguyễn” gồm 6 ký tự sẽ được mã hóa thành 6 8 48 [bit]. Nếu chúng ta thực hiện tách riêng phụ âm, nguyên âm và dấu; sau đó mã hóa thì số bit sẽ là: Phụ âm “Ng” = a [bit], nguyên âm “uyên” = b [bit] và dấu “ ” = c [bit], khi đó tổng số 53 Vũ Văn Tâm và Đtg Tạp chí KHOA HỌC & CÔNG NGHỆ bit sẽ là d a b c [bit]. Nếu d 48 thì số bit giảm được so với trường hợp nhúng thông thường là 48 d e [bit]. Ngoài ra, với việc mã hóa như trên thì nội dung văn bản cần nhúng đã được bảo mật (bên nhận phải có các tham số của bộ mã mới giải mã được nội dung tín hiệu nhúng). 122(08): 53 - 58 lưu khóa mã dưới dạng file text có tên là phu_am.txt (Hình 2b). + Thuật toán mã hóa: β là phụ âm cần mã hóa, £[i] là các thành phần của file phu_am.txt, µ là 6 bít sau khi mã hóa. XÂY DỰNG MÔ HÌNH Sơ đồ mô hình Text Giải mã phụ âm Text Mã hóa phụ âm (a) Ma trận khóa mã phần phụ âm (b) Cấu trúc file Tách Khóa chữ mã Ghép bit Nhúng Giải Tách Khóa Ghép nhúng bit chữ mã phu_am.txt  000000 b 000001 c 000010 t 101001 ngh ........ 111001 8 Hình 2. Khóa mã phần phụ âm Mã hóa nguyên âm Giải mã nguyên âm Hình 1. Mô hình nhúng tiếng Việt trong dữ liệu Audio Các chữ của văn bản tiếng Việt được đưa vào bộ tách chữ, thành phần phụ âm sẽ được mã hóa thành a [bit] bởi bộ mã hóa phụ âm, thành phần nguyên âm và dấu được mã hóa thành ( b c ) [bit] bởi bộ mã hóa nguyên âm. Sau bộ ghép bit chúng ta có d [bit] (với d a b c . Sử dụng phương pháp nhúng LSB để nhúng và giải nhúng các bit tin với dữ liệu gốc audio. Phía bên nhận sẽ thực hiện ngược lại với bên phát để nhận được nội dung văn bản đã nhúng. Xây dựng thuật toán - Thành phần phụ âm: + Khóa mã: Sử dụng phương pháp ma trận, các ô thuộc hàng 1 và các ...