Thông tin tài liệu:
Các bài toán nhúng văn bản tiếng Việt trong dữ liệu audio đều phải giải quyết hai vấn đề liên quan, đó là tăng hiệu quả nhúng và bảo mật nội dung tin nhúng. Chúng tôi giải quyết bài toán này bằng cách phân tích đặc điểm của chữ viết tiếng Việt; từ đó xây dựng khóa mã, dùng để mã hóa và nén văn bản tiếng Việt trước khi thực hiện nhúng. Kết quả thử nghiệm với các văn bản tiếng Việt thông dụng, cho thấy số bit tin cần nhúng giảm đáng kể so với phương pháp nhúng thông thường; đồng thời nội dung văn bản nhúng được bảo mật.
Nội dung trích xuất từ tài liệu:
Nhúng văn bản tiếng Việt trong dữ liệu audio dựa vào đặc điểm của chữ viết tiếng Việt
Vũ Văn Tâm và Đtg
Tạp chí KHOA HỌC & CÔNG NGHỆ
122(08): 53 - 58
NHÚNG VĂN BẢN TIẾNG VIỆT TRONG DỮ LIỆU AUDIO
DỰA VÀO ĐẶC ĐIỂM CỦA CHỮ VIẾT TIẾNG VIỆT
Vũ Văn Tâm1*, Phan Trọng Hanh2
1Đại
học Kỹ thuật – Hậu cần CAND (Bộ Công an),
2Học viện Kỹ thuật Quân sự (Bộ Quốc phòng)
TÓM TẮT
Các bài toán nhúng văn bản tiếng Việt trong dữ liệu audio đều phải giải quyết hai vấn đề liên quan,
đó là tăng hiệu quả nhúng và bảo mật nội dung tin nhúng. Chúng tôi giải quyết bài toán này bằng
cách phân tích đặc điểm của chữ viết tiếng Việt; từ đó xây dựng khóa mã, dùng để mã hóa và nén
văn bản tiếng Việt trước khi thực hiện nhúng. Kết quả thử nghiệm với các văn bản tiếng Việt
thông dụng, cho thấy số bit tin cần nhúng giảm đáng kể so với phương pháp nhúng thông thường;
đồng thời nội dung văn bản nhúng được bảo mật.
Từ khóa: Nhúng văn bản; nhúng dữ liệu; mã hóa văn bản; nén văn bản; nhúng audio
ĐẶT VẤN ĐỀ*
Nhúng văn bản tiếng Việt trong dữ liệu audio
là một trong những bài toán cơ bản nhất của
kỹ thuật giấu tín hiệu trong dữ liệu số. Hiện
nay, đã có nhiều phương pháp tiếp cận khác
nhau như: Phương pháp nhúng LSB (Least
Significant Bit) [2], [4], [5]; Mã hóa Parity
(Parity Coding) [2], [4]; Mã hóa Phase (Phase
Coding) [2], [5]; Ứng dụng kỹ thuật trải phổ
[1], [2]; Kỹ thuật mã hóa echo [2], [6]. Các
phương pháp nêu trên tập trung chủ yếu vào
xây dựng thuật toán nhúng tin nhằm bảo đảm
tin nhúng được ổn định.
Việc kết hợp giữa nhúng tin với nén và mã
hóa tin có thể sẽ tăng được hiệu quả nhúng và
bảo mật được tin cần nhúng. Trên cơ sở
nghiên cứu về đặc điểm của chữ viết tiếng
Việt, từ đó xây dựng các khóa mã dùng để
nén và mã hóa chữ viết tiếng Việt trước khi
thực hiện nhúng vào dữ liệu audio.
Với cách tiếp cận như trên, bài báo được trình
bày theo thứ tự sau: Đặc điểm chữ viết tiếng
Việt; Xây dựng mô hình; Xây dựng các thuật
toán; Thử nghiệm và đánh giá và cuối cùng là
phần kết luận.
ĐẶC ĐIỂM CHỮ VIẾT TIẾNG VIỆT
Bộ chữ viết tiếng Việt được chia làm 2 loại:
Chữ số (từ 0 đến 9), là loại không có dấu,
*
Tel: 0168975888;, Email: tamt36bca@gmail.com
chúng có thể kết hợp với nhau để tạo thành các
giá trị số lớn hơn; Chữ cái bao gồm 3 thành
phần chính, đó là: Thành phần phụ âm (b c t v
d s w x đ g r f z y j h q p n m l k tr qu ch th kh
nh gi ng ngh gh ph); Thành phần nguyên âm (a
ă â an ăn ân am ăm âm au âu ai ao ac ăc âc at
ăt ât ach anh ang ăng âng ap ăp âp ay ây o ô ơ
on ôn ơn om ôm ơm oc ôc owc ot ôt ơt op ôp
ơp oat oăt oen oam oan oăn oanh oap oăc oa
oet oac oai oi ôi ơi oe oach ông ôc oang ong
ông oay u ư ut ưt uc ưc ươn uây ua ưa uyêt
uêch uênh ương uông um ưm un ưn ưng uya
ươm uôm uen uôn uyên uyt ươn ui ưi ươu e ê
en ên em êm et êt ep êp ec êc êu eo eng êng
ênh êch i it in im ip iu ia inh ing iêng iêp iêc iêt
iên iêm iêu ich yêt yêu yên ; / . = ? % ~ ! @ # $
^ & * ( ) - + “ | [ ] { }) và thành phần dấu
(không dấu, nặng, huyền, sắc, hỏi và ngã).
Nếu coi chữ số là phụ âm thì tổng số phụ âm
là 10 + 33 = 43, tổng số nguyên âm là 185 và
tổng số dấu là 6. Do vậy, số phụ âm, nguyên
âm và dấu là hữu hạn và chúng ta hoàn toàn
có thể biết trước.
Với phương pháp nhúng văn bản tiếng Việt
thông thường, mỗi ký tự sẽ được mã hóa
thành 8 bit, ví dụ chữ “Nguyễn” gồm 6 ký tự
sẽ được mã hóa thành 6 8 48 [bit]. Nếu
chúng ta thực hiện tách riêng phụ âm, nguyên
âm và dấu; sau đó mã hóa thì số bit sẽ là: Phụ
âm “Ng” = a [bit], nguyên âm “uyên” =
b [bit] và dấu “ ” = c [bit], khi đó tổng số
53
Vũ Văn Tâm và Đtg
Tạp chí KHOA HỌC & CÔNG NGHỆ
bit sẽ là d a b c [bit]. Nếu d 48 thì số
bit giảm được so với trường hợp nhúng thông
thường là 48 d e [bit]. Ngoài ra, với việc
mã hóa như trên thì nội dung văn bản cần
nhúng đã được bảo mật (bên nhận phải có các
tham số của bộ mã mới giải mã được nội
dung tín hiệu nhúng).
122(08): 53 - 58
lưu khóa mã dưới dạng file text có tên là
phu_am.txt (Hình 2b).
+ Thuật toán mã hóa: β là phụ âm cần mã
hóa, £[i] là các thành phần của file
phu_am.txt, µ là 6 bít sau khi mã hóa.
XÂY DỰNG MÔ HÌNH
Sơ đồ mô hình
Text
Giải mã
phụ âm Text
Mã hóa
phụ âm
(a) Ma trận khóa mã phần phụ âm
(b) Cấu trúc file
Tách Khóa
chữ mã
Ghép
bit
Nhúng
Giải Tách Khóa Ghép
nhúng bit
chữ
mã
phu_am.txt
000000 b
000001 c
000010 t
101001 ngh
........
111001 8
Hình 2. Khóa mã phần phụ âm
Mã hóa
nguyên
âm
Giải mã
nguyên
âm
Hình 1. Mô hình nhúng tiếng Việt trong dữ liệu Audio
Các chữ của văn bản tiếng Việt được đưa vào
bộ tách chữ, thành phần phụ âm sẽ được mã
hóa thành a [bit] bởi bộ mã hóa phụ âm,
thành phần nguyên âm và dấu được mã hóa
thành ( b c ) [bit] bởi bộ mã hóa nguyên âm.
Sau bộ ghép bit chúng ta có d [bit] (với
d a b c . Sử dụng phương pháp nhúng
LSB để nhúng và giải nhúng các bit tin với dữ
liệu gốc audio. Phía bên nhận sẽ thực hiện
ngược lại với bên phát để nhận được nội dung
văn bản đã nhúng.
Xây dựng thuật toán
- Thành phần phụ âm:
+ Khóa mã: Sử dụng phương pháp ma trận,
các ô thuộc hàng 1 và các ...