Thông tin tài liệu:
Bài báo này đề xuất phương pháp xử lý hình ảnh sau khi thu nhận và áp dụng kỹ thuật phân tích thành phần chính PCA (Principle Component Analysis) để nhận dạng cử chỉ dựa trên các hình ảnh sau khi xử lý đó. Các kết quả thực nghiệm cho thấy hệ thống đề xuất đã đạt được tỉ lệ nhận dạng cao.
Nội dung trích xuất từ tài liệu:
Ứng dụng thuật toán PCA trong nhận dạng ngôn ngữ cử chỉ tiếng việt tĩnh
Công nghệ thông tin & Cơ sở toán học cho tin học
ỨNG DỤNG THUẬT TOÁN PCA TRONG NHẬN DẠNG
NGÔN NGỮ CỬ CHỈ TIẾNG VIỆT TĨNH
Nguyễn Thị Hương Thảo, Lê Xuân Thành*, Vũ Hữu Tiến
Tóm tắt: Hiện nay, cử chỉ tay là một trong các mối quan tâm chính đối với người
khiếm thính vì họ sử dụng ngôn ngữ cử chỉ để giao tiếp với nhau và giao tiếp với
người bình thường. Đối với người bình thường nếu không biết hoặc gặp khó khăn
với ngôn ngữ cử chỉ của người khiếm thính thì cần phải có thông dịch viên hỗ trợ
quá trình giao tiếp. Do đó, một hệ thống nhận dạng ngôn ngữ cử chỉ bàn tay tự
động là rất cần thiết để giúp đỡ những người khiếm thính hòa nhập vào cuộc sống
bình thường. Về mặt kỹ thuật, nhận dạng ngôn ngữ cử chỉ là một bài toán toàn diện
vì phải có sự kết hợp của các giai đoạn thu nhận ảnh, xử lý ảnh, phân tích và nhận
dạng ảnh. Bài báo này đề xuất phương pháp xử lý hình ảnh sau khi thu nhận và áp
dụng kỹ thuật phân tích thành phần chính PCA (Principle Component Analysis) để
nhận dạng cử chỉ dựa trên các hình ảnh sau khi xử lý đó. Các kết quả thực nghiệm
cho thấy hệ thống đề xuất đã đạt được tỉ lệ nhận dạng cao.
Từ khóa: PCA, Nhận dạng cử chỉ, Ngôn ngữ cử chỉ tiếng Việt.
1. GIỚI THIỆU
Ngôn ngữ cử chỉ là loại ngôn ngữ sử dụng cử chỉ bàn tay, biểu cảm của khuôn
mặt và chuyển động của cơ thể để truyền đạt ý nghĩa giữa những người khiếm
thính với nhau và với người bình thường. Ngôn ngữ cử chỉ tay cũng được sử
dụng trong nhiều các ứng dụng khác như tương tác người – máy, hiện thực ảo, trò
chơi tương tác. Vì vậy hiện nay nhận dạng ngôn ngữ cử chỉ là một lĩnh vực thu
hút nhiều các nhà nghiên cứu tập trung tìm hiểu. Điều này giúp cho những người
khiếm thính có cơ hội giao tiếp với người bình thường một cách dễ dàng hơn.
Nhiều nghiên cứu trước đây đã thực hiện với các ngôn ngữ khác nhau như ngôn
ngữ cử chỉ Mỹ Latin, ngôn ngữ cử chỉ Ấn Độ, ngôn ngữ cử chỉ Anh. Tuy nhiên
chưa có nhiều bài báo đề cập đến ngôn ngữ cử chỉ Tiếng Việt VSL (Vietnamese
Sign Language). Bài báo này đề xuất một hệ thống nhận dạng cử chỉ tay mà
người sử dụng không cần phải sử dụng thiết bị chuyên dụng nào như găng tay mà
chỉ thực hiện cử chỉ bằng tay trần trước camera cố định sẵn. Hệ thống thực hiện
nhận dạng các chữ cái Tiếng Việt qua cử chỉ bàn tay tĩnh bằng cách sử dụng kỹ
thuật PCA.
Hệ thống nhận dạng cử chỉ tay có bốn giai đoạn: thu nhận dữ liệu, mô hình hóa
cử chỉ, trích chọn đặc trưng và nhận dạng. Thu nhận dữ liệu có thể thực hiện bằng
cách sử dụng găng tay. Găng tay dữ liệu sử dụng cảm biến (cơ hoặc quang) được
gắn vào găng tay để chuyển đổi cử chỉ ngón tay thành tín hiệu điện. Từ đó có thể
xác định được vị trí tương ứng của các ngón tay. Cử chỉ tay cũng có thể được thu
nhận bằng camera/webcam/Kinect 3D. Cách này có giá thành thấp và người sử
dụng có thể tạo ra các cử chỉ một cách dễ dàng. Trong một số các công trình
nghiên cứu trước đây sử dụng ảnh tĩnh để phân tích và nhận dạng, họ thường sử
dụng camera để bắt giữ hình ảnh. Tuy nhiên, phương pháp này không thích hợp
trong thực tế. Đối với các ứng dụng thời gian thực thường sử dụng webcam để bắt
giữ một chuỗi video cử động của bàn tay. Trong phương pháp này, các khung hình
118 N.T.H. Thảo, L.X. Thành, V. H. Tiến, “Ứng dụng thuật toán PCA… cử chỉ tiếng Việt tĩnh.”
Nghiên cứu khoa học công nghệ
được phân tích để tách ra ảnh cử chỉ bàn tay. Vấn đề chính trong phương pháp này
là tìm ra khung hình nào chứa cử chỉ cuối cùng.
Sau giai đoạn thu nhận dữ liệu là mô hình hóa cử chỉ. Bàn tay cần được mô hình
hoá để xử lý một cách chính xác. Các mô hình khác nhau được lựa chọn tùy theo
từng ứng dụng cụ thể. Giai đoạn này thực hiện phân vùng bàn tay và tiền xử lý.
Phân vùng bàn tay thực hiện tách bàn tay khỏi bức ảnh và tiền xử lý là quá trình
cải thiện chất lượng bức ảnh và cắt ra đúng vùng liên quan để xử lý tiếp theo. Quá
trình phân vùng chính xác sẽ giúp trích chọn đặc trưng hoàn hảo. Phương pháp
trích chọn đặc trưng được xem xét kỹ lưỡng tùy vào các ứng dụng khác nhau.
Giai đoạn cuối cùng của hệ thống nhận dạng cử chỉ tay là phân loại cử chỉ. Có
rất nhiều phương pháp phân loại như Mô hình Markov ẩn HMM, phân tích thành
phần chính PCA, phân loại theo khoảng cách, mạng neural.
Nhận dạng cử chỉ tay gồm nhiều kỹ thuật khác nhau [1]. Các nhà nghiên cứu sử
dụng các kỹ thuật khác nhau và đạt được độ chính xác khá cao. Phương pháp trong
tài liệu [2] đề xuất hệ thống nhận dạng ngôn ngữ cử chỉ Ấn Độ trong video trực tiếp
sử dụng trị riêng và vector riêng để trích chọn đặc trưng. Jayashree R.Pansare và
đồng nghiệp [3] đề xuất hệ thống nhận dạng cử chỉ tay tĩnh thời gian thực đối với
ngôn ngữ cử chỉ Mỹ Latinh trên nền phức tạp. Hệ thống thực hiện tiền xử lý ảnh với
bộ lọc trung vị và các toán tử hình thái, trích chọn đặc trưng sử dụng centroid và
phân loại sử dụng khoảng cách Euclidean. S.Nagarajan và T.S.Subashini [4] giới
thiệu hệ thống nhận dạng cử chỉ bàn tay tĩnh mô tả các chữ cái ngôn ngữ ký hiệu
Mỹ. Đóng góp chính của bài báo là sử dụng lược đồ xám hướng biên để trích chọn
đặc trưng và nhận dạng bằng SVM nhiều lớp tuy nhiên hệ thống chỉ thực hiện với
nền đồng nhất. [5] đề xuất hệ thống nhận dạng ngôn ngữ Đài Loan với cả hai loại cử
chỉ tay tĩnh và động sử dụng SVM và HMM, tuy nhiên hệ thống yêu cầu người sử
dụng phải đeo găng tay màu trong quá trình thu nhận ảnh.
Bài báo này đề xuất hệ thống nhận dạng cử chỉ bàn tay dựa trên kỹ thuật PCA
[6-7] đối với ngôn ngữ tiếng Việt và đánh giá tính hiệu quả của các phương pháp
khi sử dụng khoảng cách Euclidean để phân loại. Trong quá trình mô hình hóa cử
chỉ, bài báo đề xuất phương pháp tách bàn tay khỏi nền, giúp cho quá trình nhận
dạng được chính xác hơn.
Bài báo được cấu trúc như sau. Phần II đề xuất hệ thống nhận dạng cử chỉ tay.
Các kết quả thực nghiệm được mô tả và phân tích được mô ...