Thông tin tài liệu:
Tái nhận dạng nhân vật sử dụng phương pháp học sâu có nhiều ứng dụng thực tiễn vào các hệ thống an ninh, camera giám sát. Bài viết trình bày việc nghiên cứu đặc trưng học sâu từ mạng DenseNet và sử dụng thêm thông tin không gian - thời gian để giúp cải thiện kết quả.
Nội dung trích xuất từ tài liệu:
Tái nhận dạng nhân vật sử dụng phương pháp học sâu
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
Tái nh™n d§ng nhân v™t s˚ dˆng ph˜Ïng pháp
hÂc sâu
Nguyπn Hoàng TrÂng Nghæa⇤ , Nguyπn Công Minh⇤ , Võ Duy Nguyên⇤ ,
Tr¶n Minh Tùng† Nguyπn Tßn Tr¶n Minh Khang⇤
⇤ Tr˜Ìng
§i hÂc Công nghª Thông tin, HQG-HCM
†
Tr˜Ìng §i hÂc Tài chính - Marketing
{16520808, 16520740}@gm.uit.edu.vn, {nguyenvd, khangnttm}@uit.edu.vn,
tungufm@ufm.edu.vn
Tóm t≠t—Tái nh™n d§ng nhân v™t (Person ReIdentifica- th˘ hai, hª thËng s≥ cho ra mÎt danh sách nh˙ng nhân
tion) có nhi∑u ˘ng dˆng th¸c tiπn vào các hª thËng an ninh, v™t ã xußt hiªn camera th˘ nhßt ˜Òc x∏p h§ng theo
camera giám sát. Bài toán tÁn t§i nhi∑u thách th˘c do s¸ m˘c Î t˜Ïng t¸ so vÓi ng˜Ìi ang xét. Và trong mÎt
a d§ng góc nhìn, t˜ th∏, trang phˆc và khung n∑n khi Ëi
th™p kø qua, bài toán này nh™n ˜Òc s¸ quan tâm cıa
t˜Òng di chuy∫n qua nhi∑u camera. Trong nghiên c˘u này,
chúng tôi dùng ∞c tr˜ng hÂc sâu t¯ m§ng DenseNet và cÎng Áng nghiên c˘u th‡ giác [1][2][3][4][5]
s˚ dˆng thêm thông tin không gian – thÌi gian ∫ giúp c£i
II. CÁC NGHIÊN CŸU LIÊN QUAN
thiªn k∏t qu£. Th˚ nghiªm trên hai bÎ d˙ liªu Market-1501
và DukeMTMC-reID cho thßy hiªu qu£ c£i thiªn Rank-1 A. Ph˜Ïng pháp hÂc sâu d¸a trên CNN
l¶n l˜Òt t´ng 15% và 18.1%. S¸ thành công cıa các ph˜Ïng pháp hÂc sâu (Deep
T¯ khóa—Tái nh™n d§ng nhân v™t, ∞c tr˜ng hÂc sâu,
∞c tr˜ng không gian – thÌi gian. learning) trong image classification lan t‰a ∏n person
reidentification vào n´m 2014. Hiªn t§i có rßt nhi∑u
ph˜Ïng pháp s˚ dˆng deep learning cho person ReID
I. GIŒI THIõU
˜Òc xußt b£n t§i các hÎi ngh‡ lÓn nh˜ ICCV, CVPR,
Trong thÌi §i công nghª phát tri∫n ngày nay, hª thËng ... D¸a trên các model, các ph˜Ïng pháp này ˜Òc chia
các camera giám sát an ninh ngày càng phÍ bi∏n trong thành ba nhánh chính và sau ây là mÎt trong ba nhánh:
các môi tr˜Ìng c¶n £m b£o an ninh nh˜ siêu th‡, tr˜Ìng d¸a trên CNN.
hÂc, ngân hàng, bãi gi˙ xe,... Viªc v™n hành, s˚ dˆng CNN nguyên thıy d¸a trên multi-layer perceptron hai
hª thËng camera quan sát này hiªn v®n còn ˜Òc th¸c chi∑u. H˜Óng ti∏p c™n này th˜Ìng b‡ tác Îng bi nhi∑u
hiªn thı công chı y∏u bi các chuyên viên v™n hành. y∏u tË nh˜ hình dáng, góc Î, chi∏u sáng. Vì các m§ng
Tuy nhiên, t§i nh˙ng ‡a i∫m k∫ trên, sË l˜Òng ng˜Ìi CNN ban ¶u không ˜Òc phát tri∫n cho bài toán phát
xußt hiªn là rßt lÓn, gây ra rßt nhi∑u khó kh´n trong viªc hiªn Ëi t˜Òng nên khi chúng ta áp dˆng chúng vào bài
giám sát con ng˜Ìi. toán tái nh™n d§ng nhân v™t s≥ không §t ˜Òc k∏t qu£
VÓi mÎt hª thËng camera giám sát vÓi góc nhìn không cao. Các ph˜Ïng pháp tái nh™n d§ng nhân v™t d¸a trên
chÁng lßp, mÎt trong nh˙ng vßn ∑ nÍi b™t cıa hª thËng CNN ∫ rút trích ∞c tr˜ng có mÎt framework chung
giám sát này là viªc theo v∏t mÎt Ëi t˜Òng khi Ëi ˜Òc mô t£ trong hình 1.
t˜Òng này di chuy∫n t¯ vùng giám sát cıa camera này
sang vùng giám sát cıa camera khác, hay còn ˜Òc gÂi
là bài toán tái nh™n d§ng Ëi t˜Òng. Bài toán này trên
th¸c t∏ g∞p rßt nhi∑u khó kh´n do s¸ a d§ng v∑ ngo§i
hình và trang phˆc cıa Ëi t˜Òng, Î nhiπu cıa vùng
Hình 1. Framework chung cho các ph˜Ïng pháp tái nh™n d§ng nhân
n∑n, s¸ thay Íi v∑ Î chi∏u sáng, góc nhìn cÙng nh˜ v™t s˚ dˆng m§ng CNN ∫ rút trích ∞c tr˜ng.
mÎt vài y∏u tË khác.
Bài toán tái nh™n d§ng nhân v™t b¨ng hª thËng máy tính
˜Òc ˜a ra ∫ gi£i quy∏t vßn ∑ trên. Tái nh™n d§ng B. Bi∏n không gian – thÌi gian
nhân v™t là bài toán so khÓp hình £nh các nhân v™t ˜Òc Thay vì dùng thông tin ∞c tr˜ng th‡ giác nhân v™t
quay t¯ hai camera khác nhau có vùng quan sát không cho bài toán P-ReID, mÎt lo§t các ph˜Ïng pháp ti∏p
chÁng lßp. Cˆ th∫, vÓi mÈi ng˜Ìi xußt hiªn camera c™n cÙng cË g≠ng ∫ khai thác thông tin không gian –
ISBN: 978-604-80-5076-4 273
Hội nghị Quốc gia lần thứ 23 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2020)
thÌi gian. Cách Ïn gi£n nhßt là lßy thông tin không [6], chúng tôi s˚ dˆng framework này và áp dˆng cho
gian – thÌi gian t¯ chính các video. Các ph˜Ïng pháp các model trích xußt ∞c tr˜ng th‡ giác nh˜ DenseNet
tái nh™n d§ng nhân v™t trên image-to-video và video- và OSNet.
based [2][3] nh≠m ∏n viªc hÂc giá tr‡ không gian và
thÌi gian. Tuy nhiên nh˙ng ph˜Ïng pháp ti∏p c™n này A. LuÁng trích xußt ∞c tr˜ng th‡ giác
còn t™p trung chı y∏u vào viªc trích xußt ∞c tr˜ng hình ây là luÁng bi∫u diπn ´c tr˜ng hình £nh. LuÁng
£nh ch˘ không ph£i thông tin không gian, thÌi gian. Ví này có th∫ s˚ dˆng a d§ng các lo§i model ˜Òc thi∏t
dˆ mÎt ng˜Ìi camera 1 t§i thÌi gian t1 không nên k∏ cho viªc trích xußt ∞c tr˜ng hình £nh nh˜ DenseNet,
˜Òc nh™n d§ng camera 2 t§i thÌi gian t2 cách ó mÎt ResNet ( ˜Òc thi∏t k∏ cho bài toán phát hiªn Ëi t˜Òng)
thÌi i∫m ng≠n. MÎt bi∏n không thÌi gian nh˜ v™y s≥ hay PCB ( ˜Òc thi∏t k∏ cho bài toán tái nh™n d§ng nhân
gi£m bÓt rßt nhi∑u các Ëi ...