時(shí)間:2021年12月31日 分類:農(nóng)業(yè)論文 次數(shù):
摘要:由于不同道路監(jiān)控視角下的車輛姿態(tài)不斷變化,因此車輛重識(shí)別仍是智慧交通系統(tǒng)中一項(xiàng)具有挑戰(zhàn)性的任務(wù)。現(xiàn)有的車輛重識(shí)別的方法大多數(shù)基于車輛的外觀屬性,但識(shí)別受光照和角度等因素影響導(dǎo)致識(shí)別效果較差。因此,本文設(shè)計(jì)了一種車輛姿態(tài)感知注意力增強(qiáng)網(wǎng)絡(luò)以提高車輛在光照和角度等因素影響下的重識(shí)別效果。首先,將圖片輸入到卷積姿態(tài)網(wǎng)絡(luò)中生成12個(gè)關(guān)鍵點(diǎn)重建車輛姿態(tài)信息,然后將輸入圖像車輛與目標(biāo)圖像車輛進(jìn)行比較,提取出兩輛車公共區(qū)域的特征;最后,計(jì)算車輛全局特征和局部特征之間的距離,并根據(jù)最終結(jié)果對(duì)識(shí)別結(jié)果進(jìn)行排序。本文在VehicleID和VeRi776數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,所提出的網(wǎng)絡(luò)相較于其他模型top10的檢測準(zhǔn)確率提高了10%左右。
關(guān)鍵詞:關(guān)鍵點(diǎn);車輛姿態(tài);注意力機(jī)制;車輛重識(shí)別
0引言
車輛重識(shí)別是一種跨相機(jī)車輛跟蹤技術(shù),因此,車輛重識(shí)別任務(wù)在智能交通、刑事偵查和重大事件信息安全等方面具有廣泛的應(yīng)用。但是,在監(jiān)控視角下車輛的視覺外觀在不同的車輛姿態(tài)時(shí)有很大的不同,相反,從相同的角度看,兩輛相似的車外觀變化又很小。因此,從多個(gè)監(jiān)控?cái)z像頭的外觀、姿態(tài)、軌跡等方面搜索相同的車輛協(xié)助社會(huì)公共衛(wèi)生安全的建立具有一定的重要意義。為了解決上述兩個(gè)問題,目前的方法主要集中在元信息(例如,車輛屬性,時(shí)空信息)來提高特征的表示能力,文獻(xiàn)[1]就是采用一種基于屬性的車輛重識(shí)別方法,它訓(xùn)練了具有各種屬性的模型,并在數(shù)據(jù)集中搜索了具有相似屬性的車輛,文獻(xiàn)[2]使用三維邊界框來糾正車輛的不同圖像,然后提取顏色直方圖,并將他們連接到一個(gè)特征向量,最后,他們訓(xùn)練了SVM分類器來判斷兩個(gè)圖像是否具有相同的ID。
最近,許多深度學(xué)習(xí)方法應(yīng)用于車輛重識(shí)別,文獻(xiàn)[3]介紹了一種基于孿生網(wǎng)絡(luò)的度量學(xué)習(xí)方法,文獻(xiàn)[4]采用一種區(qū)域感知深度模型進(jìn)行車輛重識(shí)別,文獻(xiàn)[5]則考慮了輸入鄰域之間的差異,文獻(xiàn)[6]提出了一種精細(xì)的搜索框架,通過車輛屬性和時(shí)空信息建模來進(jìn)行車輛重識(shí)別;文獻(xiàn)[7]引入了一個(gè)深層網(wǎng)絡(luò),將攝像機(jī)的視野、車輛類型和顏色融合到車輛的特征中,上述方法都側(cè)重于學(xué)習(xí)車輛的全局表示。
但是,在不同的監(jiān)控視角下,整體外觀會(huì)發(fā)生巨大變化,這導(dǎo)致全局功能的不穩(wěn)定,并且也帶來了第一個(gè)挑戰(zhàn)。相反,局部特征通常提供穩(wěn)定的判別線索,從而有利于獲取更多車輛區(qū)別性特征。文獻(xiàn)[8]基于車輛的車窗、車頂?shù)染植刻卣鞑⒉捎昧私裹c(diǎn)融合的方法對(duì)車輛進(jìn)行了重識(shí)別;文獻(xiàn)基于車輛關(guān)鍵點(diǎn)檢測生成方向不變特征、文獻(xiàn)[10]基于車輛的三個(gè)均勻分離的區(qū)域提取局部特征以獲得顯著性的車輛局部特征。文獻(xiàn)[11]通過YOLO檢測器檢測每輛車的車窗,燈光和品牌,以產(chǎn)生判別特征。
以上方法著重于預(yù)定義的區(qū)域,以學(xué)習(xí)細(xì)微的局部提示。但是,顯著的提示(例如排氣,貼紙和裝飾物)由于其形狀小而不易區(qū)分,并且可能出現(xiàn)在車輛的任何部分,增加了檢測的復(fù)雜性,這導(dǎo)致了第二個(gè)挑戰(zhàn)。上述方法只是從車輛的外觀信息來進(jìn)行重識(shí)別,而忽略了車輛的姿態(tài)等屬性。目標(biāo)關(guān)鍵點(diǎn)定位具有許多重要的應(yīng)用,例如,面部對(duì)齊[12,13]、人體姿勢估計(jì)[14,15]和目標(biāo)定位[16]等。在大多數(shù)人臉識(shí)別框架中都進(jìn)行基于關(guān)鍵點(diǎn)的人臉對(duì)齊[17]。
關(guān)鍵點(diǎn)的位置非常有用,因?yàn)榭梢酝ㄟ^關(guān)鍵點(diǎn)很好地對(duì)齊學(xué)習(xí)的功能。但是,在現(xiàn)有文獻(xiàn)中,對(duì)車輛關(guān)鍵點(diǎn)的研究還不夠深入。本文提出的方法表明,車輛關(guān)鍵點(diǎn)可以指導(dǎo)學(xué)習(xí)和對(duì)齊,并提高整體車輛重識(shí)別的性能。因此考慮到同一車輛在同一視角下的姿態(tài)變化較大,本文提出了一個(gè)車輛姿態(tài)感知注意力增強(qiáng)框架,首先,將圖像輸入到CPM網(wǎng)絡(luò)中判別車輛的姿態(tài);其次,對(duì)輸入圖像與目標(biāo)圖像的交叉區(qū)域進(jìn)行過濾,通過注意力網(wǎng)絡(luò)對(duì)公共區(qū)域進(jìn)行特征提取;最后,計(jì)算車輛全局特征和局部特征之間的距離,按相似度從高到低排序,篩選出相似度排名前10的目標(biāo)車輛。
1方法
本文提出了一種車輛姿態(tài)感知注意力增強(qiáng)的車輛重識(shí)別方法,包括車輛姿態(tài)判別,公共區(qū)域特征提取以及全局與局部特征的相似度計(jì)算三部分。以下是對(duì)每個(gè)部分的詳細(xì)介紹。
1.1車輛姿態(tài)重建
在本節(jié)中,主要介紹車輛框架重建以及姿態(tài)判別的方法,利用關(guān)鍵點(diǎn)檢測和形狀調(diào)整的框線來進(jìn)行車輛姿態(tài)的判別。假設(shè)每輛車在3D中是由12個(gè)關(guān)鍵點(diǎn)的線框組成,這些關(guān)鍵點(diǎn)對(duì)應(yīng)于車輛上易于識(shí)別的位置,比如前燈、反光鏡、尾燈、車頂拐角、車輪等(圓點(diǎn)即為關(guān)鍵點(diǎn))。
給定輸入的車輛圖像,使用深度學(xué)習(xí)網(wǎng)絡(luò)預(yù)測車輛的語義關(guān)鍵點(diǎn),CNN輸出12個(gè)帶有突出顯示的關(guān)鍵點(diǎn)的熱圖,接著,將輸出熱圖作為輸入,并顯示熱圖中最大概率的關(guān)鍵點(diǎn),關(guān)鍵點(diǎn)將車輛框架劃分為3個(gè)平面,頂層、中間層和底層。第一層為前擋風(fēng)和后擋風(fēng)玻璃的上方角點(diǎn),第二層為左前燈,左后燈,右前燈,右后燈,第三層為左前輪,左后輪,右前輪,右后輪。根據(jù)圖像檢測出來的關(guān)鍵點(diǎn)構(gòu)成的車輛框架與形狀框線模型進(jìn)行對(duì)比分析,從而判斷出車輛所處姿態(tài)。
車輛可以粗略的看成是具有8個(gè)表面的模型,車輛底部在攝像頭的下方是不可見的。八個(gè)部分(除車輛底部外)進(jìn)行不同顏色的區(qū)域劃分,分為頂部、前部、后部和側(cè)面四部分,以便在后續(xù)中提取車輛的公共區(qū)域的特征。在監(jiān)控視角下,車輛的左側(cè)和右側(cè)通常是不能同時(shí)出現(xiàn)的,并且在視覺上通常是對(duì)稱的,基于這些觀察,本文將車輛的姿態(tài)分為正面、背面、正右側(cè)、背右側(cè)、正左側(cè)和背左側(cè)六個(gè)車輛姿態(tài),將判別后的車輛姿態(tài)作為第二部分特征提取的已知條件。
1.2公共區(qū)域的特征提取
在監(jiān)控視角下,圖像能夠覆蓋整輛車,因此可以捕獲兩輛車之間的每一個(gè)細(xì)微差異;其次,在大多數(shù)監(jiān)控視角下,圖像中的車輛框架的3個(gè)部分是可見的,因此目標(biāo)車輛與輸入車輛之間至少有兩個(gè)相同的部分。在上述階段之后,就可以獲得車輛的公共區(qū)域的特征,本文采用公共注意力網(wǎng)絡(luò),以增強(qiáng)公共區(qū)域的特征,這有助于捕獲同一車輛的穩(wěn)定判別信息。本文提出的該注意力模型能夠自動(dòng)選擇顯著的區(qū)域,并且刪除無用的信息,在車輛重識(shí)別問題中,本文模型需要關(guān)注輸入車輛和目標(biāo)車輛之間車輛重疊的區(qū)域,例如,為了從正左側(cè)和正右側(cè)的角度分辨兩輛相似的車輛之間的區(qū)別,人們通常會(huì)關(guān)注車輛的共同的外觀部分(比如車輛正面和頂部)以區(qū)分兩輛車是否相同。
因此,提出了一種車輛姿態(tài)感知的注意力模型。本文提出的注意力網(wǎng)絡(luò)主要由三部分組成,首先,通過車輛的外觀屬性等訓(xùn)練深層的CNN網(wǎng)絡(luò),從而篩選出與目標(biāo)車輛相似的車輛。其次,根據(jù)篩選出的相似車輛的圖片,對(duì)車輛的關(guān)鍵點(diǎn)進(jìn)行檢測,從而重建車輛的線性框架圖,進(jìn)行車輛的姿態(tài)判別;最后,將輸入車輛姿態(tài)與目標(biāo)車輛姿態(tài)進(jìn)行比較,從而獲取公共區(qū)域。
1.3車輛特征相似度計(jì)算
在上述階段之后,本文獲得了注意力模型提取出來的局部特征,本節(jié)將結(jié)合全局特征對(duì)圖像進(jìn)行相似度計(jì)算。如果車輛某些區(qū)域不是公共區(qū)域,則相應(yīng)區(qū)域的分?jǐn)?shù)將相對(duì)較小,因此,只有得分高的特征圖才有助于最終距離,本文通過構(gòu)建全局特征的ID損失和三元組損失以及局部特征的三元組損失來優(yōu)化網(wǎng)絡(luò),根據(jù)上述局部特征的距離計(jì)算三元損失。
2實(shí)驗(yàn)
2.1數(shù)據(jù)集
本文選用VehicleID和VeRi776數(shù)據(jù)集來驗(yàn)證所提出方法的性能。VehicleID:是由監(jiān)控相機(jī)收集的,該數(shù)據(jù)集包含26267種車輛以及221763張車輛圖像,該數(shù)據(jù)集的訓(xùn)練集由13182輛車的100182張圖像組成,測試集由2400輛車的19777張圖像組成,VehicleID中的圖像是從車輛前方視角和車輛后方視角中捕獲的,它還提供了250種車輛模型的注釋。VeRi776:是從實(shí)際監(jiān)控場景中20個(gè)不重疊的交通監(jiān)控?cái)z像頭中收集的,它包含776輛車的51035個(gè)邊界框,該數(shù)據(jù)集劃分了576輛車用于訓(xùn)練,200輛車用于測試,該數(shù)據(jù)集中的車輛包含三個(gè)視點(diǎn),即正視圖、后視圖和側(cè)視圖,VeRi-776提供以下信息的注釋:ID,型號(hào),車輛顏色,攝像機(jī)之間的關(guān)系以及軌跡信息。
2.2評(píng)價(jià)指標(biāo)
受文獻(xiàn)[18]行人重識(shí)別的研究啟發(fā),本文采用top@1,top@5,top@10的平均精度(mAP)作為本實(shí)驗(yàn)的評(píng)估指標(biāo)。
2.3實(shí)驗(yàn)分析
1)關(guān)鍵點(diǎn)回歸分析在本節(jié)中,將根據(jù)回歸的精度以及標(biāo)簽與車輛姿態(tài)之間的關(guān)系對(duì)關(guān)鍵點(diǎn)回歸器進(jìn)行全面的研究。為了訓(xùn)練和評(píng)估關(guān)鍵點(diǎn)回歸器,在整個(gè)VeRi776數(shù)據(jù)集圖像上手動(dòng)標(biāo)注12個(gè)關(guān)鍵點(diǎn)位置。在測試階段,提取測試圖像的響應(yīng)圖,并預(yù)測具有最大響應(yīng)的關(guān)鍵點(diǎn)位置。如果回歸的關(guān)鍵點(diǎn)位置與真實(shí)位置之間的距離小于閾值r0,則認(rèn)為該點(diǎn)為正確的預(yù)測的關(guān)鍵點(diǎn)。否則為錯(cuò)誤的預(yù)測關(guān)鍵點(diǎn),在評(píng)估階段中不可見的關(guān)鍵點(diǎn)將被忽略。
2)注意模型的作用由于輸入圖像的每個(gè)車輛的姿態(tài)都不相同,對(duì)于車輛重識(shí)別任務(wù)相對(duì)困難,因此,本文考慮關(guān)注輸入車輛與目標(biāo)車輛之間的公共區(qū)域,從而探索注意力機(jī)制在基線中的意義。如果不使用注意力機(jī)制,mAP會(huì)降低10%左右,由于注意力模型可以通過深度k步建立,因此,對(duì)于變量k進(jìn)行進(jìn)一步評(píng)估以選出最佳性能的k值,顯示了當(dāng)k=2時(shí)達(dá)到了最高的mAP,因此,本文模型的k取值為2。如果不使用注意力模型,則結(jié)果不令人滿意。
3)全局和局部損失權(quán)重的選擇本節(jié)通過實(shí)驗(yàn)驗(yàn)證了車輛姿態(tài)感知增強(qiáng)注意力模型對(duì)車輛重識(shí)別性能的影響,全局損失和局部損失之間不同權(quán)重對(duì)結(jié)果的影響,從中可以發(fā)現(xiàn),本文所提出的車輛姿態(tài)注意力模型在mAP、top@1、top@5、top@10上都得到改善。
3結(jié)論
本文提出了一種車輛姿態(tài)感知增強(qiáng)注意力模型,抓住車輛姿態(tài)的屬性,基于車輛關(guān)鍵點(diǎn)重構(gòu)車輛的姿態(tài),通過CPM網(wǎng)絡(luò)劃分車輛的姿態(tài),通過注意力機(jī)制改進(jìn)了特征提取的方式,進(jìn)一步提取出車輛重識(shí)別中顯著性的特征,最終計(jì)算全局特征與局部特征的距離。本文所提出的模型有助于獲得同一車輛的穩(wěn)定判別信息。并且在數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)表明,本文所提出的模型相較于其他模型在top10準(zhǔn)確度上提高了10%左右。該技術(shù)可廣泛引用語智能公共安全防護(hù)、智能交通環(huán)境感知領(lǐng)域,對(duì)于追捕違法車輛、治安防控、刑事偵破等社會(huì)重大公共安全衛(wèi)生具有重要意義。
參考文獻(xiàn):
[1]FERISRS,SIDDIQUIEB,PETTERSONJ,etal.Large-scalevehicledetection,indexing,andsearchinurbansurveillancevideos[J].IEEETransactionsonMultimedia,2011,14(1):28-42.
[2]ZAPLETALD,HEROUTA.Vehiclere-identificationforautomaticvideotrafficsurveillance[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognitionWork-shops.2016:25-31.
作者:朱肖磊吳訓(xùn)成