時(shí)間:2022年04月25日 分類(lèi):電子論文 次數(shù):
摘 要:傳統(tǒng)的視覺(jué)位置識(shí)別(VPR)方法通常使用基于圖像幀的相機(jī),存在劇烈光照變化、快速運(yùn)動(dòng)等易導(dǎo)致 VPR 失敗的問(wèn)題。針對(duì)上述問(wèn)題,本文提出了一種使用事件相機(jī)的端到端 VPR 網(wǎng)絡(luò),可以在具有挑戰(zhàn)性的環(huán)境中實(shí)現(xiàn)良好的 VPR 性能。所提出算法的核心思想是,首先采用事件脈沖張量(EST)體素網(wǎng)格對(duì)事件流進(jìn)行表征,然后利用深度殘差網(wǎng)絡(luò)進(jìn)行特征提取,最后采用改進(jìn)的局部聚合描述子向量(VLAD)網(wǎng)絡(luò)進(jìn)行特征聚合,最終實(shí)現(xiàn)基于事件流的端到端 VPR。將該方法在基于事件的駕駛數(shù)據(jù)集(MVSEC、DDD17)和人工合成的事件流數(shù)據(jù)集(Oxford RobotCar)上與典型的基于圖像幀的視覺(jué)位置識(shí)別方法進(jìn)行了比較實(shí)驗(yàn)。結(jié)果表明,在具有挑戰(zhàn)性的場(chǎng)景(例如夜晚場(chǎng)景)中,本文方法的性能優(yōu)于基于圖像幀的視覺(jué)位置識(shí)別方法,其 Recall@1 指標(biāo)提升約6.61%。據(jù)我們所知,針對(duì)視覺(jué)位置識(shí)別任務(wù),這是首個(gè)直接處理事件流數(shù)據(jù)的端到端弱監(jiān)督深度網(wǎng)絡(luò)架構(gòu)。
關(guān)鍵詞:視覺(jué)位置識(shí)別(VPR);事件相機(jī);事件脈沖張量(EST);深度殘差網(wǎng)絡(luò);三元組排序損失
1 引言(Introduction)
視覺(jué)位置識(shí)別(VPR) [1-2] 是計(jì)算機(jī)視覺(jué)和移動(dòng)機(jī)器人領(lǐng)域中一個(gè)非常具有挑戰(zhàn)性的問(wèn)題。在計(jì)算機(jī)視覺(jué)領(lǐng)域,視覺(jué)位置識(shí)別技術(shù)可以在構(gòu)建好的帶有地理信息標(biāo)注的大規(guī)模圖像數(shù)據(jù)庫(kù)中進(jìn)行視覺(jué)信息檢索和跨時(shí)間的位置信息檢索,或者服務(wù)于增強(qiáng)現(xiàn)實(shí)(AR)等交互式 3D 視覺(jué)應(yīng)用場(chǎng)景。在移動(dòng)機(jī)器人領(lǐng)域,機(jī)器人在無(wú) GPS 環(huán)境中進(jìn)行視覺(jué)位置識(shí)別的能力是自主定位和導(dǎo)航的核心能力之一。
在同時(shí)定位與建圖(SLAM)技術(shù)中,視覺(jué)位置識(shí)別是回環(huán)檢測(cè)(loop closure) [3-4] 的重要組成部分,可用于檢測(cè)候選閉環(huán)并通過(guò)全局優(yōu)化來(lái)消除累積誤差,從而實(shí)現(xiàn)全局一致的位姿估計(jì)和建圖。此外,視覺(jué)位置識(shí)別還可以在構(gòu)建好的環(huán)境地圖中進(jìn)行精確視覺(jué)定位,可廣泛應(yīng)用于自動(dòng)駕駛汽車(chē)、服務(wù)機(jī)器人等應(yīng)用。
目前已經(jīng)有許多方案來(lái)解決移動(dòng)機(jī)器人的大規(guī)模視覺(jué)位置識(shí)別問(wèn)題。在傳感器方面,這些方案普遍使用單目、雙目、全景相機(jī)等基于圖像幀的視覺(jué)傳感器,具有對(duì)光照變化敏感、易產(chǎn)生運(yùn)動(dòng)模糊和冗余信息較多等缺點(diǎn),使得傳統(tǒng)視覺(jué)位置識(shí)別方法難以處理一些挑戰(zhàn)性環(huán)境中的識(shí)別任務(wù)。在算法原理方面,這些方案大多數(shù)是基于場(chǎng)景外觀的(appearance-based)方法[5],但在晝夜、天氣和季節(jié)變化等的影響下,同一個(gè)位置的外觀在不同時(shí)間會(huì)發(fā)生巨大變化,加上一些位置遙遠(yuǎn)的場(chǎng)景外觀可能十分相似,這些情況對(duì)現(xiàn)有的基于圖像幀的大規(guī)模位置識(shí)別方法提出了挑戰(zhàn)。
不同于傳統(tǒng)的基于圖像幀的視覺(jué)位置識(shí)別方法,本文提出了一種基于事件相機(jī)的視覺(jué)位置識(shí)別方法。事件相機(jī)(event camera)是一種新穎的受生物視網(wǎng)膜啟發(fā)的神經(jīng)形態(tài)視覺(jué)傳感器,并以完全不同于幀相機(jī)的方式工作:它采用地址事件表示(address-event representation,AER)方法,并以微秒級(jí)分辨率觸發(fā)像素級(jí)亮度變化(稱為“事件”),輸出不同于圖像幀的稀疏異步事件流[6-7]。
事件相機(jī)具有低延遲、高時(shí)間分辨率、低帶寬、低功耗、高動(dòng)態(tài)范圍等優(yōu)勢(shì),可以有效地克服傳統(tǒng)基于圖像幀的視覺(jué)位置識(shí)別方法存在的問(wèn)題。為了利用事件相機(jī)實(shí)現(xiàn)魯棒的視覺(jué)位置識(shí)別,本文首次提出了一種基于事件相機(jī)的端到端視覺(jué)位置識(shí)別弱監(jiān)督網(wǎng)絡(luò)架構(gòu)。其關(guān)鍵思想是將 VLAD 應(yīng)用于由事件流生成的 EST 體素網(wǎng)格表征。據(jù)我們所知,這是第一個(gè)使用事件相機(jī)的端到端視覺(jué)位置識(shí)別方法。在不同天氣、不同場(chǎng)景的多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的方法優(yōu)于基于圖像幀的視覺(jué)位置識(shí)別方法,能夠在一定程度上克服視覺(jué)位置識(shí)別中存在的大尺度場(chǎng)景、高動(dòng)態(tài)范圍和長(zhǎng)期適應(yīng)性等挑戰(zhàn)性問(wèn)題。本文的主要?jiǎng)?chuàng)新點(diǎn)和貢獻(xiàn)如下:
(1) 提出了一種基于事件相機(jī)的端到端視覺(jué)位置識(shí)別弱監(jiān)督網(wǎng)絡(luò)算法流程,該算法流程直接使用事件流作為輸入,能夠有效地進(jìn)行視覺(jué)位置識(shí)別;(2) 在多個(gè)基于事件的駕駛數(shù)據(jù)集上,針對(duì)該方法和典型的基于圖像幀的方法在不同天氣、季節(jié)和環(huán)境等大規(guī)模場(chǎng)景序列中進(jìn)行了全面、直觀的比較,來(lái)評(píng)估視覺(jué)位置識(shí)別方法的性能;(3) 對(duì)比了多種不同事件表征、不同網(wǎng)絡(luò)結(jié)構(gòu)和不同弱監(jiān)督損失函數(shù)對(duì)網(wǎng)絡(luò)整體性能的影響,以說(shuō)明該方法各個(gè)部分的作用和優(yōu)勢(shì);(4) 在增加的擴(kuò)展實(shí)驗(yàn)中,使用自動(dòng)駕駛仿真器錄制了幾組事件流序列,探究了載體的行駛速度變化對(duì)視覺(jué)位置識(shí)別準(zhǔn)確率的影響。
2 相關(guān)工作(Related work)
視覺(jué)傳感器的成本低、功耗低,并且能提供豐富的場(chǎng)景信息,正日益成為位置識(shí)別的主要傳感器類(lèi)型。目前流行的大規(guī)模視覺(jué)位置識(shí)別方案普遍采用基于圖像幀的(frame-based)視覺(jué)傳感器 [1-2] 和基于場(chǎng)景外觀的方法 [5],來(lái)實(shí)現(xiàn)大規(guī)模的位置識(shí)別。在這種情況下,一般可以將視覺(jué)位置識(shí)別問(wèn)題轉(zhuǎn)化為帶有地理信息標(biāo)注的(geo-tagged)大規(guī)模圖像檢索問(wèn)題,并通過(guò)匹配相同位置的圖像來(lái)解決位置識(shí)別任務(wù)。
關(guān)于如何更好地表征和匹配相同位置的圖像,已經(jīng)進(jìn)行了廣泛的研究[1-2]。這些方法通常采用傳統(tǒng)的稀疏特征提取技術(shù)(例如 SIFT(尺度不變特征變換)[8]、ORB (oriented FAST androtated BRIEF) [9] 等),以及典型的局部聚合描述子技術(shù)(例如詞袋模型 BoW [3-4]、VLAD [10-11] 等),來(lái)建立圖像特征的高階統(tǒng)計(jì)模型。一個(gè)典型的工作是 DenseVLAD [12],它使用 SIFT 從圖像中提取密集的特征描述,并使用 VLAD 進(jìn)行特征聚合。
隨著深度學(xué)習(xí)的興起,一些工作開(kāi)始使用現(xiàn)成的(offthe-shelf)卷積神經(jīng)網(wǎng)絡(luò)(例如OverFeat、VGGNet和 AlexNet [13-14] 等)作為可訓(xùn)練的特征提取器,還有一些工作將 VLAD 改進(jìn)為一種可訓(xùn)練的池化層(例如 NetVLAD [15] 等),用來(lái)得到圖像的描述子向量作為緊湊的圖像表征。在檢索和匹配環(huán)節(jié)中,基于序列的(sequence-based)匹配技術(shù)是一種受到廣泛認(rèn)可的匹配方法,典型的工作是 SeqSLAM 方法[16],它通過(guò)搜索高度相似的序列片段進(jìn)行視覺(jué)位置識(shí)別。近年來(lái),研究者們開(kāi)始試圖從不同方面進(jìn)一步改進(jìn)識(shí)別性能。
例如,一些基于場(chǎng)景結(jié)構(gòu)的(structure-based)方法,主要利用場(chǎng)景的重復(fù)邊緣、半稠密地圖等結(jié)構(gòu)信息進(jìn)行位置識(shí)別[5,17-18]。也有一些工作采用基于場(chǎng)景語(yǔ)義的(semantic-based)方法進(jìn)行視覺(jué)位置識(shí)別,主要利用場(chǎng)景中的路標(biāo)、文本、物體等語(yǔ)義信息 [19-21]。雖然傳統(tǒng)的基于圖像幀的視覺(jué)位置識(shí)別技術(shù)在過(guò)去十幾年中得到了快速發(fā)展,但由于幀相機(jī)的固有缺陷,目前這些方法仍然難以解決一些挑戰(zhàn)性環(huán)境中存在的問(wèn)題(例如光照變化、運(yùn)動(dòng)模糊等)。 與基于圖像幀的標(biāo)準(zhǔn)相機(jī)相比,事件相機(jī)具有高動(dòng)態(tài)范圍、高時(shí)間分辨率和低延遲等優(yōu)點(diǎn)[6-7]。由于這些優(yōu)勢(shì),事件相機(jī)最近受到了越來(lái)越多的關(guān)注。
然而,據(jù)我們所知,基于事件(eventbased)的視覺(jué)位置識(shí)別的相關(guān)研究工作仍然很少。Milford 等 [22] 首先嘗試將 SeqSLAM 法遷移到事件相機(jī)上,完成了一個(gè)比較粗糙的基于事件幀的位置識(shí)別實(shí)驗(yàn)。在此之后,他們提出了一種基于事件的視覺(jué)位置識(shí)別時(shí)空窗口集成方案(ensemble-eventVPR)[23]。該方法使用不同事件個(gè)數(shù)和不同時(shí)間窗口尺寸的事件流片段,通過(guò) E2Vid 方法 [24] 將事件流片段重建為一組強(qiáng)度幀序列,分別使用NetVLAD [15] 預(yù)訓(xùn)練模型得到對(duì)應(yīng)的視覺(jué)描述子,然后通過(guò)對(duì)描述子的距離矩陣求平均值進(jìn)行集成,從而進(jìn)行視覺(jué)位置識(shí)別。
然而,該方法并不是直接基于事件流的方法,而是需要將事件流轉(zhuǎn)換成強(qiáng)度幀,實(shí)質(zhì)上依然是一種基于圖像幀的視覺(jué)位置識(shí)別方法。另外,由于用到了不同長(zhǎng)度的事件流片段進(jìn)行強(qiáng)度重建并集成,該算法計(jì)算量大且十分耗時(shí),因此難以執(zhí)行大規(guī)模場(chǎng)景中的位置識(shí)別,且難以部署到真實(shí)的機(jī)器人上實(shí)時(shí)運(yùn)行。而本文首次提出了一種新穎的端到端的基于事件的視覺(jué)位置識(shí)別網(wǎng)絡(luò),并取得了優(yōu)異的位置識(shí)別效果。
3 方法(Methodology)
本節(jié)詳細(xì)描述所提出的基于事件的視覺(jué)位置識(shí)別方法的網(wǎng)絡(luò)架構(gòu)和設(shè)計(jì)方案,包括算法的各個(gè)模塊組件以及網(wǎng)絡(luò)訓(xùn)練的主要步驟和注意事項(xiàng)。
為了使用流行的基于深度學(xué)習(xí)的特征提取技術(shù),需要將稀疏異步事件流數(shù)據(jù)轉(zhuǎn)換為一種卷積網(wǎng)絡(luò)可處理的表征形式。目前比較典型的事件流數(shù)據(jù)表征方法大致有運(yùn)動(dòng)補(bǔ)償事件幀(motion-compensated event frame,MCEF)[25]、4 通道圖像(4-channel image,4CH) [26] 和事件體素網(wǎng)格(event voxel grid,EVG) [27] 等。
此外,也可以將事件流轉(zhuǎn)換為傳統(tǒng)的基于圖像幀的視頻(例如E2Vid) [24]。這里使用事件脈沖張量的體素網(wǎng)格表征方法。在將事件流轉(zhuǎn)換為 EST 體素網(wǎng)格表征之后,需要對(duì)其進(jìn)行特征提取。本文使用了在基于事件的手寫(xiě)數(shù)字識(shí)別任務(wù)中預(yù)訓(xùn)練的深度殘差網(wǎng)絡(luò)(deep residual network,DRN)ResNet34 [28]作為特征提取網(wǎng)絡(luò)。為了將其遷移到本文的視覺(jué)位置識(shí)別任務(wù)中,需要對(duì)原始網(wǎng)絡(luò)進(jìn)行裁剪。
4 實(shí)驗(yàn)(Experiments)
在 MVSEC [33]、 DDD17 [34] 和 Oxford RobotCar[35] 等多個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),通過(guò)定量的實(shí)驗(yàn)結(jié)果來(lái)驗(yàn)證本文所提出方法的有效性。進(jìn)行了 3 個(gè)實(shí)驗(yàn)來(lái)評(píng)估所提出的基于事件的視覺(jué)位置識(shí)別方法。首先,評(píng)估了所提出的基于事件的視覺(jué)位置識(shí)別方法在不同駕駛場(chǎng)景下的性能,并驗(yàn)證了其長(zhǎng)期魯棒性。然后,在同一數(shù)據(jù)集上對(duì)基于事件的本文算法和基于圖像幀的視覺(jué)位置識(shí)別算法進(jìn)行了比較,并對(duì)所提出算法的性能進(jìn)行了定量分析。最后,從事件表征、特征提取網(wǎng)絡(luò)和損失函數(shù) 3 個(gè)方面對(duì)所提出的基于事件的網(wǎng)絡(luò)架構(gòu)進(jìn)行了消融(ablation)研究,實(shí)驗(yàn)結(jié)果證明了該方法各個(gè)模塊的優(yōu)勢(shì)。
4.1 數(shù)據(jù)集配置
由于現(xiàn)階段還沒(méi)有基于事件相機(jī)的位置識(shí)別數(shù)據(jù)集,因此在本文的實(shí)驗(yàn)中,選取并改造了目前公開(kāi)的幾個(gè)駕駛場(chǎng)景的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。其中 MVSEC 數(shù)據(jù)集和 DDD17 數(shù)據(jù)集是現(xiàn)有的在真實(shí)環(huán)境中記錄的事件相機(jī)數(shù)據(jù)集 [33-34]。本文選取了 MVSEC 數(shù)據(jù)集的5 個(gè)室外駕駛場(chǎng)景序列(包括白天和夜晚場(chǎng)景,由左目 DAVIS 相機(jī)獲得)和 DDD17 數(shù)據(jù)集的 12 個(gè)室外駕駛場(chǎng)景序列(包括市區(qū)、城鎮(zhèn)和高速公路場(chǎng)景)的強(qiáng)度圖像和事件流片段,其中包含了多種光照變化和場(chǎng)景結(jié)構(gòu)變化。
此外 Oxford RobotCar 數(shù)據(jù)集是視覺(jué)位置識(shí)別領(lǐng)域常用的標(biāo)準(zhǔn)數(shù)據(jù)集[35]。仿真事件流合成器使用的是 V2E [36],合成序列選擇的是 Oxford RobotCar 數(shù)據(jù)集中由三目立體相機(jī)(Bumblebee XB3)采集的中間圖像序列。盡可能地選取了不同天氣條件下相同軌跡的序列,覆蓋了晴天、陰天、雨天、雪天、黃昏和夜晚等場(chǎng)景。上述場(chǎng)景的光照、外觀差異較大,能夠較好地驗(yàn)證所提出算法的魯棒性。隨機(jī)地將相同路線的序列劃分為地理上不重疊的訓(xùn)練集和測(cè)試集。
在 MVSEC 數(shù)據(jù)集中,從 5 個(gè)序列中選取了大約40 000 個(gè)訓(xùn)練樣本和 10 000 個(gè)測(cè)試樣本。在 DDD17數(shù)據(jù)集中,從 12 個(gè)序列中選擇了大約 240 000 個(gè)測(cè)試樣本。在 Oxford RobotCar 數(shù)據(jù)集的 11 個(gè)序列中選擇了大約 50 000 個(gè)訓(xùn)練樣本和 12 000 個(gè)測(cè)試樣本。對(duì)于參數(shù),在 MVSEC 和 Oxford RobotCar 數(shù)據(jù)集中,選擇潛在陽(yáng)性距離閾值為 λ = 10 m,潛在陰性距離閾值為 δ = 25 m,且真陽(yáng)性地理距離閾值為φ = 20 m。此外在 DDD17 數(shù)據(jù)集中,除了真陽(yáng)性地理距離閾值為 φ = 50 m,其他的參數(shù)都相同。
在這個(gè)實(shí)驗(yàn)中,比較了不同的弱監(jiān)督損失函數(shù)對(duì)本文方法性能的影響,包括三元組損失(triplet loss,TL)、四元組損失(quadruplet loss,QL)、簡(jiǎn)化三元組損失(lazy tripletloss,LTL)和簡(jiǎn)化四元組損失(lazy quadrupletloss,LQL)。在進(jìn)行這些實(shí)驗(yàn)時(shí),均使用 EST 體素網(wǎng)格作為事件表征,ResNet34 作為特征提取網(wǎng)絡(luò)。實(shí)驗(yàn)結(jié)果顯示不同的弱監(jiān)督損失函數(shù)對(duì)模型性能有輕微影響。
原始的三元組和四元組損失函數(shù)使用 sum 算子而不是簡(jiǎn)化損失函數(shù)中的 max 算子,因此原始的三元組和四元組損失往往需要更長(zhǎng)的訓(xùn)練時(shí)間。而簡(jiǎn)化的三元組和四元組損失可以在保證性能的同時(shí)提高網(wǎng)絡(luò)訓(xùn)練效率。其中四元組損失的訓(xùn)練結(jié)果均略優(yōu)于對(duì)應(yīng)的三元組損失,訓(xùn)練的模型能獲得相對(duì)更好的可區(qū)分性,從而得到更準(zhǔn)確的檢索結(jié)果。因此,以上這些弱監(jiān)督損失函數(shù)可以在訓(xùn)練的過(guò)程中交替使用,從而以較短的訓(xùn)練時(shí)間來(lái)獲得高準(zhǔn)確率的模型。
5 結(jié)論(Conclusion)
提出了一種利用事件相機(jī)來(lái)解決大規(guī)模視覺(jué)位置識(shí)別問(wèn)題的弱監(jiān)督網(wǎng)絡(luò)架構(gòu)和算法流程。它的核心思想是將基于 VLAD 的特征聚合描述層應(yīng)用于由事件流生成的 EST 體素網(wǎng)格表征。本文的實(shí)驗(yàn)結(jié)果表明,基于事件的視覺(jué)位置識(shí)別方法比基于圖像幀的傳統(tǒng)視覺(jué)位置識(shí)別方法對(duì)天氣、季節(jié)和光照變化引起的周?chē)h(huán)境變化具有更強(qiáng)的魯棒性和適應(yīng)性。
仍然需要注意的是,與傳統(tǒng)的基于圖像幀的相機(jī)相比,事件相機(jī)具有許多優(yōu)點(diǎn)(例如低延遲、低功耗、高速和高動(dòng)態(tài)范圍等),但是由于目前事件相機(jī)的空間分辨率還較低,因此與基于圖像幀的視覺(jué)位置識(shí)別方法相比仍然存在一些不足,這是由于傳感器處于不同的發(fā)展階段導(dǎo)致的。在后續(xù)的工作中,將嘗試結(jié)合標(biāo)準(zhǔn)相機(jī)和事件相機(jī),實(shí)現(xiàn)一種基于幀和事件的視覺(jué)位置識(shí)別混合網(wǎng)絡(luò)架構(gòu),并將其部署在自主駕駛車(chē)輛或微小型無(wú)人機(jī)上,以進(jìn)一步釋放事件相機(jī)的潛力,來(lái)解決實(shí)際移動(dòng)機(jī)器人的視覺(jué)位置識(shí)別和視覺(jué)回環(huán)檢測(cè)問(wèn)題。
參考文獻(xiàn)(References):
[1] Lowry S, Sunderhauf N, Newman P, et al. Visual place recognition:A survey[J]. IEEE Transactions on Robotics, 2016, 32(1):1-19.
[2] Zeng Z Q, Zhang J, Wang X D, et al. Place recognition:An overview of vision perspective[J]. Applied Sciences, 2018,8(11). DOI: 10.3390/app8112257.
[3] Angeli A, Filliat D, Doncieux S, et al. Fast and incrementalmethod for loop-closure detection using bags of visual words[J]. IEEE Transactions on Robotics, 2008, 24(5): 1027-1037.
[4] Galvez-Lopez D, Tardos J D. Bags of binary words for fastplace recognition in image sequences[J]. IEEE Transactions onRobotics, 2012, 28(5): 1188-1197.
[5] Oertel A, Cieslewski T, Scaramuzza D. Augmenting visualplace recognition with structural cues[J]. IEEE Robotics andAutomation Letters, 2020, 5(4): 5534-5541.
[6] Gallego G, Delbruck T, Orchard G, et al. Event-based vision: Asurvey[J]. IEEE Transactions on Pattern Analysis and MachineIntelligence, 2022, 44(1): 154-180.
作者:孔德磊1,2,方 正1,李昊佳1,侯寬旭1,姜俊杰1