本文提出了一種穩(wěn)健的單目視覺SLAM系統(tǒng),該系統(tǒng)同時利用點、線和消失點特征來進行精確的相機位姿估計和地圖構(gòu)建,有效解決了傳統(tǒng)基于點特征的SLAM的局限性。
? 文章:
MonoSLAM: Robust Monocular SLAM with Global Structure Optimization
? 作者:
Bingzheng Jiang, Jiayuan Wang, Han Ding, Lijun Zhu
? 論文鏈接:
https://arxiv.org/abs/2503.09296
? 編譯:
INDEMIND
01本文核心內(nèi)容
基于視覺輸入在未知三維場景中進行跟蹤和重建是機器人技術(shù)和計算機視覺中的基本任務(wù)。定位和建圖模塊的性能對機器人自主系統(tǒng)和增強/虛擬現(xiàn)實設(shè)備的服務(wù)質(zhì)量有著顯著影響。然而,在增量相機跟蹤過程中,這些模塊常常會受到姿態(tài)漂移的影響。為了解決這個問題,人們提出了不同的策略。一方面,可以使用深度相機、激光雷達和慣性測量單元(IMU)等先進傳感器來提供更可靠的信息,以增強同步定位與建圖(SLAM)和基于IMU的系統(tǒng)的性能。另一方面,諸如局部束調(diào)整、滑動窗口優(yōu)化和閉環(huán)技術(shù)等算法解決方案有助于減輕漂移。這些解決方案的核心優(yōu)化理論在于探索利用視覺重疊來構(gòu)建共視因子圖以進行優(yōu)化。但對于在設(shè)備中廣泛使用的經(jīng)濟實惠的單目傳感器而言,可用于跟蹤的共視特征有限。因此,該領(lǐng)域仍存在一個關(guān)鍵挑戰(zhàn):如何捕捉和利用從單目輸入中獲取更多全局信息以提升SLAM性能。

點特征長期以來一直是大多數(shù)視覺姿態(tài)估計系統(tǒng)的基石,這從其在多個主流方法中的廣泛應(yīng)用中可見一斑。盡管點特征廣泛存在且取得了諸多成功,但它們在具有挑戰(zhàn)性的環(huán)境中(如室內(nèi)空間)表現(xiàn)出明顯的局限性。
在這些場景中,缺乏獨特且豐富的點特征常常阻礙SLAM系統(tǒng)的實時跟蹤能力,從而需要采用替代策略。例如,僅基于點的因子圖優(yōu)化的魯棒性會退化,而通過將線和平面地標納入跟蹤和優(yōu)化模塊,可以在一定程度上增強其性能。平面檢測通常需要使用深度圖或卷積神經(jīng)網(wǎng)絡(luò)。相比之下,線可以從RGB圖像中輕松提取,為將信息融入視覺里程計系統(tǒng)提供了更通用且資源高效的替代方案。而在與線相關(guān)的SLAM系統(tǒng)中,最廣泛使用的線參數(shù)化方式是正交規(guī)范。算法,一種基于李群和李代數(shù)的精妙策略。
傳統(tǒng)而言,單個線段會為優(yōu)化模塊貢獻一個重投影因子,而一組線段則能提供更廣泛的結(jié)構(gòu)規(guī)律。確切地說,二維圖像平面上的一簇平行線段會匯聚于一個消失點,此消失點可用作因子圖優(yōu)化的約束條件。通過假定一個亞特蘭大/曼哈頓世界環(huán)境,三維線地標可被用于建立垂直和正交對,有助于方向估計。一組正交消失方向向量構(gòu)建出一個曼哈頓世界結(jié)構(gòu),該假定支持視覺里程計方法中的無漂移旋轉(zhuǎn)估計策略,但在因子圖優(yōu)化模塊中,難以將此結(jié)構(gòu)作為一個基本單元進行優(yōu)化。另外,當(dāng)從單目圖像中提取的稀疏點地標檢測到三維平面時,線地標能夠提供共面性約束。然而,由三維線或消失點得出的重投影約束主要對調(diào)整局部區(qū)域有效,因為一個三維線地標通常僅在有限數(shù)量的幀中可見。雖然亞特蘭大/曼哈頓世界假定為跨幀提供了全局線索,但在復(fù)雜、無結(jié)構(gòu)的環(huán)境中面臨著重大挑戰(zhàn)。
為解決此問題,該方法為單目輸入提出了一種新穎的SLAM架構(gòu),首先從連續(xù)圖像中探索全局且靈活的結(jié)構(gòu)基元,然后構(gòu)建新的因子圖以優(yōu)化相機位姿和全局基元。與傳統(tǒng)因子相比,所提出的約束能夠在沒有視覺重疊的圖像之間構(gòu)建。
其貢獻可概括為:
? 一個不受環(huán)境結(jié)構(gòu)約束的高精度實時單目SLAM框架,從圖像中提取點特征、線特征和消失點特征。
? 一種基于全局基元的多幀非重疊區(qū)域圖像關(guān)聯(lián)策略。
? 一種結(jié)合全局基元以實現(xiàn)高精度位姿估計的有效因子圖優(yōu)化。
02方法架構(gòu)
如圖2所示,該系統(tǒng)包含前端和后端模塊。在前端,我們介紹了點、線和消失點的檢測方法。然后,在后端,第一部分是一種新的關(guān)聯(lián)策略,一方面利用點和線生成3D地標,即在地圖中收集的局部基元(LP),另一方面,在關(guān)聯(lián)過程中提供一種生成全局基元(GP)結(jié)構(gòu)信息的新策略。在檢測到局部和全局基元之后,后端的第二部分構(gòu)建了一個穩(wěn)健的因子圖優(yōu)化算法,用于精確的相機位姿估計。

03實驗結(jié)果
A.實現(xiàn)細節(jié)
為評估所提出的系統(tǒng),在本節(jié)中使用公共數(shù)據(jù)集來驗證最先進的方法和我們的方法。所有評估均在配備英特爾酷睿i9-285KCPU的筆記本電腦上進行,以確保所有實驗結(jié)果的一致性和可重復(fù)性。
B.基線、指標和數(shù)據(jù)集
我們通過與最先進的單目SLAM系統(tǒng)進行比較來評估我們系統(tǒng)的映射精度。為了驗證我們提出的線段和消失點處理流程的效率,我們從ICL-NUIM數(shù)據(jù)集中選取了結(jié)構(gòu)化圖像序列,該數(shù)據(jù)集提供了低對比度和低紋理的合成室內(nèi)序列,這對單目SLAM來說尤其具有挑戰(zhàn)性。均方根誤差(RMSE)被用作主要指標,使用evo工具包進行計算。序列l(wèi)r和of分別代表ICL-NUIM數(shù)據(jù)集中的客廳和辦公室場景。
我們在ICL-NUIM數(shù)據(jù)集上與六個最先進的系統(tǒng)進行了比較,分別是GeoNet、LPVO、CNN-SLAM、LSD-SLAM、Structure-SLAM和ORB-SLAM3。GeoNet利用幾何和光度一致性來提高位姿估計的準確性,特別是在動態(tài)環(huán)境中,而CNN-SLAM和Structure-SLAM分別將基于神經(jīng)網(wǎng)絡(luò)的深度預(yù)測和法線圖集成到跟蹤模塊中。LPVO通過優(yōu)化現(xiàn)代硬件上的并行計算來實現(xiàn)高效和實時的性能,LSD-SLAM則采用直接方法進行實時密集映射,無需特征提取。ORB-SLAM3是一個支持單目、立體和RGB-D相機的基于特征的SLAM系統(tǒng),具備閉環(huán)、重定位和地圖重用功能。此外,我們還在EuRoC數(shù)據(jù)集上評估了我們的方法,該數(shù)據(jù)集是視覺SLAM的廣泛使用的基準。對于此次比較,我們重點關(guān)注能夠利用多種類型特征(包括點、線和消失點特征)的系統(tǒng)。在該數(shù)據(jù)集上測試的選定基線系統(tǒng)為PL-SLAM、UV-SLAM、Struct-VIO、PLF-VINS、Structure-PLP-SLAM以及AirVIO。前兩個系統(tǒng)利用LBD描述符來利用線特征,而Struct-VIO通過沿線采樣點來跟蹤線特征。Structure-PLP-SLAM結(jié)合了點、線和平面以增強魯棒性。PLF-VINS和AirVIO在緊密耦合的視覺慣性框架內(nèi)整合視覺特征。
C. ICL-NUIM和EuRoC數(shù)據(jù)集上的對比
全局基元在單目SLAM中的有效性。ICL-NUIM數(shù)據(jù)集由于其低對比度、低紋理的序列,為單目SLAM提供了一個具有挑戰(zhàn)性的測試平臺。如表I所示,我們的方法在6個序列中的4個上取得了最佳結(jié)果,優(yōu)于LSD-SLAM、CNN-SLAM、LPVO、GeoNet、Structure-SLAM和ORB-SLAM3等先進系統(tǒng)。這證明了我們的方法在處理傳統(tǒng)基于點的方法經(jīng)常失敗的環(huán)境中的魯棒性。線段和消失點的集成,結(jié)合設(shè)計良好的重投影誤差,顯著提高了姿態(tài)估計的精度和可靠性。

為了進一步驗證,我們在EuRoC數(shù)據(jù)集上評估了我們的方法,該數(shù)據(jù)集包含復(fù)雜和動態(tài)的室內(nèi)序列。如表II所示,我們的方法始終優(yōu)于其他先進系統(tǒng),包括PLSLAM、UV-SLAM、Struct-VIO、PLF-VINS、Structure-PLPSLAM和AirVIO。值得注意的是,我們的系統(tǒng)在5個序列中的4個上取得了最佳結(jié)果,平均平移誤差比第二優(yōu)系統(tǒng)PL-SLAM低12.7%。這一改進突顯了將消失點與點和線特征集成的有效性,這增強了系統(tǒng)利用結(jié)構(gòu)規(guī)律性并提高整體精度的能力。

我們方法的卓越性能可歸因于以下因素:
穩(wěn)健的特征集成:通過結(jié)合點、線和消失點特征,我們的系統(tǒng)利用多種幾何線索,在低紋理和動態(tài)環(huán)境中提高了魯棒性。
設(shè)計良好的重投影誤差:我們精心設(shè)計的誤差公式確保了特別是對于線段和消失點的準確和穩(wěn)定的優(yōu)化。
結(jié)構(gòu)規(guī)律性的利用:消失點的引入使我們的系統(tǒng)能夠利用環(huán)境中的結(jié)構(gòu)規(guī)律性,提高了結(jié)構(gòu)化室內(nèi)場景中的姿態(tài)估計精度。
這些結(jié)果突顯了我們方法的顯著優(yōu)勢,證明了其在推進單目SLAM系統(tǒng)技術(shù)前沿方面的潛力,特別是在具有挑戰(zhàn)性和結(jié)構(gòu)化的環(huán)境中。

圖3提供了我們的單目SLAM系統(tǒng)與ORB-SLAM3在ICL-NUIM數(shù)據(jù)集上跟蹤性能的全面比較。如圖所示,我們的系統(tǒng)表現(xiàn)出更優(yōu)的性能,在各種場景中實現(xiàn)了顯著更高的跟蹤精度。這種改進歸因于我們方法增強的魯棒性,特別是在具有挑戰(zhàn)性的環(huán)境中。相比之下,ORB-SLAM3僅依賴點特征進行跟蹤,在數(shù)據(jù)集的低紋理區(qū)域容易發(fā)生跟蹤失敗和尺度漂移。這些區(qū)域中點特征的不足嚴重影響了其穩(wěn)定性和可靠性,突顯了僅基于點特征的框架的局限性。另一方面,我們的系統(tǒng)利用額外的幾何約束和特征類型,即使在紋理貧乏的場景中也能確保一致的性能。這種比較分析,凸顯了我們的設(shè)計在解決傳統(tǒng)基于點特征的SLAM系統(tǒng)局限性方面的有效性。
04總結(jié)
我們提出了一種基于點、線和消失點特征的單目SLAM系統(tǒng),該系統(tǒng)利用全局特征來關(guān)聯(lián)多幀非重疊圖像,并采用了一種新穎的因子圖優(yōu)化方法。我們的系統(tǒng)達到了最先進的性能。我們已經(jīng)證明,從單張RGB圖像中提取的消失點能夠顯著提高位姿估計的準確性,且無需依賴環(huán)境假設(shè)。與其他先進的實時單目SLAM方法相比,在沒有慣性測量單元(IMU)數(shù)據(jù)的情況下,我們的方法在高動態(tài)運動(例如快速加速或減速)下難以保持高穩(wěn)定性。未來,可以探索整合IMU信息以進一步優(yōu)化相機位姿估計。
-
傳感器
+關(guān)注
關(guān)注
2573文章
53934瀏覽量
781852 -
機器人
+關(guān)注
關(guān)注
213文章
30309瀏覽量
218453 -
相機
+關(guān)注
關(guān)注
5文章
1519瀏覽量
55277 -
SLAM
+關(guān)注
關(guān)注
24文章
449瀏覽量
33080
原文標題:低紋理環(huán)境下也能高精度定位與建圖!融合點、線與消失點特征的穩(wěn)健單目SLAM-MonoSLAM
文章出處:【微信號:gh_c87a2bc99401,微信公眾號:INDEMIND】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于圖的SLAM點稀疏化方法
SLAM技術(shù)的應(yīng)用及發(fā)展現(xiàn)狀
HOOFR-SLAM的系統(tǒng)框架及其特征提取
單目視覺SLAM仿真系統(tǒng)的設(shè)計與實現(xiàn)
一種快速的公交專用車道檢測方法
一種去冗余的SIFT特征提取方法
機器人SLAM實現(xiàn)
一種適用于動態(tài)場景的SLAM方法
一種全新的脈搏信號時域特征點識別方法
基于概率運動統(tǒng)計特征匹配的單目視覺SLAM算法
分享一種基于深度圖像梯度的線特征提取算法download
密集單目SLAM的概率體積融合概述
一種基于直接法的動態(tài)稠密SLAM方案
一種融合語義不變量的點線立體SLAM系統(tǒng)

一種基于點、線和消失點特征的單目SLAM系統(tǒng)設(shè)計
評論