語義分割是自動駕駛感知算法的關(guān)鍵技術(shù),能識別出各種場景物體,告訴汽車“身邊有什么危險”,從而保障出行安全。
KITTI是目前發(fā)布最早、影響力最大的自動駕駛算法評測數(shù)據(jù)集。
SemanticKITTI是KITqTI在語義分割方向的子數(shù)據(jù)集,是激光雷達(dá)語義分割的重要基準(zhǔn)之一。為了推動激光雷達(dá)的語義分割研究,SemanticKITTI舉辦了3D語義分割比賽,包括「語義分割」和「全景語義分割」等任務(wù)。
任務(wù)一 「語義分割」,要求能準(zhǔn)確識別出場景中的物體類型(如汽車、行人);任務(wù)二 「全景語義分割」,要求對場景中的所有物體都進行精確個體級辨識,即類型基礎(chǔ)上,為每個物體賦予1個ID(如1號車、2號車……)。
△ 榜首的Cylinder3D & noah820為來自嬴徹科技的兩支參賽團隊
相較于傳統(tǒng)的激光雷達(dá)語義分割算法,嬴徹這次做出了哪些突破?來自嬴徹Inceptio X-Lab的李偉博士,與量子位詳細(xì)分享了其中的技術(shù)原理。
1、從“劃井字”到“切蛋糕”, 使點云分割更均衡
在點云分割上,算法實現(xiàn)了「圓柱坐標(biāo)系下的體素劃分」。
李偉博士用“劃井字”和“切蛋糕”,對這一突破進行了類比。傳統(tǒng)激光雷達(dá)點云的分割方法,就像是正正經(jīng)經(jīng)劃“井”字一樣,將空間劃成多個方塊,但是單個體素塊內(nèi)的點云就會出現(xiàn)近多遠(yuǎn)少、分布不均衡的問題;
那么,“圓柱坐標(biāo)系下的體素劃分”,就是從激光雷達(dá)扇形掃描的特性出發(fā),即更加符合點云數(shù)據(jù)的分布特點,以“切蛋糕”的方式進行分區(qū)。近處密集的點,單元劃分空間也小;遠(yuǎn)處稀疏的點,單元劃分空間就更大,體素塊內(nèi)點云更均勻。
2、“核骨架增強”,揭開半遮半掩的面紗
做目標(biāo)檢測的小伙伴們都有過這樣的經(jīng)歷:一個完整的物體,AI通常都能檢測出來。
然而如果這個物體“遮遮掩掩”,檢測效果就大打折扣。
通過識別這個物體的核骨架(skeleton of the kernel),就能夠撥開面紗檢測出物體。
為達(dá)到這個目的,在數(shù)據(jù)處理的部分,算法中新增了「非對稱3維神經(jīng)網(wǎng)絡(luò)模塊」。
這一模塊,在水平和垂直兩個方向分別增強卷積核,能更好地匹配駕駛場景下的物體形狀分布,從多角度更全面地看到每個點云的狀態(tài),即使在遮擋或是稀疏點云輸入的情況下,也能準(zhǔn)確地辨別物體。
3、從單一劃區(qū)到塊點結(jié)合,精細(xì)區(qū)分小物體
區(qū)塊檢測是目前常用的方法,缺點是不同類別的點云有可能被劃分到一個體素塊內(nèi),物體分割的細(xì)節(jié)容易丟失,準(zhǔn)確性降低。
嬴徹在劃區(qū)的基礎(chǔ)上,再進行「單個三維點云級別的分割」,獲得精細(xì)細(xì)節(jié)。如下圖所示,嬴徹的方法有效在一個小區(qū)域中繼續(xù)精確分割出更小的物體。



