10%引數量超越SOTA！浙大、位元組等提出類別級位姿估計任務新框架

編輯：LRS

【新智元導讀】

新位姿估計模型：位姿和形狀解耦估計，用最少的引數量訓練，獲得最優的效果。

賦予機器人對日常物體的 3D 理解是機器人應用中的一項重大挑戰。

在未知環境中進行探索時，由於物體形狀的多樣性，現有的物體位姿估計方法仍然不能令人滿意。

最近浙江大學、位元組跳動人工智慧實驗室和香港中文大學的研究者聯合提出了一個新的框架，用於從單個 RGB-D 影象進行類別級物體形狀和位姿估計。

論文地址：

https：//arxiv。org/abs/2210。01112

專案連結：

https：//zju3dv。github。io/gCasp

為了處理類別內物體的形狀變化，研究人員採用語義原始表示，將不同的形狀編碼到一個統一的隱空間中，這種表示是在

觀察到的點雲和估計的形狀

之間建立可靠對應關係的關鍵。

然後透過設計的

對剛體相似變換不變的形狀描述子

，解耦了物體的形狀和位姿估計，從而支援任意位姿中目標物體的隱式形狀最佳化。實驗表明所提出的方法在公開資料集中實現了

領先的位姿估計效能

。

研究背景

在機器人的感知與操作領域，估計日常物體的形狀和位姿是一項基本功能，並且具有多種應用，其中包括 3D 場景理解、機器人操作和自主倉儲。

該任務的早期工作大多集中在例項級位姿估計上，這些工作主要透過將觀察到的物體與給定的 CAD 模型對齊來獲得物體位姿。

然而，這樣的設定在現實世界的場景中是有限的，因為很難預先獲得一個任意給定物體的確切模型。

為了推廣到那些沒見過但是在語義上熟悉的物體，類別級別物體位姿估計正在引起越來越多的研究關注，因為它可以潛在地處理真實場景中同一類別的各種例項。

現有的類別級位姿估計方法通常嘗試預測一個類中例項的畫素級歸一化座標，或者採用形變之後的參考先驗模型來估計物體位姿。

儘管這些工作已經取得了很大的進步，但是當同一類別中存在較大的形狀差異時，這些一次性預測方法仍然面臨困難。

為了處理同一類內物體的多樣性，一些工作利用神經隱式表示，透過迭代最佳化隱式空間中的位姿和形狀來適應目標物體的形狀，並獲得了更好的效能。

在類別級物體位姿估計中有兩個主要挑戰，一是巨大的類內形狀差異，二是現有的方法將形狀和位姿的耦合在一起進行最佳化，這樣容易導致最佳化問題更加複雜。

在這篇論文中，研究人員透過設計的對剛體相似變換不變的形狀描述子，解耦了物體的形狀和位姿估計，從而支援任意位姿中目標物體的隱式形狀最佳化。最後再根據估計形狀與觀測之間的語義關聯，求解出物體的尺度與位姿。

演算法介紹

演算法由三個模組組成，

語義原語提取

、

生成式形狀估計

和

物體位姿估計

。

演算法的輸入是單張 RGB-D 影象，演算法使用預先訓練好的 Mask R-CNN 獲得 RGB 影象的語義分割結果，然後根據相機內參反投影得到每個物體的點雲。該方法主要對點雲進行處理，最終求得每個物體的尺度與6DoF位姿。

語義原語提取

DualSDF［1］中提出了一種針對同類物體的語義原語的表示方法。如下圖左所示，在同一類物體中，每個例項都被分成了一定數量的語義原語，每個原語的標籤對應著某類物體的特定部位。

為了從觀測點雲中提取物體的語義原語，作者利用了一個點雲分割網路，將觀測點雲分割成了帶有標籤的語義原語。

生成式的形狀估計

3D的生成模型（如DeepSDF）大多是在歸一化的座標系下執行的。

然而在真實世界觀測中的物體與歸一化座標系之間會存在一個相似位姿變換（旋轉、平移以及尺度）。

為了在位姿未知時來求解當前觀測對應的歸一化形狀，作者基於語義原語表示，提出了一種對相似變換不變的形狀描述子。

這種描述子如下圖所示，它描述了不同原語構成的向量之間的夾角：

作者透過這個描述子來衡量當前觀測與估計形狀之間的誤差，並透過梯度下降來使得估計形狀與觀測之間更加一致，過程如下圖所示。

作者另外展示了更多的形狀最佳化示例。

位姿估計

最後，透過觀測點雲與求解形狀之間的語義原語對應關係，作者使用 Umeyama 演算法求解了觀測形狀的位姿。

實驗結果

作者在 NOCS 提供的 REAL275（真實資料集）和 CAMERA25（合成數據集）資料集上進行了對比實驗，與其他方法在位姿估計精度上進行了對比，所提出的方法在多項指標上遠超其他方法。

同時，作者也對比了需要在 NOCS 提供的訓練集上訓練的引數量，作者需要最少的2。3M的引數量便達到了最先進水平。

參考資料：

［1］ Wang， He， et al。 “Normalized object coordinate space for category-level 6d object pose and size estimation。” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition。 2019。

［2］ Hao， Zekun， et al。 “Dualsdf： Semantic shape manipulation using a two-level representation。” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition。 2020。

［3］ Park， Jeong Joon， et al。 “Deepsdf： Learning continuous signed distance functions for shape representation。” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition。 2019。

［4］ Deng， Xinke， et al。 “iCaps： Iterative Category-Level Object Pose and Shape Estimation。” IEEE Robotics and Automation Letters 7。2 （2022）： 1784-1791。

［5］ Tian， Meng， Marcelo H。 Ang， and Gim Hee Lee。 “Shape prior deformation for categorical 6d object pose and size estimation。” European Conference on Computer Vision。 Springer， Cham， 2020。

［6］ Umeyama， Shinji。 “Least-squares estimation of transformation parameters between two point patterns。” IEEE Transactions on Pattern Analysis & Machine Intelligence 13。04 （1991）： 376-380。

10%引數量超越SOTA！浙大、位元組等提出類別級位姿估計任務新框架

相關文章