平板攝像頭+算力搞定3D空間實時重建和理解，來自禾多科技和清華

明敏發自凹非寺

量子位 | 公眾號 QbitAI

僅僅需要一個

平板電腦

，就能實現3D空間的實時重建和理解了！

看，只要拿著平板電腦走一走，房間內的物體就能被

實時

重建、分割和識別出來，整個過程行雲流水。

要知道，3D重建和語義理解，是機器人、自動駕駛、AR/VR等領域的關鍵共性技術，長期以來面臨演算法複雜度高，難以實時處理的挑戰。

現在，只用一個小小的平板就搞定了。

這就是清華大學聯合禾多科技提出的

增量式稀疏卷積網路

（INcremental Sparse Convolution，INS-Conv）。

在不損失效能的同時，極大地降低了演算法的複雜度。

目前，該論文已被

CVPR 2022（Oral）

收錄。

那麼具體是怎麼做的呢？

增量式稀疏卷積網路

本論文的核心之處，是提出了一種

增量式稀疏卷積神經網路

（INcremental Sparse Convolution，INS-Conv）。

演算法複雜

、

推理速度慢

、

算力要求高

是長期以來，3D語義理解演算法在應用場景中面臨的核心挑戰。

比如自動駕駛場景，就要求三維感知系統能夠對快速變化的路況做出實時判斷，而且要精確識別車輛、行人、路標等。

儘管過去很多密集3D卷積網路在精度上取得了不錯成績，但是對

晶片算力

的要求也隨之增高，網路推理速度上也不夠快，往往是幾秒鐘才能處理一幀資訊，難以滿足如自動駕駛等應用的需求。

所以，研究人員提出了一種增量稀疏卷積神經網路，專門針對

連續幀的殘差

進行增量推理。

簡單來說，就是一段遞增的3D幾何序列可以表示為：

那麼，在 t 時間點下的表示為：

其中，dx表示時間t和t-1之間的殘差，t-1時刻的資料是之前已經快取的，因此只需計算f（dx）。

由於dx在這裡是非常稀疏的，因此計算量會大幅減少。

也就是說，在這個神經網路中，為稀疏卷積操作定義了全新的殘差傳播規則，用INS-Conv層替換標準稀疏卷積網路層，就能以最小的精度損失實現高效的增量推理。

在ScanNetv2驗證集上，2個不同時間點下，INS-Conv語義分割和例項分割的效果如下。

和其他方法對比，在ScanNetv2資料集中，語義分割任務下INS-Conv的均交併比（mIoU）結果優於其他兩種實時方法。

例項分割任務下，INS-Conv達到了現有離線演算法的效能，與現有的線上演算法相比，效能提升可達10%。

現在越來越多的車上除了攝像頭之外開始裝配有鐳射雷達，透過論文中描述的方法能夠更快更好地進行三維重建、場景理解等三維感知任務，從而更好地為自動駕駛系統的全面安全保駕護航。

團隊介紹

論文的第一單位為

清華大學成像與智慧技術實驗室

，通訊作者為清華大學電子工程系副教授

方璐

。

成像與智慧技術實驗室致力於計算成像和視覺智慧領域的跨學科研究，主要包括光場智慧成像，光場重建、分析與理解，新一代光電智慧計算架構與晶片等。

發表Nature Photonics（封面文章）， Light： Science & Applications（封面文章）， Nature Methods， Nature Machine Intelligence，IEEE TPAMI， CVPR等文章。

這次論文合作者中，還有

禾多科技

創始人、CEO

倪凱

博士。

倪凱本科畢業於清華大學，後赴佐治亞理工學院攻讀博士學位，在IEEE/IROS/ICRA等計算機頂會上發表學術論文十餘篇，曾任職於微軟和百度。

2017年，倪凱宣佈創立自動駕駛領域公司

禾多科技

。

據瞭解，禾多科技正在打造由本地資料驅動的自動駕駛量產解決方案。

兩大核心方案為HoloPilot行車自動駕駛系統和HoloParking智慧泊車系統。

今年3月，禾多科技宣佈完成數億元戰略融資輪，由廣汽資本獨家投資。

按照計劃，搭載禾多科技自動駕駛系統的多款廣汽車型將於2022年開始陸續上市。

學術研究方面，禾多科技與清華大學、武漢大學、加州伯克利大學、佐治亞理工學院都達成了學術合作。

平板攝像頭+算力搞定3D空間實時重建和理解，來自禾多科技和清華

相關文章