聽聲辨物，這是AI視覺該乾的？

衡宇發自凹非寺

量子位 | 公眾號 QbitAI

聽到“唔哩——唔哩——”的警笛聲，你可以迅速判斷出聲音來自路過的一輛急救車。

能不能讓AI根據音訊訊號得到發聲物完整的、精細化的掩碼圖呢？

來自合肥工業大學、商湯、澳國立、北航、英偉達、港大和上海人工智慧實驗室的研究者提出了一項新的

視聽分割

任務（Audio-Visual Segmentation， AVS）。

視聽分割，就是要分割出發聲物，而後生成發聲物的精細化分割圖。

相應的，研究人員提出了第一個具有畫素級標註的視聽資料集

AVSBench

。

新任務、新的資料集，搞演算法的又有新坑可以捲了。

據最新放榜結果，該論文已被ECCV 2022接受。

精準鎖定發聲物

聽覺和視覺是人類感知世界中最重要的兩個感測器。生活裡，聲音訊號和視覺訊號往往是互補的。

視聽表徵學習（audio-visual learning）已經催生了很多有趣的任務，比如視聽通訊（AVC）、視聽事件定位（AVEL）、影片解析（AVVP）、聲源定位（SSL）等。

這裡面既有判定音像是否描述同一事件/物體的分類任務，也有以熱力圖視覺化大致定位發聲物的任務。

但無論哪一種，離精細化的視聽場景理解都差點意思。

△ AVS 任務與 SSL 任務的比較

視聽分割“迎難而上”，提出要準確分割出影片幀中正在發聲的物體全貌——

即以音訊為指導訊號，確定分割哪個物體，並得到其完整的畫素級掩碼圖。

AVSBench 資料集

要怎麼研究這個新任務呢？

鑑於當前還沒有視聽分割的開源資料集，研究人員提出AVSBench 資料集，藉助它研究了新任務的兩種設定：

1、單聲源（Single-source）下的視聽分割

2、多聲源（Multi-sources）下的視聽分割

資料集中的每個影片時長5秒。

單聲源子集包含23類，共4932個影片，包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關的發聲物。

△AVSBench單源子集的資料分佈

多聲源子集則包含了424個影片。

結合難易情況，單聲源子集在

半監督

條件下進行，多聲源子集則以

全監督

條件進行。

研究人員對AVSBench裡的每個影片等間隔取樣5幀，然後人工對發聲體進行畫素級標註。

對於單聲源子集，僅標註取樣的第一張影片幀；對於多聲源子集，5幀影象都被標註——這就是所謂的半監督和全監督。

△對單聲源子集和多聲源子集進行不同人工標註

這種畫素級的標註，避免了將很多非發聲物或背景給包含進來，從而增加了模型驗證的準確性。

一個簡單的baseline方法

有了資料集，研究人員還拋磚引玉，在文中給了個簡單的baseline。

吸收傳統語義分割模型的成功經驗，研究人員提出了一個端到端的視聽分割模型。

這個模型遵循編碼器-解碼器的網路架構，輸入影片幀，最終直接輸出分割掩碼。

另外，還有兩個網路最佳化目標。

一是計算預測圖和真實標籤的損失。

而針對多聲源情況，研究人員提出了

掩碼視聽匹配損失函式

，用來約束髮聲物和音訊特徵在特徵空間中保持相似分佈。

部分實驗結果

光說不練假把式，研究人員進行了廣泛實驗。

首先，將視聽分割與相關任務的6種方法進行了比較，研究人員選取了聲源定位（SSL）、影片物體分割（VOS）、顯著性物體檢測（SOD）任務上的各兩個SOTA方法。

實驗結果表明，視聽分割在多個指標下取得了最佳結果。

其次，研究人員進行了一系列消融實驗，驗證出，利用TPAVI模組，單聲源和多聲源設定下采用兩種backbone的視聽分割模型都能得到更大的提升。

△引入音訊的TPAVI模組，可以更好地處理物體的形狀細節（左圖），並且有助於分割出正確的發聲物（右圖）

對於新任務的視聽匹配損失函式，實驗還驗證了其有效性。

One More Thing

文中還提到，AVSBench資料集不僅可以用於所提出的視聽分割模型的訓練、測試，其也可以用於

驗證聲源定位模型

。

研究人員在專案主頁上表示，正在準備比AVSBench大10倍的

AVSBench-v2

。

一些影片的分割demo也上傳在主頁上。感興趣的話可以前往檢視~

論文地址：

https：//arxiv。org/abs/2207。05042

GitHub地址：

https：//github。com/OpenNLPLab/AVSBench

專案主頁：

https：//opennlplab。github。io/AVSBench/

聽聲辨物，這是AI視覺該乾的？｜ECCV 2022

相關文章