聽聲辨物,這是AI視覺該乾的?|ECCV 2022
衡宇 發自 凹非寺
量子位 | 公眾號 QbitAI
聽到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來自路過的一輛急救車。
能不能讓AI根據音訊訊號得到發聲物完整的、精細化的掩碼圖呢?
來自合肥工業大學、商湯、澳國立、北航、英偉達、港大和上海人工智慧實驗室的研究者提出了一項新的
視聽分割
任務(Audio-Visual Segmentation, AVS)。
視聽分割,就是要分割出發聲物,而後生成發聲物的精細化分割圖。
相應的,研究人員提出了第一個具有畫素級標註的視聽資料集
AVSBench
。
新任務、新的資料集,搞演算法的又有新坑可以捲了。
據最新放榜結果,該論文已被ECCV 2022接受。
精準鎖定發聲物
聽覺和視覺是人類感知世界中最重要的兩個感測器。生活裡,聲音訊號和視覺訊號往往是互補的。
視聽表徵學習(audio-visual learning)已經催生了很多有趣的任務,比如視聽通訊(AVC)、視聽事件定位(AVEL)、影片解析(AVVP)、聲源定位(SSL)等。
這裡面既有判定音像是否描述同一事件/物體的分類任務,也有以熱力圖視覺化大致定位發聲物的任務。
但無論哪一種,離精細化的視聽場景理解都差點意思。
△ AVS 任務與 SSL 任務的比較
視聽分割“迎難而上”,提出要準確分割出影片幀中正在發聲的物體全貌——
即以音訊為指導訊號,確定分割哪個物體,並得到其完整的畫素級掩碼圖。
AVSBench 資料集
要怎麼研究這個新任務呢?
鑑於當前還沒有視聽分割的開源資料集,研究人員提出AVSBench 資料集,藉助它研究了新任務的兩種設定:
1、單聲源(Single-source)下的視聽分割
2、多聲源(Multi-sources)下的視聽分割
資料集中的每個影片時長5秒。
單聲源子集包含23類,共4932個影片,包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關的發聲物。
△AVSBench單源子集的資料分佈
多聲源子集則包含了424個影片。
結合難易情況,單聲源子集在
半監督
條件下進行,多聲源子集則以
全監督
條件進行。
研究人員對AVSBench裡的每個影片等間隔取樣5幀,然後人工對發聲體進行畫素級標註。
對於單聲源子集,僅標註取樣的第一張影片幀;對於多聲源子集,5幀影象都被標註——這就是所謂的半監督和全監督。
△對單聲源子集和多聲源子集進行不同人工標註
這種畫素級的標註,避免了將很多非發聲物或背景給包含進來,從而增加了模型驗證的準確性。
一個簡單的baseline方法
有了資料集,研究人員還拋磚引玉,在文中給了個簡單的baseline。
吸收傳統語義分割模型的成功經驗,研究人員提出了一個端到端的視聽分割模型。
這個模型遵循編碼器-解碼器的網路架構,輸入影片幀,最終直接輸出分割掩碼。
另外,還有兩個網路最佳化目標。
一是計算預測圖和真實標籤的損失。
而針對多聲源情況,研究人員提出了
掩碼視聽匹配損失函式
,用來約束髮聲物和音訊特徵在特徵空間中保持相似分佈。
部分實驗結果
光說不練假把式,研究人員進行了廣泛實驗。
首先,將視聽分割與相關任務的6種方法進行了比較,研究人員選取了聲源定位(SSL)、影片物體分割(VOS)、顯著性物體檢測(SOD)任務上的各兩個SOTA方法。
實驗結果表明,視聽分割在多個指標下取得了最佳結果。
其次,研究人員進行了一系列消融實驗,驗證出,利用TPAVI模組,單聲源和多聲源設定下采用兩種backbone的視聽分割模型都能得到更大的提升。
△引入音訊的TPAVI模組,可以更好地處理物體的形狀細節(左圖),並且有助於分割出正確的發聲物(右圖)
對於新任務的視聽匹配損失函式,實驗還驗證了其有效性。
One More Thing
文中還提到,AVSBench資料集不僅可以用於所提出的視聽分割模型的訓練、測試,其也可以用於
驗證聲源定位模型
。
研究人員在專案主頁上表示,正在準備比AVSBench大10倍的
AVSBench-v2
。
一些影片的分割demo也上傳在主頁上。感興趣的話可以前往檢視~
論文地址:
https://arxiv。org/abs/2207。05042
GitHub地址:
https://github。com/OpenNLPLab/AVSBench
專案主頁:
https://opennlplab。github。io/AVSBench/