跳舞手腳不協調？沒關係，微視用AI打造你我的舞林大會，一張照片就可以

原創 Synced 機器之心

機器之心原創

作者：杜偉

繼之後，騰訊微視又解鎖了照片的跳舞技能。

80、90 後的小夥伴，應該很熟悉香港歌手陳慧琳的熱門歌曲《不如跳舞》吧，歌詞中的「聊天不如跳舞，談戀愛不如跳舞……」風靡了大街小巷，使很多人愛上了跳舞。遺憾的是，對於一些四肢不協調的小夥伴，在人前跳舞無異於一種折磨。但是，不會跳並不意味著看不到自己跳舞的樣子。

隨著計算機視覺和生成對抗網路的快速發展，人體動作遷移技術的出現使那些沒有跳舞天賦的小夥伴也有機會展示自己的舞姿。簡單來講，給定一段別人跳舞的影片和使用者的一張照片，透過人體 3D 重建與人體分割技術、背景修復和 GAN 生成技術，可以實現使用者靜態照片隨驅動舞蹈動起來，並達到真實、和諧、以假亂真的姿態生成效果。

然而，學界近年提出的一些人體姿態遷移方案，如 DanceNet 等，都存在著一定程度的不足，如生成結果模糊、肢體形狀不完整、舞蹈動作僵硬等。此外，這些方案對於普通使用者而言技術門檻過高，實操性不強，導致參與度不高、落地困難，亟須改變。

近日，騰訊微視 APP 上線的「照片會跳舞」新特效玩法實現了人體姿態遷移技術的真正落地，讓不會跳舞的你也能在手機上舞動起來。

玩法非常簡單，使用者只需下載微視 APP，上傳單人 / 多人全身正面照，系統即自動對照片進行 3D 建模，生成以假亂真的虛擬形象；接著選擇舞種，透過技術能力使虛擬形象按照選定的舞蹈模板「舞動」起來，模擬效果十分逼真，動作也流暢自然。

單人舞蹈選 1 張照片，多人舞蹈選 2-3 張照片。

目前，使用者可以在「照片會跳舞」中選擇 10 種舞蹈模板，涵蓋了廣場舞（筷子兄弟小蘋果、八神搖）、宅舞、炫舞（邁克爾傑克遜 Beat It）、全國中小學生廣播體操（2002 年第二套《時代在召喚》）和兒歌（鯊魚寶寶）等多種型別，更有網路上傳播甚廣的魔性蹦迪「接著奏樂接著舞」。

部分舞蹈模板，從左至右依次是夾腿舞、兩隻老虎、Bangbangbang 和大風吹。

跳舞動態效果怎麼樣呢？欣賞下魔性的「小蘋果」和蹦迪神曲「接著奏樂接著舞」：

新玩法上線以來，便吸引了大量的微視使用者，相關影片數十多萬，播放量更是達到5000餘萬。使用者紛紛秀出了自己狂放不羈的舞姿，也有明星加入到了這場「舞蹈狂歡」中。這不，硬核大叔騰格爾向「最強舞者」發起了挑戰：

據瞭解，這是騰訊微視在前段時間火遍全網的「螞蟻牙黑」表情遷移玩法的基礎上推出的 APP 端單人或多人跳舞動作遷移玩法，也是騰訊光影研究室針對人體姿態遷移技術研究的突破性落地。

目前主流的人體姿態遷移技術為了達到較好的動作遷移生成效果，以及緩解自遮擋問題引入的紋理不可見問題，一般需要使用者上傳多張不同姿態的全身圖片或一段影片，並且需要較長時間的後臺微調處理。

QQ 影像中心技術團隊經過對人體 3D 重建技術、GAN 網路的不斷挖掘與最佳化，最後實現了使用單張使用者圖，就能達到業界需要複雜技術方可實現的人體姿態遷移效果。同時還支援更高解析度的輸出，解決了動作僵硬等問題，既保證了舞蹈素材的動作準確性，也使動作更加連貫自然。

主流人體姿態遷移方案有哪些不足？

在人體動作遷移實現過程中，動作跨度大、畫素搬移多、紋理複雜、動作自由度高和自遮擋頻繁等干擾因素導致生成指定姿態的人體一直比較困難。

目前，學界解決人體姿態遷移的主流方案仍然需要原始姿態到目標姿態的 warp 操作，分為畫素級別和特徵圖（feature map）級別。根據使用的技術方案不同，warp 操作又可以分為 2D warp 和 3D warp。

2D warp 方案中具有代表性的是 NeurIPS 2019 論文《First Order Motion Model for Image Animation》中提出的核心模型「First Order Motion」，其中預測 warp 流的網路需要輸入使用者圖與目標姿態圖的 2D 關鍵點資訊，然後利用 warp 流得到目標姿態下地圖，GAN 網路對 warp 後的圖片（或特徵）進行修復。雖然生成的動作較為和諧自然，但 warp 流不夠精確與穩定，導致結果模糊、肢體形狀不完整、紋理還原度不高。

紅框內人臉模糊不清。圖源：https：//arxiv。org/pdf/2003。00196。pdf

3D warp 方案藉助 3D 重建出的使用者圖 mesh 與目標圖 3D mesh，並根據這兩個 3D mesh 進行 warp 流的計算，同時 warp 使用者圖，最後同樣透過 GAN 網路對 warp 後的結果圖進行精修得到最終結果。由於採用 3D 人體重建，重建後依據 3D mesh 構造 warp 流，因此 warp 流的精細度高，最終結果的紋理清晰度高、還原度高。但由於目標姿態依賴 3D 人體重建，因此受限於 3D 重建技術，生成的舞蹈動作稍顯僵硬。

學術界還有一些不依賴 warp 的解決方案，比如 FAIR 提出的「Single-Shot Freestyle Dance Reenactment」。此方案首先預測使用者圖的解析（parsing）圖的驅動結果圖，即根據使用者圖原始姿態下的 parsing 預測目標姿態下的 parsing 圖；接著藉助人體 parsing map，將人體各個部位的紋理分解開，得到紋理的 embedding。紋理向量拼接成人體紋理向量，然後與目標姿態下的 parsing 圖藉助 SPADE 圖到圖框架生成目標姿態結果。對於自遮擋使用者圖表現較好，但其紋理生成來源於紋理 embedding，導致在複雜紋理條件下還原度不高。

FAIR「Single-Shot Freestyle Dance Reenactment」方法的舞蹈動作遷移效果，稍顯不自然。圖源：https：//arxiv。org/pdf/2012。01158。pdf

因此，由於主流方案自身存在的種種不足，並未真正落地於實際商業生產應用。

騰訊人體姿態遷移方案有哪些獨到之處？

針對上述 2D warp、3D warp 和不依賴 warp 的方案的不足，並考慮到實際業務場景下，多圖或影片輸入的姿態遷移方法由於輸入圖片多、使用者使用門檻高、單獨訓練模型導致成本較高，團隊基於對學界技術方案的探索與實踐，採用基於多角度使用者圖的 3D 人體重建、並結合人體分割技術與 GAN 生成技術的方案路線。

本方案在以下三方面實現了重要的技術突破：

首先，單張使用者圖完成姿態遷移，不需要線上微調。主流方案多使用者圖和影片輸入以及線上微調的方式極大增加了使用者互動難度，等待時間久，可玩性低。團隊經過對人體 3D 重建技術的不斷挖掘與最佳化、GAN 網路最佳化，最終使用單張使用者圖即可達到業界方法線上微調後的效果。

其次，生成清晰度高，紋理還原度高，支援更高解析度輸出（1024x1024）。

最後，改善 3D warp 方案中動作僵硬問題。基於 3D 的技術方案容易遇到動作僵硬的問題，透過平滑策略、2D 點輔助最佳化等策略，既保證了舞蹈素材的動作準確性，也使動作更加連貫自然。

基於多角度使用者圖的人體 3D 重建演算法

傳統的姿態遷移方法多選擇人體骨骼關鍵點作為人體姿態的重表示，但骨骼關鍵點覆蓋的人體部位較少，多以關節、五官為主，因此姿態遷移難度比較大，生成質量也較低。相比之下，使用者圖 3D 與驅動圖 3D 模型對姿態的表示更加豐富。

但應看到，3D 人體重建難度非常大。一方面，資料獲取成本很高，獲得高質量人體 3D mesh 資料非常困難，一些開源資料集覆蓋的場景比較有限；另一方面，人體肢體動作較多，存在自遮擋和自旋轉等各種問題，這也給 3D 重建帶來非常大的挑戰。一些開源的 3D mesh 資料庫，如加州大學伯克利分校等開源的端到端框架 HMR，效果難以令人滿意。

團隊研發了一套基於多角度使用者圖的人體 3D 重建演算法，並針對人臉部分單獨建模，使得 warp 圖在人臉部分可以保持較好的紋理細節與 ID 資訊，最終根據使用者提供的影象生成 3D 模型。其亮點在於，單張使用者圖即可生成準確的 3D 模型，使用者提供的視角越全，重建的效果越好。

基於多角度使用者圖的人體 3D 重建演算法分為人體 mesh 重建、人體紋理重建以及人臉 mesh 和紋理重建三大部分，其中人體 mesh 重建首先透過步驟 1 和步驟 2 完成：

1、提取多角度使用者圖的 2D 人體關鍵點和人體 mask，使重建的姿態和投影更準確；

2、基於引數化人體模型，擬合人體 mesh，確保在同一個人體 shape 下。僅透過改變姿態，使人體 mesh 的關鍵點投影和每張輸入影象的 2D 人體關鍵點相同，mesh 投影和每張輸入影象的人體 mask 相同；

接著，人體紋理重建透過步驟 3 和步驟 4 完成：

3、基於步驟 2 得到的人體 mesh，從各自對應的影象中提取可見紋理；

4、基於多張可見紋理，使用混合高斯模型融合可見紋理。對融合後依然缺失的部分，再根據人體部位各自做填充；

然後，人臉 mesh 和紋理重建透過步驟 5 完成：

5、基於步驟 1 中提取的人臉關鍵點，提取一張正面人臉影象，輸入人臉重建網路，同時重建人臉 mesh 和紋理。

最後，融合步驟 2、5 獲得的人體和人臉 mesh，再融合步驟 4、5 獲得的人體和人臉紋理，得到最終的使用者 3D 重建模型。整體流程如下圖所示：

人體分割與背景填充

影象分割是計算機視覺領域的重要研究方向，隨著近年來 GAN 等深度學習技術的逐步深入，影象分割技術有了突飛猛進的發展。人體前背景分割是該領域的重要分支之一。

藉助精細的人體分割，人體生成質量可以更高。具體地，人體分割可以去除複雜的背景，降低 GAN 生成難度。精準的人體分割還可以更好地幫助背景 inpainting 網路完成背景修補。因此，人體分割可以作為姿態遷移 GAN 網路的多工監督之一，更好地約束使用者圖在目標姿態下的 shape 生成。

目標姿態下的人體生成

在 3D 模組將使用者圖 warp 到目標姿態後，3D 建模是「裸體」的，缺少衣服、髮飾等建模資訊，因此 warp 後的使用者圖存在鞋子缺失、沒有頭髮等很多問題。此外，目標姿態的 3D 模型還有可能存在使用者圖沒有的部位以及被遮擋的部位，比如使用者是正面，目標姿態是側身，此時 warp 側身紋理被拉扯或者錯誤。

基於上述問題，GAN 模組的作用是進一步修飾 warp 圖，一方面將 warp 圖「多去少補」，另一方面增加和諧度。團隊採取的方案是利用使用者圖的紋理資訊，將使用者資訊與 warp 圖資訊在 GAN 網路中融合，生成自然的目標姿態的使用者圖。

GAN 網路又分為兩個子網路：重建網路與姿態生成網路。生成網路的生成步驟具體如下：

重建網路自編碼器結構，將使用者圖重建，網路中間層特徵圖具有構成使用者圖的所有資訊；

目標姿態生成網路輸入粗粒度 warp 圖，在網路中間層接收重建網路的特徵圖，進行特徵融合，得到新的特徵圖。此時特徵圖具備了 warp 圖丟失的細節資訊；

特徵圖進入解碼器（decoder），將特徵圖經過卷積層生成具有目標姿態的 RGB 圖與 mask 圖；

mask 圖與 RGB 圖融合得到前景，結合使用者的背景圖，得到最終輸出圖。

整體流程圖如下所示：

得益於多角度使用者圖 3D 人體重建、人體分割與 GAN 生成技術三者合一的人體姿態遷移方案，才有了「照片會跳舞」新特效玩法中使用者舞蹈的完美呈現。

從人臉到人體，騰訊不斷探索遷移技術，創新影片特效玩法

從人臉到人體動作遷移，騰訊微視正一步步深挖遷移技術在爆款社交玩法上的延展空間，並持續探索前沿 AI 和 CV 演算法在內容生產和消費領域的應用和落地。

人臉動作遷移是指將一段人臉影片中的面部動作，包括頭部位置和朝向、面部表情、五官動作等，遷移至另一張靜態人臉圖片中，使得靜態圖片呈現出相同面部動作的效果。今年 3 月，微視上線了一種基於人臉影象修復和人臉動作遷移技術的特效玩法「會動的老照片」，不僅可以一鍵修復老照片、讓照片中的人物動起來，還能透過手機實時控制生成影象的面部動作，實現人臉動作遷移。

與此同時，作為隸屬於騰訊平臺與內容事業群（PCG）的技術團隊，光影實驗室（Tencent GY-Lab）為逼真特效的實現提供了堅實的技術支撐，致力於將前沿的 AI 能力、3D 渲染技術以及先進的玩法賦能產品。光影技術團隊在語義分割、目標檢測、分類識別、GAN 生成對抗等方面均有深厚的技術積累，在 AI 生成領域已經進行了相關演算法的研發和落地工作。

目前，QQ、微視等 20 多款業務產品中均有光影研究室技術的身影，如手機 QQ 相機裡的熱門 AI 玩法——漫畫臉，以及微視 APP 的王者變臉、迪士尼童話臉等。其中，QQ 相機漫畫臉特效使用的技術是光影實驗室自研演算法 GYSeg，該演算法在 MIT 場景解析國際競賽（Scene Parsing Benchmark）中斬獲冠軍；微視 APP 中的迪士尼童話臉特效則是全球首家在手機上為使用者提供實時個性化 3D 卡通化形象。

光影實驗室也一直致力於人體姿態遷移技術的研究，此次「照片會跳舞」正是針對該技術的真正落地。與主流人體姿態遷移技術方案相比，使用者參與更加簡單，可玩性更高，實現效果也更好。此外，作為從人臉動作遷移到人體姿態遷移的巨大跨越，新增跳舞功能使得使用者在微視 APP 中的體驗更加豐富有趣，同時也為使用者之間的交流提供了更豐富的內容。

參考連結：

https：//www。sohu。com/a/447487081_114877

https：//www。thepaper。cn/newsDetail_forward_8875767

https：//www。163。com/news/article/FSRQUCEL00019OH3。html

THE END

轉載請聯絡本公眾號獲得授權

投稿或尋求報道：content@jiqizhixin。com

原標題：《跳舞手腳不協調？沒關係，微視用AI打造你我的舞林大會，一張照片就可以》

跳舞手腳不協調？沒關係，微視用AI打造你我的舞林大會，一張照片就可以

相關文章