今天這個「主播」，有點不一樣！

編輯：好睏

【新智元導讀】

萬物皆可播，人人皆主播。不過現在直播間裡和你對話的可不一定是個「真人」了哦。

直播帶貨，這有啥新鮮的？

別急，今天給你來點兒不一樣的。

00：13

請看上面這兩位長相差不多的主播，像不像是一對雙胞胎？

但實際上，她們是「同一個人」！

至於原因，這裡先賣個關子。

半夜還要直播，太「費人」了吧

我們先說說直播帶貨這件事。

顧名思義，重點就是為了「帶貨」。

但每次都要卡著點進去，一不小心就會錯過。

一來二去，可能也就不想再看了。

商家們似乎也發現了這個問題，於是虛擬帶貨主播就應運而生了。

7x24小時不間斷，啥時候點進去都可以。

然而問題又來了，想要獲得好的表現，基本只能靠「真人驅動」，原理和我們熟知的「虛擬偶像」差不太多。

螢幕中看起來好像是一位美少女坐在桌子前面帶貨，實際上是一位演員置身於偌大的「動捕房」裡，穿戴一身繁瑣的裝置來實現表情和動作的「復刻」。除此之外，還需要演員自己進行配音。

這要是來個「007」工作制……

而另一種方法倒是實現了「全自動」，但是目前多數還停留在自說自話的階段。

比如你想諮詢一號寶貝的資訊，但是人家正按照設定的程式跳舞，還完全沒有要停下來的意思。

而造成現在這種「食之無味，棄之可惜」的狀況，和定製虛擬人形象、維護或租用動捕裝置等環節的費用太高有直接聯絡。

要是能有一個價格便宜，操作起來也簡單的系統就好了。

直播「雙胞胎」大揭秘！

說到這裡，你還記得最開始提到的那對「雙胞胎」嗎？

她的「孿生」虛擬人就是藉助科大訊飛的AI虛擬人互動平臺上訓練出來的，而且只需採集0。5小時的影片就可以了。

如果你仔細觀察下面這張動圖的話，甚至可以從虛擬人的唇語中讀出她說的是：「比個小愛心」。

如此逼真的實現靠的就是訊飛基於大資料多模態預訓練的口唇驅動框架，它在保證高真實度的口唇合成效果的同時，可以實現不同語種以及不同方言的口唇驅動。

此外，在表情和動作的驅動方面，基於情感的語義空間可以實現從語音到表情動作的上的情感表現，也就是讓情感貫穿於虛擬人的互動過程之中。

雖說叫「口唇驅動」，但實際上是利用AI對整個人臉區域進行編輯的，除了口型和發音是一一對應的以外，其他部位的肌肉以及下巴也是要同步跟著移動的。

如果覺得用影片訓練太麻煩了的話，還可以用科大訊飛的融合人技術像遊戲裡那樣捏一個新的出來。

這套系統可根據不同應用場景和審美需求，支援對眉眼、鼻子、嘴巴進行高自由度編輯和融合，並供不同性別、職業、服裝等豐富的融合人臉資源。

僅需編輯單張人臉即可實現完整影片的驅動，其中採用可控編輯人臉區域創造的全新虛擬人臉。

除了這種2D真人以外，科大訊飛在3D虛擬形象的構建上也結合了基於單張照片的人臉重建和表情遷移，並以此實現了3D可驅動個性化虛擬形象的快速生成，而且未來還將向全身擴充套件。

現在，臉已經「捏」好了，接下來要做的就是「教」虛擬人說話了。

這對於深耕語音技術23年訊飛來說，可以稱得上是「老本行」。

想「復刻」自己的聲音？小case！而且還能順便讓虛擬人用你的聲音說方言，

講外語。

效果的話，來感受一段東北老鐵版的「虛擬冰冰」吧！

D-N-1

00：04

未知來源

而這隻需要上傳一段10-15分鐘的錄音資料到訊飛開放平臺，機器就可以快速學習並生成獨一無二的語音合成音庫。

相較於以往整個訓練和調優過程需要花費數月時間的標準流程，聲音復刻讓聲音快速定製應用成為現實。

在到了這一步，我們已經搞定了虛擬人的形象和聲音，那麼之後要解決的問題就是怎麼用虛擬人進行直播了。

虛擬人如何才能吸粉？

目前來說，真人主播和中之人能吸引粉絲的主要原因便是背後的那個「人」。

不管是介紹產品時候的「哦買噶，買它！」，還是及時準確地回答公屏上的問題，都讓觀眾有了切實的參與感，而這是很多全自動虛擬人主播並不具備的。

那如果能開發一套能兼顧真人的優點的同時，又能簡化流程、降低成本的直播系統，又會如何呢？

話不多說，先上效果看看。

00：21

和「中之人」類似，科大訊飛AI虛擬人直播系統的「人工播」模式，也是由真人主播進行配音的。

不過，在裝置方面只用準備一臺電腦和一個麥克風就可以了，無需繁瑣的「動捕套裝」。

其中的面部表情透過口唇驅動框架實現，而動作上的互動則可以進行個性化的定製，或者直接使用豐富的內建動作庫。

如此看來，這個「Lite版」的維護成本和使用時的工作量，比傳統意義上的中之人能少不止一個量級。

科大訊飛AI虛擬人直播系統更厲害的一點在於，真人主播甚至不需要自己進行配音。

你要做的就是把每個產品的介紹以及其他環節的文字稿準備好，剩下的交給系統就可以了。

00：18

在「指令碼播」這個模式下，虛擬人終於做到了一個主播本應該做的事情。

沒錯，說的就是和觀眾的「互動」。

畢竟有的時候主播沒有辦法面面俱到地介紹一款產品，這時，不管是自己還是看別人提問，都可以便捷地讓觀眾獲得更多地資訊。

從直覺上來講，通常只有使用者瞭解了某一款產品之後，才可能會下單購買。

而在科大訊飛AI虛擬人直播系統中，運營僅需點選已經準備好的內容，之後虛擬人會即刻中斷正在進行的介紹，轉而回答觀眾的提問。

雖說現在這種方式「人工」程度相對較高，但在即將釋出的新版本中，系統可以透過AI對問題進行識別，然後自動給出相應的回答。

00：13

在操作上，科大訊飛的AI虛擬人直播系統為各家的直播助手都提供了支援。

此外，也可以利用OBS通用推流方案實現全面的覆蓋。

為何要用虛擬人直播？

說回到直播帶貨上來，在這個領域內流傳一句話：「萬物皆可播，人人皆主播。」

憑藉著優惠的價格和陪伴式的體驗，直播帶貨也確實俘獲了越來越多消費者的心。

據統計，我國電商直播使用者規模為3。84億，佔網民整體的38%。另據企查查資料顯示，全國共有1。6萬家電商直播相關企業，其中2021年新註冊8364家。

如今，不僅農土特產、口紅、面膜等小件商品「走」進直播間，還擴充套件到傢俱、汽車甚至房子。

那麼問題來了，明明用真人就可以做到的事情，為什麼要用虛擬人呢？

的確，直播產業的發展催生出了無數的機會，但同樣也帶來了日益激烈的競爭。

在黃金時段，也就是流量最高的時候，每個商家都會派出自己最強的主播，儘可能多的進行銷售轉化。

然而，到了其他時段，事情就會變得複雜了起來。對於品牌方來說，花大價錢請真人來直播，卻只能在零散的流量中尋求為數不多的訂單，著實不太划算。與此同時，對主播來說，日夜顛倒的作息對身體的負擔也實在太大。

此外，對於一些相對專業的領域來說，商家可能也很難找到能夠真正理解產品的主播。很可能造成錢花了，但是毫無收益的後果。

在這樣的需求之下，虛擬人直播便逐漸展露出了它的鋒芒。

不過，就像最開始所說，中之人在前期的形象建模和直播時的動作捕捉上，開銷巨大。而全自動虛擬人想要在後期進行人物的更新迭代時，同樣需要面臨建模和重新動捕的問題，成本居高不下。

針對這些問題，科大訊飛掏出了它的「三板斧」。

首先，在現有算力的制約之下，科大訊飛AI虛擬人直播系統主要採用了2D真人作為虛擬人的形象。

對於使用者來說，操作更加便捷。只需要上傳0。5小時的影片素材或者採用捏臉地方式，就可以得到一個全新定製的虛擬人。

此外，2D虛擬形象的另一項優勢在於，當主播自己就是非常引流的IP時，復刻一張一模一樣的臉進行直播的話，很可能會產生意想不到的效果。

其次，科大訊飛AI虛擬人直播系統中的「人工播」，可以讓更多不方便出境的人也能勝任主播的職位。而且在AI的加持下，任何一個人在後面說話，都能轉化成設定好的虛擬人的聲音。如此一來，也就能夠讓直播覆蓋到更多時間段了。

最後的「指令碼播」，可以說是虛擬人直播的理想形態。在之後的升級中，虛擬人不僅可以按照設定好的稿子介紹產品，同時還能自動抓取觀眾提問中的關鍵詞，智慧回答相應地問題。

總結來說，科大訊飛透過人機耦合這種方式，讓虛擬人承擔了更多瑣碎繁重的勞動，有效地減少了真人主播的負擔和公司的成本。再加上7x24小時的不間斷直播，任何潛在的機會都不會被放過。

就像羅馬不是一天建成的，科大訊飛的AI直播虛擬人也不是一朝一夕就能做出來的。

科大訊飛的一站式解決方案

自從2018年5月AI虛擬主播「康曉輝」亮相央視《直播長江》特別節目以來，科大訊飛的虛擬人就一直在不停地迭代和更新。

到了2021年，科大訊飛正式釋出了AI虛擬人互動平臺1。0。

基於此，科大訊飛整合了自主研發的語音合成、語音識別、自然語言、影象處理等技術。

一方面提升了虛擬人在感知、表達、情感上的技術，讓未來人機互動更真實，另一方面支援自主定製，包括聲音、形象、服裝、場景等等。並且還建立了更大更方便的數字資產庫，賦予虛擬人更多的個性。

時間來到2022年，科大訊飛又對AI虛擬人互動平臺進行了升級。

現在，平臺不僅可以提供虛擬人形象構建、AI驅動、API接入、多場景解決方案，更能實現一站式的虛擬形象打造服務。

未來，科大訊飛在虛擬人上還想做到更多。

Ta們將越來越可愛，越來越有個性。

Ta們不僅可以提供協助，而且也會被人們所喜愛。

最重要的是，能讓所有人都擁有屬於自己的虛擬人。

今天這個「主播」，有點不一樣！

相關文章