新課來了 | 一文讀懂語音合成技術原理

小時候看《名偵探柯南》，除了每集精彩的推理之外，柯南的「變聲蝴蝶結」也成為了許多人夢寐以求的動漫同款，那是很多人第一次見識到聲音的魅力。

如今，我們再回頭來看柯南的「變聲蝴蝶結」，已經不僅僅是被表面的魔力所著迷，而是逐漸開始明白這背後所隱藏的語音技術，這也是我們今天要講的重點內容——語音合成技術原理。

一、語音的三大關鍵成分

在講語音合成之前，我們首先要弄清楚一個問題：什麼是語音，語音是由哪些成分構成的？

語音就是人說的話，它的記錄形式是一段一段的波形。

語音有三大關鍵成分：

資訊音色和韻律。

如果能將語音的成分充分自由地拆解和組合，將是對語音的巨大解放，未來將有無限的想象發展空間。

下面我們將它做一個拆解，先來看下語音資訊，

語音資訊是指說話人說了什麼內容。

語音作為資訊的載體，是最自然便捷的溝通手段，在資訊播報、人機互動上有著大量剛性需求，現在如此未來更是如此。

語音的音色是指這段話是誰說的，

有一句俗語：未見其人先聞其聲。

有時候說什麼並不重要，更重要的是誰在說。班主任和大家分享一個傷感又有點溫情的故事，一位身患肺癌的父親在他生命的最後階段聯絡了訊飛，他想把自己的聲音做成一個音庫，放置在智慧音箱裡面。在他逝世後，可以讓智慧音箱陪著他孩子長大，讓孩子還能聽到爸爸的聲音。

韻律就是我們說話的方式，說話時我們聲音的高低、快慢等。

借用某位非著名相聲演員的話來說：人人都會說話，為什麼你還要花錢來聽我說話？

自然是因為你說的好，那【說得好】到底是一種什麼概念呢？

舉個例子，每次看《動物世界》除了被節目裡各種新奇的動物吸引之外，還會被趙忠祥老師富有磁性的聲音所吸引。

這就是他比旁人【說得好】，聲音的慣性和魅力是無窮的，當某個熟悉的聲音響起，人們就會自然而然的沉浸其中。

在未來，優質的聲音IP將會作為重要的內容生產能力，受到重視和追捧，將語音從資訊獲取升級為藝術享受。

二、語音合成的發展歷史

縱觀語音合成技術的歷史長河，這項技術大概經過了6個階段的發展。

1、起源階段

語音合成技術的起源可以追溯到18到19世紀，當時是用機械裝置來模擬人的發聲，那時候科學家們會製作出一些精巧的氣囊和風箱去搭建發聲的系統，可以合成出一些母音和單音。

2、電子合成器階段

20世紀初，出現了用電子合成器來模擬人發聲的技術，最具代表性的就是貝爾實驗室的Dudley，他在1939年推出了名為“VODER”的電子發聲器，使用電子器件來模擬聲音的諧振。

3、共振峰合成器階段

到了20世紀80年代，隨著積體電路技術的發展，出現了比較複雜的組合型的電子發生器，比較代表性的KLATT在1980年釋出的串/並聯混合共振峰合成器。

4、單元挑選拼接合成階段

到了20世紀80、90年代隨著PSOLA方法的提出和計算機能力的發展，單元挑選和波形拼接技術逐漸走向成熟，90年代末劉慶峰博士提出聽感量化思想，首次將中文語音合成技術做到了實用化地步。

5、基於HMM的引數合成階段

在20世紀末期，還有另外一種基於HMM的引數合成技術出現。

6、基於深度學習的語音合成

隨著AI技術不斷髮展，基於深度學習的語音合成技術逐漸被人們所知道，DNN/CNN/RNN等各種神經網路構型都可以用來做語音合成系統的訓練，深度學習的演算法可以更好地模擬人聲變化規律。

三、語音合成核心技術原理

1、單元挑選波形拼接技術

語音合成技術的本質是將文字資訊轉化成語音資訊，在瞭解這項技術之前，我們先來看一個案例，現在有一句待合成文字：外交部評日本首相國會演說。

如果我們要將這句文字資訊變成語音資訊，首先需要在語音合成資料庫裡面挑選出這句文字資訊所包含的元素，比如：外交部、日本等。

挑選完元素之後將這些元素按照一定的順序組合排列，最後再輸出我們想要合成的那句語音資訊。

以上這些就是一個簡單的單元挑選波形拼接技術實現過程。

單元挑選和波形拼接的關鍵技術點有2點：

語料庫設計和標註；目標代價和連線代價計算

2、基於HMM的引數語音合成

基於HMM的引數語音合成技術相比於單元挑選波形拼接技術，在操作層面上會更加流程化。

我們來看下基於HMM的訓練流程圖，主要包括

訓練流程和合成流程。

將錄製好的音庫，提取出相應的語音引數，然後將標註資料和聲學提取資料一同構建HMM的訓練模型，透過上下文屬性和問題集的決策樹模型，構建訓練後的HMM模型，這就是訓練流程。

合成流程中我們透過對輸入文字的分析，來進行上下文相關HMM訓練的序列決策，再將生成後的語音送入引數合成器中，最後輸出合成之後的語音。

基於HMM的引數語音合成的

關鍵技術有高質量語音聲碼器，以及基於上下文的決策樹模型。

3、基於深度學習的語音合成

相對於傳統的HMM模型，深度學習演算法模型能力更強，資料利用率更高，效果優勢更為明顯。Deepmind提出波形點建模方法，在整個語音合成技術發展史上都是具有里程碑意義的。

四、AI語音未來如何

關於AI語音的未來之路，在之前的課程中班主任也帶著大家討論過一些，包括和具體領域的結合等。比如近兩年很火的機器翻譯領域，未來語音進一步滲透其中，可能每個人都能用自己的聲音通譯世界；還比如聲樂領域，有了聲音，更需要音樂，融合歌唱合成技術將為未來虛擬IP打造提供助力。

2019全國兩會期間，科大訊飛推出了首個多語種A。I。虛擬主播，效果非常驚豔。

影片載入中。。。

影片裡的形象和聲音都是用人工智慧輸出的，未來音影片一體是一個巨大的趨勢，語音的傳播廣且不需要特殊的媒介，而影片可以聚攏使用者的注意力，音影片的結合會更好地幫助我們在人機互動的場景下有做更有價值的事情。

新課來了 | 一文讀懂語音合成技術原理

相關文章