幫助聽障人士獲取資訊、表達想法——“我們溝通更順暢了”

每年9月的第4個星期日是國際聾人日。第二次全國殘疾人抽樣調查結果顯示,中國聽力障礙殘疾人數約2780萬。龐大的聾人群體不甘願“沉默”,他們渴望能和其他人順利溝通。為幫助聾人群體更好融入社會,企業、高校齊發力,研發相關裝置和系統,讓聾人群體能夠“聽見”與“被聽見”。國際聾人日來臨之際,本報記者分別走訪了一些企業和高校,為您講述相關品牌研發背後的暖心故事。

讓更多聽障人士被“聽”見

本報記者 李家鼎

電視畫面中,主持人侃侃而談,一旁的“AI手語主播”同步出鏡,將包含大量冬季體育運動專業詞彙的語言一一翻譯……這一幕,發生在北京冬奧會期間。在央視新聞冬奧直播特別節目中,“AI手語主播”的出現讓人眼前一亮,受到不少聽障人士的歡迎。

“能將科研成果帶到舉世矚目的冬奧會上,服務於電視機前的聽障觀眾,我們感到十分自豪。”天津理工大學聾人工學院副院長袁甜甜告訴記者,“AI手語主播”的背後,隱藏著一個龐大的手語影片資料庫,過去5年,她帶領學校鯨言創益無障礙智慧科技研發團隊克服重重困難,構建起30餘萬條的影片語料庫。如今,他們打造的“複雜場景下中國手語實時翻譯系統”已受到科創領域的不少關注,在未來各種應用場景下,更多聽障人士被“聽”見,正在走向可能。

“為什麼一定要把手語翻譯成文字或語言呢?現在語音識別軟體這麼多,聽障人不會說,打字給健聽人看不就行了嗎?” 專案啟動之初,不少人曾對這項研究的必要性提出懷疑。“這些語音識別軟體,邏輯出發點永遠繞不開健聽人,對聽障人來說,他們更渴望的是自己的‘語言’可以被社會聽見、聽懂。”袁甜甜說。

不久前,天津市急救中心工作人員聞訊找到袁甜甜:“你們的專案能否考慮在急救領域落地,我們太需要了!”在急救工作中,遇到聽障人士是常有的事,生死垂危之際,很少有患者還有意識在手機上打字,而要求醫生和急救人員會手語更不現實。

“要想讓這套系統應用於更多場景,就需要讓語料庫變得更加豐富。”團隊成員、聾人工學院網路工程專業2018級學生王建源的主要工作就是搭建語料庫,“招募會手語的志願者來錄影片,反反覆覆地錄。”王建源介紹。兩年時間裡,王建源和夥伴們幾乎每天都會出現在學院三樓實驗室,有時忙到很晚,乾脆席地而睡。他們已經收集到30餘萬條語料,“經過測算對比,距離中國漢語水平考試的4級水平僅差100多個詞了。”王建源“說”完,一旁的顯示屏上準確顯示出上述文字。

手語是一門視覺語言,有它特定的語法、語序。手勢、表情、肢體動作自由排列組合,表達的是不同的意思。“比如說‘陽光總在風雨後’這句話,手語的語序是‘風/雨/結束/陽光’,讓健聽人看得懂,就要用到計算機演算法。”計算機學院研一學生孫悅說,在演算法模型搭建中,他們漸漸總結出規律,能夠將一段手語中的手勢、表情、肢體動作全部識別到位,“通俗地講,就是我們給計算機編了一套‘教材’。”在孫悅看來,這套“教材”正是他們找尋的聽障人溝通外界的那座“橋”。

“這套系統已經涵蓋教育、法律、餐飲、交通等應用場景,在光線充足的環境下,識別率可達95%。”袁甜甜說,系統還在飛速升級,“我們目標是100萬條語料,基本覆蓋社會生活的常用場景。”

“溝通永遠是雙向的,我身邊的這些孩子們不是殘障,他們只是‘不一樣’。我們要做的就是,用科技的力量讓他們被‘聽到’、被‘聽懂’。”袁甜甜說。

辦事過程比想象的還方便

本報記者 申智林

走進湖南省長沙市開福區政務中心,來自吉林省的姑娘李麗打算諮詢一下殘疾證異地換新的相關流程。由於存在聽力方面的障礙,她做好了因溝通不暢而辦不成事的準備,卻沒想到,整個辦事過程遠比想象中要方便。

大廳裡,工作人員見李麗只能用手語交流,便將她引導至載有“樓層業務導引”功能的螢幕前進行辦事分導。

令李麗驚喜的是,點開一級選單,螢幕左上角立刻彈出一個小視窗,裡邊赫然出現一個虛擬人物“千語”。每當李麗往下划動,虛擬人物都會迅速而準確地打起手語,充當導引內容的翻譯。很快,李麗就找到了對應的辦事專窗。

沒有一個懂手語的工作人員,也沒有配專職手語翻譯,開福區政務大廳的工作人員駕輕就熟地開啟“千博手語雙向無障礙溝通平臺”,先是藉助預置業務內容的手語翻譯,同李麗溝通交流;深入溝通中遇到困難,又聯絡平臺後方的實時翻譯,對李麗做好釋疑解惑。不到半個小時,相關業務就全部辦理完畢。“有了這套系統,我們溝通更順暢了。”李麗表示。

“這套服務系統目標是打通語音文字到手語手勢、手語手勢到語音文字的雙向對映,實現聽障人無障礙獲取漢語及文字資訊,聽障人與健聽人之間無障礙溝通。”長沙千博資訊科技有限公司技術總監郭松睿介紹。

2018年,湖南大學資訊科學與工程學院教授、長沙千博資訊科技有限公司主要創始人高春鳴帶著郭松睿在內的研究團隊,在一次同北京聯合大學的教師開展技術交流時,得知聽障人士有對智慧手語實時轉譯等功能的迫切需求。

“這正是我們擅長的內容。”郭松睿說,彼時,團隊在計算動畫領域已經積累了十餘年技術經驗,“說起來,智慧手語可以視為計算動畫的一個具體分支,其中涉及的文字處理、語義分析等程式,需要用到的大資料、雲計算等技術是完全相通的。”

要做到從文字語音到手語的精準翻譯並不簡單。“首先得理順漢語同手語在詞彙及語法方面的對應關係。”郭松睿說,以詞彙為例,2019年,最新版的《國家通用手語詞典》收入了8214個手語詞彙,“但在日常生活中,要滿足溝通需要,至少還需要增加三四千個詞語的手語表達正規化。”為此,研發團隊開展了廣泛的基礎語料蒐集工作,並從中提煉出一些比較通用的手語詞彙,補充到資料庫中。

而語法方面,情況更加複雜。“一開始,我們想當然地認為,中國的手語和漢語普通話在語法規則上一致。”郭松睿說,可實際上,不管是語序還是語義邏輯的表達,各地都千差萬別。比如簡單的一句“我不喜歡吃蘋果”,因為語序和語義表達上的差異,可能有很多種表達形式。“在海量語料的基礎上,充分利用大資料計算,我們逐步歸納手語語法特徵。”郭松睿說。

在研發團隊不懈努力下,如今,對於新聞播報等較為規範的文字、課堂教學等有章可循的語音報送以及類似政務服務等程式性較強的溝通場合,千博資訊推出的“千語”虛擬人物,已經能夠做到實時精準的手語翻譯。

“下一步,我們重點在於提高從手語到文字語音的智慧識別和實時轉錄,減少對人工的依賴。”郭松睿說。

終於能“聽”解說了

本報記者 康 樸

“這個操作失誤了”“放了一個大招”……在一場王者榮耀遊戲比賽直播間,主播語調激昂地解說著緊張刺激的對戰場面,影片畫面右側,一個AI主播雙手不停變換動作——這是騰訊研發的手語AI主播,形象取自遊戲中的角色“雲纓”。她的解說,讓生活在無聲世界裡的遊戲愛好者很開心。

其實,人工智慧手語主播在今年北京冬奧會上也有過亮相,騰訊3D手語數智人主播“聆語”就用手語傳遞了中國冬奧健兒爭金奪銀的激情與喜悅,溫暖了無數人。

“在很多體育賽事中,專業、準確的賽事解說是觀賽體驗中的關鍵所在,但對聽障人士來說,如果沒有實時手語解說,就很難充分感受到比賽現場的激情。”騰訊智慧創作中心相關研究人員說。目前許多新聞資訊、文娛節目中都缺少手語翻譯,手語主持人、手語主播是稀缺資源,如何更好地讓聽障人士獲取更多資訊?

騰訊把目光投向人工智慧:造一個AI主播,跟著解說同步比手語。可問題是,程式設計師對手語一竅不通。

“我們請來專業手語老師上課,啃下《國家通用手語詞典》,逐漸形成對手語的基本認知。”騰訊智慧創作中心研發團隊相關負責人告訴記者,他們還跑了很多趟聾啞人學校,與師生交流,聽取他們意見。

研發遊戲AI主播的想法就是在這樣的交流中萌生的。“在聽障群體中有很多人喜歡遊戲、喜歡電子競技,經常收看電競直播節目,但即便主播聲嘶力竭,他們依然無法感受到解說的魅力。”研發團隊相關負責人說。

研發團隊不僅僅要學習手語,更大的挑戰在於把手語的手勢、表情、唇動、姿態、眼神等影象資訊轉化為計算機可懂的程式語言。

不瞭解手語的人,也許會認為手語僅僅需要手部動作。其實手語是一門視覺語言,表情、體態等也是其表達的關鍵。比如“明白嗎?”這個問句,就需要身體朝向、表情、眼神、口型聯動,才能有效傳遞出疑問的語氣。

為了實現更加準確、自然的手語表達效果,騰訊智慧創作中心建立了漢語-手語翻譯系統,可以透過機器翻譯生成手語表徵資訊,基於多模態端到端生成模型進行聯合建模及預測,生成高準確率的動作、表情、唇動等序列。

在體育賽事中,一到緊張激烈的時刻,解說員語速都會加快,這時,打手語就有可能跟不上了。“把解說語音識別為文字,用演算法進行取捨,抽取關鍵資訊,保留主體意思,再透過語料庫轉換為手語文字,最後渲染成手語影片。”騰訊智慧創作中心研發團隊相關負責人說,系統還會根據解說員語速來判斷是否需要壓縮和壓縮多少語義,以達到更好的呈現效果。

“目前我們在和一些省級電視臺合作,讓手語數字人亮相更多電視大屏,先為省級新聞聯播等節目做好相關服務和支援,再逐步拓展場景。”騰訊智慧創作中心研發團隊相關負責人說,“隨著技術不斷進步和場景不斷完善,聽障人士會越來越便捷地獲取更多資訊,我們的工作很有意義。”

李家鼎