人民網(wǎng)
人民網(wǎng)>>四川頻道>>特別策劃>>“新時代成渝影視文化產(chǎn)業(yè)高質(zhì)量發(fā)展十大創(chuàng)新案例”推選宣傳展示>>提名案例(重慶)

手語數(shù)字人

2023年05月19日10:34 | 來源:人民網(wǎng)-四川頻道
小字號

截至2020年,中國聽力殘障人士已達(dá)到2700萬。而目前,以電視、電腦、手機為載體的各類新聞資訊、文娛節(jié)目,作為聽障人士的第一語音的手語的協(xié)助缺乏嚴(yán)重。2021年,國家發(fā)展改革委、國家廣播電視總局等21部門聯(lián)合發(fā)布關(guān)于印發(fā)《“十四五”公共服務(wù)規(guī)劃》的通知,強調(diào)無障礙環(huán)境是城市文明標(biāo)志之一。為了關(guān)愛聽障人士,營造濃厚的關(guān)懷氛圍,縣級以上人民政府及其有關(guān)部門發(fā)布重要政府信息和與殘疾人相關(guān)的信息,應(yīng)當(dāng)創(chuàng)造條件提供語音文字和手語提示等信息交流服務(wù)。

目前,市場上的電視節(jié)目絕大部分都沒有添加手語老師進行實時翻譯,因為真人手語翻譯有以下痛點:1.手語解說可懂度不到60%。2.不同手語老師翻譯的手語可能會包含不同的語義,具體表為手語表達(dá)與漢語表達(dá)語序不同:現(xiàn)有手語解說大多是按漢語正常語序編排,不符合自然手語的規(guī)范和聾人的表達(dá)習(xí)慣。3.省略詞匯不恰當(dāng),影響意思表達(dá):手語中沒有虛詞和量詞,從漢語轉(zhuǎn)換為手語時需要刪減詞,但是不恰當(dāng)?shù)氖÷詴?dǎo)致意思理解上有很大偏差。4.手語要素的組成,不僅僅只有手部動作,現(xiàn)有手語解說的表情、口動不夠明顯,且窗口較小,導(dǎo)致非手控信息無法看清,嚴(yán)重影響聽障人群的理解。

廣播級手語數(shù)智人生產(chǎn)系統(tǒng)致力于打造首個聾人真正可懂的廣播級手語數(shù)智人,手語表達(dá)能力接近真人手語主播。其特點有以下幾點:1.語言體系準(zhǔn)確翻譯:將健聽人語言準(zhǔn)確翻譯轉(zhuǎn)化為聾人語言;2.面部表情唇動逼真:手語為畫面語言,結(jié)合面部表情及唇動,可以更好地理解手語;3.新詞熱詞快速適配:能夠快速補充新詞熱詞并上線,無需重復(fù)錄制;4.實時翻譯:通過音轉(zhuǎn)文、文字翻譯手語、手語疊加視頻,實現(xiàn)一個節(jié)目包含視頻、文字、語音、手語這幾大要素。

廣播級手語數(shù)智人生產(chǎn)系統(tǒng)采用ASR和OCR技術(shù),即自動語音識別技術(shù),是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。其目標(biāo)就是將人類語言中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入。具體如下:

第一步,建立聲學(xué)模型。聲學(xué)模型的主流系統(tǒng)大多采用隱馬爾科夫模型進行建模。對于同一個詞,由于每個人的發(fā)音、語調(diào)、語速等都各不相同,為了能讓機器識別出更多的人,聲學(xué)模型建立過程中需要錄入大量的原始用戶聲音,提取出其中的特征進行處理,并建立聲學(xué)模型數(shù)據(jù)庫。在聲學(xué)訓(xùn)練步驟當(dāng)中估算出聲學(xué)模型的參數(shù),再通過循環(huán)訓(xùn)練和對齊相位。在這一步中,大數(shù)據(jù)的重要性就體現(xiàn)出來了。

第二步,建立語言模型。語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或者由統(tǒng)計方法構(gòu)成的語言模型。根據(jù)語言的客觀事實,進行語言抽象數(shù)學(xué)建模,這是一種對應(yīng)關(guān)系。語言模型可以很好地調(diào)整聲學(xué)模型所得到的不合邏輯的詞,使得識別結(jié)果變得通順且正確,這對于自然語音的信息處理也有著重要的意義。

第三步,進行語音識別。前面兩步都是需要預(yù)先做好的,最終形成的數(shù)據(jù)庫將存儲在設(shè)備本地或者云端。而這一步則是實時的語音識別過程。先將用戶的語音輸入進行編碼和特征提取,再將提取到的特征拿到聲學(xué)模型庫中去匹配得到單個的單詞,然后再拿到語言模型庫中去查詢,就可以得到最匹配的詞了。該技術(shù)將轉(zhuǎn)換完成的文本輸入到手語翻譯引擎,再通過手語要素序列生成手控信息和非手控信息等,最終通過高精度模型驅(qū)動,生成超寫實手語數(shù)智人。合成的視頻如果更接近真人且感情表達(dá)豐富,那么觀眾會覺得這不是一個冷冰冰的機器,而是一個有感情的“人”,會更容易接受AI主播的存在,讓觀眾的注意力從AI主播身上,轉(zhuǎn)到新聞或電視節(jié)目的內(nèi)容上。

使用場景:1.用于新聞或者賽事直播,實時生成手語視頻;2.大屏、電視劇、電影、新媒體節(jié)目后期制作,生成與之對應(yīng)的手語視頻。

實施單位:重慶廣電實業(yè)發(fā)展有限責(zé)任公司

(責(zé)編:羅昱、高紅霞)

分享讓更多人看到

返回頂部