會員動態(tài) | 三個第一!科大訊飛包攬IWSLT 2021同聲傳譯三賽道冠軍

發(fā)布日期:2021-08-10 10:29
在2021年國際口語機(jī)器翻譯評測比賽(簡稱IWSLT)上,科大訊飛與中科大語音及語言信息處理國家工程實(shí)驗(yàn)室(USTC-NELSLIP)聯(lián)合團(tuán)隊(duì)在同聲傳譯任務(wù)(Simultaneous Speech Translation,簡稱同傳)中包攬三個賽道的冠軍。這是繼2018年在IWSLT比賽中獲得語音翻譯端到端冠軍之后,科大訊飛再次以實(shí)際行動證明了其在語音翻譯和機(jī)器同傳領(lǐng)域的國際領(lǐng)先地位。



包攬同聲傳譯任務(wù)三賽道冠軍

IWSLT是國際上最具影響力的口語機(jī)器翻譯評測比賽之一,針對語音翻譯實(shí)際應(yīng)用面臨的難題,通過每年設(shè)定一些研究任務(wù),并向外界提供公開的數(shù)據(jù)集合,吸引全球各地的科研團(tuán)隊(duì)參與比賽,以此推動語音翻譯技術(shù)創(chuàng)新和知識共享。大賽至今已經(jīng)舉辦18年,在業(yè)界頗具話語權(quán)。

今年的IWSLT為考察不同語言對語序的影響,以及語音同聲傳譯整體性能,在同聲傳譯任務(wù)中共設(shè)置了三個賽道:一是英德文本同傳,實(shí)時地將真實(shí)的文本翻譯成目標(biāo)語言文本;二是語序差異較大的英日文本同傳;三是英語到德語的語音同傳,實(shí)時地將語音翻譯成目標(biāo)語言文本。

本次比賽針對“翻譯質(zhì)量”和“翻譯延遲”兩個維度進(jìn)行評測。英國愛丁堡大學(xué)(UEDIN)、德國AppTek公司(APPTEK)、日本奈良先端科學(xué)技術(shù)大學(xué)院大學(xué)(NAIST)、字節(jié)跳動火山翻譯團(tuán)隊(duì)(VOLCTRANS)和科大訊飛-中科大聯(lián)合團(tuán)隊(duì)(USTC-NESLIP)等多支隊(duì)伍參與其中。

翻譯效果-延遲曲線(英德文本同傳)

最終,科大訊飛團(tuán)隊(duì)在以上三個賽道均取得第一名。根據(jù)科大訊飛本次提交的最終系統(tǒng)效果,在低中高三個延遲區(qū)間上都顯著優(yōu)于其他系統(tǒng),尤其是在低延遲區(qū)間的突出表現(xiàn),對于進(jìn)一步推動機(jī)器同傳的商業(yè)落地頗具價值。

表1 英德文本同傳效果排名

表2 英日文本同傳效果排名

 表3 英德語音同傳效果排名

創(chuàng)新性提出CAAT統(tǒng)一同傳模型結(jié)構(gòu)

相比人工同傳,機(jī)器同聲傳譯可以做到不知疲倦地持續(xù)翻譯,并可保證高譯出率和隱私性,在未來具有廣泛的應(yīng)用場景。

但是,機(jī)器同傳在技術(shù)上仍面臨著一些巨大的挑戰(zhàn),不僅有低延遲的要求,還面臨翻譯調(diào)序、口語化和級聯(lián)誤差、篇章翻譯等難題。需要在翻譯質(zhì)量和翻譯延遲之間尋找一個最佳平衡。

訊飛創(chuàng)新性地提出Cross Attention Augmented Transducer(CAAT)同傳架構(gòu),本次提交的系統(tǒng)正是基于這一框架實(shí)現(xiàn)的。 


CAAT模型結(jié)構(gòu)

針對同傳任務(wù)中翻譯質(zhì)量和延遲這兩個評價目標(biāo),借鑒語音識別中部分模型的優(yōu)化方式,它實(shí)現(xiàn)了將動態(tài)的同傳策略和翻譯模型聯(lián)合優(yōu)化,從而在延遲-翻譯質(zhì)量之間找到了更好的平衡。

相比目前主流的機(jī)器翻譯技術(shù),CAAT避免了固定延遲導(dǎo)致的延遲過大或翻譯質(zhì)量下降的問題,在相同延遲下取得翻譯質(zhì)量的明顯提升。

除了這一模型結(jié)構(gòu)的創(chuàng)新外,針對任務(wù)中語音翻譯數(shù)據(jù)量有限這一問題,訊飛還從模型融合、數(shù)據(jù)增強(qiáng)等策略上進(jìn)一步優(yōu)化。

AI創(chuàng)新讓溝通不再有邊界

正是科大訊飛在機(jī)器翻譯和語音同傳領(lǐng)域的深耕,同時積極推動技術(shù)走向落地,在業(yè)內(nèi)首創(chuàng)AI翻譯機(jī)品類,推出具備多語種翻譯的訊飛聽見智能會議系統(tǒng),并不斷擴(kuò)展技術(shù)的應(yīng)用空間,推動AI技術(shù)真正服務(wù)社會剛需和人類生活。

今年最新推出的訊飛雙屏翻譯機(jī),在正反兩面屏幕的加持下,可呈現(xiàn)出同傳級的實(shí)時翻譯效果,人們在保持社交距離的同時,還能順暢地對談交流。特別是創(chuàng)新研發(fā)了會話翻譯、錄音翻譯、演講翻譯、同聲字幕等功能,可與手電腦、大屏(電視、投影、會場LED等)實(shí)現(xiàn)翻譯聯(lián)動,幫助用戶在跨語言匯報工作、提案演講、遠(yuǎn)程開會時提供實(shí)時語音翻譯或同傳翻譯字幕,賦能工作及生活中絕大多數(shù)的跨語言場景,開創(chuàng)跨屏翻譯時代。


依托科大訊飛的語音轉(zhuǎn)寫、機(jī)器翻譯、語音合成等世界先進(jìn)水平的智能語音核心技術(shù),訊飛聽見同傳可提供全場景多語種同傳及各類定制服務(wù),支持8國語種的實(shí)時轉(zhuǎn)寫和中文到多國語種的翻譯,已經(jīng)廣泛應(yīng)用于大型會議、發(fā)布會、展覽會等場景。

訊飛聽見同傳為WAIC2021提供轉(zhuǎn)寫翻譯服務(wù)

目前,訊飛聽見同傳已服務(wù)大會超10000場次,聽見會議系統(tǒng)累計(jì)覆蓋1000余家企業(yè)單位,訊飛聽見會議累計(jì)服務(wù)1000000次遠(yuǎn)程視頻會議。訊飛聽見網(wǎng)站及APP為近1500萬用戶提供智能轉(zhuǎn)寫及翻譯服務(wù),累計(jì)轉(zhuǎn)寫時長超3866萬小時,為聽障群體定向捐贈時長超1400萬小時。

創(chuàng)新永不止步

盡管如此,目前的機(jī)器同傳技術(shù)相比人工同傳依然存在很多不足,比如人工同傳對表達(dá)的語義理解更準(zhǔn)確,翻譯更地道,機(jī)器容易出現(xiàn)直譯問題;雖然人工同傳會對發(fā)言人內(nèi)容進(jìn)行刪減,但核心內(nèi)容不會丟失,但機(jī)器容易出現(xiàn)識別和翻譯錯誤等問題。 

本次科大訊飛在IWSLT 2021同傳任務(wù)上的技術(shù)突破不是終點(diǎn),而是新的起點(diǎn),后續(xù)科大訊飛仍將繼續(xù)用嚴(yán)謹(jǐn)?shù)目茖W(xué)精神,專注核心技術(shù)研發(fā),提升在語音翻譯和機(jī)器同傳領(lǐng)域的核心競爭力,進(jìn)一步迭代提升機(jī)器同傳的性能和效果。用人工智能讓世界溝通無障礙。

科大訊飛股份有限公司簡介
科大訊飛股份有限公司成立于1999年,是亞太地區(qū)知名的智能語音和人工智能上市企業(yè)。自成立以來,長期從事語音及語言、自然語言理解、機(jī)器學(xué)習(xí)推理及自主學(xué)習(xí)等核心技術(shù)研究并保持了國際前沿技術(shù)水平;積極推動人工智能產(chǎn)品研發(fā)和行業(yè)應(yīng)用落地,致力讓機(jī)器“能聽會說,能理解會思考”,用人工智能建設(shè)美好世界。