【公益案例展】华为云X《无尽攀登》——攀登不停,向上而行


7513c5e9487569383b2dc9334f76afc6.png

华为云公益案例

本项目案例由华为云投递并参与数据猿与上海大数据联盟联合推出的 #榜样的力量# 《2024中国数据智能产业最具社会责任感企业》榜单/奖项”评选。

cd6956ac78f44cfaaf7086e546cdd0b2.png




大数据产业创新服务媒体

——聚焦数据 · 改变商业


夏伯渝,中国无腿登珠峰第一人,一生43年勇攀5次珠峰,最终在69岁高龄成功登顶。他的事迹也被拍成了纪录片《无尽攀登》,广为流传。华为云盘古媒体大模型的视频翻译能力,将《无尽攀登》译制为英文版,并可以保留原始角色的音色、情感、语气等。除了声音外,通过媒体大模型的口型驱动模型,可以实现音唇同步,带来更好的观看体验。华为云盘古媒体大模型助力中国影视文化出海,将中国精神传递到世界各地!

时间周期:

开始时间:2024年4月

截止时间:2026年4月

服务周期:服务中

应用场景

视频AI翻译能力,应用于影视出海、短剧出海等场景。传统视频译制,需要配音演员熟悉翻译后的台词、体会角色情感,再对视频进行目标语种的重配音,质量便完全取决于配音演员的专业能力,且角色的声音和情感都会被重塑。受限于人工译制成本高,当前译制质量参差不齐,产能也有限。通过华为云媒体大模型提供的视频翻译能力,可以保留原始角色的音色、情感、语气,用AI将视频翻译为目标语言。除中英译制外,华为云联合逻辑智能伙伴的能力,可以实现韩语、法语、德语 西语、泰语、阿语等15种语言的译制,达到影视级译制效果。除了声音外,通过媒体大模型的口型驱动模型,可以实现音唇同步,带来更好的观看体验,尤其在侧面、多人对话、物体遮挡以及人物移动等场景,也能做到很好的口型匹配。

面临挑战

行业挑战:目前,影视/短剧出海需求旺盛。传统视频译制,需要配音演员熟悉翻译后的台词、体会角色情感,再对视频进行目标语种的重配音,质量便完全取决于配音演员的专业能力,且角色的声音和情感都会被重塑,口型也无法对应。受限于人工译制成本高,当前译制质量参差不齐,产能也有限。

项目挑战:《无尽攀登》这部纪录片是院线上映的影片,是影视级效果。且该纪录片全部为现场真实拍摄,全部为现场收音,有大量复杂的场景如爬珠穆朗玛峰过程的暴风、雪崩、各类杂音等问题,导致人声和环境杂音无法分离,且人物台词情感非常丰富、情绪很复杂,想要将这样的原声色原情感保留,并翻译成外文,难度非常大。华为云首次进行影视级影片的AI视频翻译,挑战非常大,时间也非常紧张,既要将原人物声色翻译成外语,且要让AI来还原人物情感。

技术开发过程

在媒体内容生产和应用领域,盘古大模型通过AI原声译制与视频生成能力,实现了将原片译制成不同语言的视频,并保留原始角色的音色、情感和语气。更为重要的是,盘古还能同步生成新的口型,确保不同语言对应的口型一致,使得跨语言沟通更加自然流畅;将译制配音、动漫生成等场景的制作周期从月级缩短到天级,大大提升制作效率,作品一次拍摄多元化制作,实现价值最大化;还能通过AI翻译和拟人化语音合成能力,实现更多的精品中文影视出海,助力中国文化出海

整个视频翻译方案是基于文字模态、语音模态、视频模态等三个模态的AI翻译大模型来实现的。整个处理过程涉及内容采集、说话人分镜、翻译(字幕翻译、语音翻译和口型翻译)、内容合成等四个步骤。整个流程是全自动化Pipeline完成。

如语音模态的翻译,一般影视视频中都包含人声和环境背景效果音,影视内容中会有大量环境音嘈杂的素材,这会使AI音译出来的人声非常小。需要利用AI的分离模型技术,让环境声和人声分开,就不会出现人声过小的情况。此外,基于华为自研的盘古语音大模型将源视频说话人每一句话的情感、音色、语音进行跨语音声音克隆,完成音色和情绪跨语种迁移。

其中最难实现的是视频模态的翻译,视频中不同人物有大量的不同角度说话,人物的脸有的是侧对镜头,要必须确保这样的镜头中他说话的口型和音译后的台词完全对应。口型问题看似最难解决,基于华为自研的盘古媒体大模型的口型模型技术后,可以从视觉层面让人物在影片音译后不论哪个角度口型都完全一致。通俗点讲,也就是将语音模态输出的音频信号和人物口型建立起联系,进一步讲,就是将音素(声音的最小单位)映射到视素(某一音素相对应的嘴、舌头、下颚等可视发音器官所处的物理状态)。根据经验,一种口型可能会表示不同的发音信息,即多个音素对应一个视素,那么就可以把该问题看成是多对一的映射方式。另外不同语种对应有不同的音素单元。人讲话时,口型是连续的动作,可以将人的口型简化为按照上下、左右张开的幅度进行简单划分为几种,即讲连续变量转化为类别变量,极端一点讲,张、微张、闭三种口型就可以构成口型库。大模型深度学习的任务,就可以理解为音素序列到开口大小的映射过程:从音频信号中提取特征,并将对应的口型作为标签,建立起数据集,基于数据集来训练模型。

应用效果/社会价值

纪录片《无尽攀登》原本只有中文版,无外文版。华为云盘古媒体大模型用AI能力将该影片翻译为外文版,并保留原人物的音色、情感等,可以非常好的将夏伯渝永不言弃、勇攀高峰的精神传递到海外,让全世界看到中国人的不屈及向上的精神。

关于企业

.华为云

华为云持续践行“一切皆服务”,为客户、伙伴和开发者提供稳定可靠、安全可信、可持续发展的云服务,做好行业数字化的“云底座”和“使能器”,加速千行万业智能化,成为百花园的“黑土地”。

2023年,华为云持续创新,全球业务保持快速增长。截至目前,华为云已覆盖全球33个地理区域、93个可用区,为170多个国家和地区的客户提供服务;入选8个Gartner魔力象限,新进入AI开发者服务、容器管理和分布式混合基础架构等魔力象限,在超过20个细分领域斩获市场第一。

点击文末左下角“阅读原文”链接还可查看“华为云”官网

以上由华为云投递申报的项目案例,最终将会角逐由数据猿与上海大数据联盟联合推出的 #榜样的力量# 《2024中国数据智能产业最具社会责任感企业》榜单/奖项

该榜单最终将于7月24日北京举办的“2024企业数智化转型升级发展论坛——暨AI大模型趋势论坛”现场首次揭晓榜单,并举行颁奖仪式,欢迎报名莅临现场:

b18e142af6167e610c1a8013a2ba26ce.jpeg

f2d89898e654a053f1475337ae6a62f6.png

上一篇:线性代数_矩阵


下一篇:初次用bable遍历vue项目下的中文