1/0
新经济视界 | 兵马俑唱rap、高启强普法 国产图生视频AI模型让照片开口说话|封面天天见
封面新闻2024-04-25 19:38:21

封面新闻记者 欧阳宏宇

把一段音频、一张照片输入AI模型,就能让图中人物开口唱歌说话……继Sora之后,一款能让照片开口说话的国产图生视频AI模型在社交媒体上走红。近日,记者获悉,该AI模型已正式上线,并开放给所有用户免费使用。

据介绍,这款AI模型名为EMO(Emote Portrait Alive),由通义实验室研发。在该AI模型上,用户仅需一张人物肖像照片和音频,就可以让照片中的人物按照音频内容“张嘴”唱歌、说话,且口型基本一致,面部表情和头部姿态非常自然。

比如,让奥黛丽赫本唱《上春山》,爱因斯坦说中文段子,《狂飙》电视剧中“高启强”畅谈罗翔普法;甚至用兵马俑士兵图片配上音频,就能“唱出”一首rapper饶舌,连口型都几乎一模一样。据悉,这款AI模型目前已在通义APP上线。

记者随即进入该大模型页面看到,用户能在歌曲、热梗、表情包中任选一款模板,上传肖像照片,AI随即就能合成视频。目前,该模型首批上线了80多个模板,包括热门歌曲《上春山》《野狼disco》等,网络热梗“钵钵鸡”“回手掏”等。

这款图生视频AI模型高度真实感和表现力背后的技术原理是什么?该实验室研发团队透露,该模型所运用的肖像说话(Talking Head)技术是当前大热的AIGC领域。在此之前,肖像说话技术需针对人脸、人头或者身体部分做3D建模,国内研发团队则率先提出了弱控制设计,无需建模就可驱动肖像开口说话,不仅降低视频生成成本,还大幅提升了视频生成质量。

据了解,该模型目前已学习并实现了编码人类表达情绪的能力,能将音频内容和人物的表情、嘴型匹配,还能把音频的语气特征和情绪色彩反映到人物微表情上。

公开资料显示,围绕该模型肖像说话技术的相关论文已在今年2月底发布,相关AI模型也成为继Sora之后最受关注的AI模型之一。有业内人士表示,图生视频AI模型让所有人都可免费体验前沿模型的创造力。未来,相关技术有望应用于数字人、数字教育、影视制作、虚拟陪伴、电商直播等场景。

知识产权、免责声明以及媒体合作联系
继续了解
知识产权声明

【知识产权声明】

除本司(指上海东方网股份有限公司)另行声明外,本司网页及客户端产品(以下简称“本网”),包括但不限于东方新闻、翱翔、东方头条等,所涉及的任何资料(包括但不限于文字、图标、图片、照片、音频、视频、图表、色彩组合、版面设计、商标、商号、域名等)的知识产权均属本司和资料提供者所有。未经本司书面许可,任何人不得复制、转载、摘编、修改、链接、镜像或以其他任何方式非法使用东方网的上述内容。对于有上述行为者,本司将保留追究其法律责任的权利。

东方网、东方新闻、翱翔,以上均为本司享有权利之合法商标,未经本司书面授权,任何单位或个人不得使用上述商标,或将上述商标用作网站、媒体名称等。

【免责声明】

1、凡本网注明来源“东方网”或“东方新闻”或带有东方网LOGO、水印的所有内容,包括但不限于文字、图片、音频视频,版权均属本司所有,任何媒体、网站或其他任何形式的法律实体和个人未经本司书面授权均不得转载、链接或以其他方式复制传播。与我司签订有关协议或已经获得本司书面授权许可的媒体、网站或其他任何形式的法律实体和个人,应在授权范围内使用,且必须注明来源“东方网”。其目的在于传递更多信息,并不意味着本司赞同其观点或认可其内容的真实性。如果其他媒体、网站或其他任何形式的法律实体和个人使用,必须保留本司注明的“稿件来源”,并自负全部法律责任。如擅自篡改为“稿件来源:东方网”,本司将依法追究责任。

2、擅自使用东方网名义转载不规范来源的信息、版权不明的资讯,或盗用东方网名义发布信息,设立媒体账号等,本司将依法追究其法律责任。

3、鉴于本网发布主体、发布稿件来源广泛,数量较多,如因作者联系方式不详或其他原因未能及时与著作权拥有者取得联系,或著作权人发现本网转载了其拥有著作权的作品时,请主动来函、来电与本司联系,或与本司授权的中国文字著作权协会联系,提供相关证明材料,我方将及时处理。
中国文字著作权协会联系方式:
联系人:赵洪波 唐亚静
地 址:北京西城区珠市口西大街120号太丰惠中大厦1027-1036室
联系电话:010-65978917
邮 箱:wenzhuxie@126.com

4、本网所有声明以及其修改权、更新权及最终解释权均属本司所有。

【媒体合作】

本司为尊重保护著作权,鼓励有益于社会主义精神文明、物质文明建设的作品的创作和传播,促进互联网良性发展,本着平等互惠、资源共享的原则,诚邀各类媒体、网站、单位、个人与本网建立友好的合作关系。
媒体合作、内容转载请联系
联系人:杨老师
联系电话:021-22899781