商汤(020)今日(4日)于2024世界人工智能大会(WAIC 2024),推出首个可控人物视频生成大模型Vimi,并已在官网开放预约,以及会于明日(5日)披露更多有关细节。 商汤表示,该模型只需一张任何风格的照片就能生成和目标动作一致的人物类短片,并支持多种驱动方式,通过已有人物影片、动画、声音、文字等多种元素进行驱动。
▲Vimi可稳定生成长达1分钟的单镜头人物类短片
可控制表情及上半身肢体动作
商汤指出,现时市面上相关技术仍存在挑战,包括无法精准控制人物动作与表情动作、人物外貌与背景效果变幻莫测,以及时长有限等问题; Vimi则不但可实现精准的人物表情控制,还可控制照片中人物上半身的自然肢体动作,并自动生成与人物相符的头发、服饰及背景变化。
商汤又指,光影变化方面Vimi也能做到合理生成,让人物动作和视觉效果流畅自然,更可稳定生成长达1分钟的单镜头人物类短片,画面效果不会随时间变化而降低质量或失真。
创作者可自由剪辑及二次创作
现时Vimi将完全向广大用户开放使用,用户只需上传不同角度的高清人物照片,即可自动生成数字分身和不同风格的写真短片; 而生成的短片人物更能搭配手势、肢体动作、头发等,形成更完整动作,让创作者进行剪辑和二次创作。
此外,针对喜爱自拍及使用表情包的用户,Vimi支持聊天、唱歌、舞动等多种娱乐互动场景,并可通过单张图片驱动生成各种人物表情包。 Vimi亦提供唯美写真风、奇幻风等多种生成风格,让用户仿佛穿越不同次元,享受沉浸式视觉体验。