字节和阿里比跳舞!让全民跳科目三的模型

AI测评7个月前更新 AiBots
114 0 0
字节和阿里比跳舞!让全民跳科目三的模型

只需一张照片,就能让马斯克、梅西等各大名人展现出魔性的舞姿。这种技术不仅可以让马斯克变身为舞池中的活力王,还能让足球巨星梅西展示他在绿茵场外的另一面。想象一下,连科目三驾驶考试的严肃场景都能变成舞台,让慈禧太后也忍不住加入这场疯狂的舞会。

这项技术背后的推手是阿里巴巴智能计算研究院的AnimateAnyone项目。只需提供一个静态的角色图像(包括真人或动漫/卡通角色)和一些动作、姿势(比如跳舞、走路),便可将其动画化,同时保留角色的细节特征(如面部表情、服装细节等)。类似的MagicAnimate项目则是由新加坡国立大学和字节跳动联合开源的,同样利用扩散模型(diffusion models)创造时间连贯的人像动画,将静态图像变成动态视频。这两大项目之间的较量展示了模型能力的竞争与突破。

 

字节和阿里比跳舞!让全民跳科目三的模型

在视频制作,尤其是动漫制作中,人物动作是通过逐帧过渡完成的,类似于手翻书的效果。然而,要让一张静态图片动起来,最大的挑战在于脑补接下来的动作和场景,没有前后参照物。传统技术DisCO在官方对比中常被批评,因为它只能让主体动起来,但生成的动效常出现身型扭曲和奇怪动作,效果失真。

字节和阿里比跳舞!让全民跳科目三的模型

阿里AnimateAnyone

AnimateAnyone是一种动画视频生成方法,通过将角色图像转换成动画序列。它基于扩散模型,对UNet进行了改进以适配多帧输入,为了解决视频人物形象一致性的问题,引入了referenceNet来确保外观的一致性,后者是为捕获参考图像细节专门设计的UNet结构。

字节和阿里比跳舞!让全民跳科目三的模型

他们结合了ReferenceNet和UNet,使UNet能识别目标图像的关键细节位置,有效去噪并保留重要细节,确保形象一致性。阿里AI团队还开发了轻量级姿态引导器Pose Guider,通过集成姿态控制信号,确保动画的姿态精准。为提升视频流畅性和稳定性,引入了时序生成模块,使模型掌握帧间联系,保证视频连贯且细节高清。

字节和阿里比跳舞!让全民跳科目三的模型

比起以前的方法,该方法能够有效保持了视频人物外观的一致性,不会出现诸如衣服颜色变来变去等问题,同时视频流畅清晰,不会闪烁抖动,并且还支持对任意角色进行动态化。

字节和阿里比跳舞!让全民跳科目三的模型

与此同时,阿里还有另一个模型DreaMoving这项技术的优势在于,无需深入了解复杂的视频制作技术,使用者只需给定一些引导,比如一段文字或一张参考图像,DreaMoving 就能够创造出高度逼真的视频。

视频控制网络是在每个 U-Net 块之后注入运动块的图像控制网络。视频控制网络将控制序列(姿势或深度)处理为额外的时间残差。降噪 U-Net 是一个派生的稳定扩散 U-Net,带有用于视频生成的运动块。内容引导器将输入的文本提示和外观表情(例如人脸(衣服是可选的))转移到内容嵌入以进行交叉注意。

字节和阿里比跳舞!让全民跳科目三的模型

DreaMoving允许用户仅通过上传人脸照片、动作序列和文本描述,就能轻松创建个性化人物视频,精确控制视频内容。操作步骤包括:首先上传人脸照片以形成视频中的人物形象,然后通过设定动作序列来指定人物动作,最终通过文本输入细化视频内容,实现综合性控制。

字节MagicAnimate

该模型致力于提高动画的时间连贯性、复现参考图像以及提升动画的真实感。为达到这些目标,研究团队首先构建了一个能够捕捉时间信息的视频扩散模型,然后引入了一种新型的外观编码器,以维持不同帧之间的视觉一致性并精确复现参考图像的细节。通过这些技术创新,他们还采用了简易的视频融合技巧,确保了长动画视频的流畅过渡。

字节和阿里比跳舞!让全民跳科目三的模型

实验数据显示,MagicAnimate在两个标准测试中都超过了现有的基准方法,在挑战性极高的TikTok舞蹈数据集上,其视频真实感表现比最优基准方法提高了超过38%。

字节和阿里比跳舞!让全民跳科目三的模型

由于内存限制,MagicAnimate采用分段处理视频的方法。这种方法得益于其时间建模和高效的外观编码技术,能够确保视频各个片段在时间和外观上的一致性。尽管如此,视频的不同部分间仍可能出现轻微的不连贯。为解决这一问题,研究团队采用了简易的视频融合技术,以提升视频过渡的平滑性。

字节和阿里比跳舞!让全民跳科目三的模型

研究团队对MagicAnimate进行了跨身份动画效果的评估,并将其与当前最先进的基线方法DisCo和MRAA进行了比较。他们从TikTok的测试集中选取了两组DensePose动作序列,并利用这些序列来对其他视频中的参考图像进行动画化处理。
字节和阿里比跳舞!让全民跳科目三的模型
字节和阿里比跳舞!让全民跳科目三的模型

© 版权声明

相关文章

暂无评论

暂无评论...