![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243021-2024-07-06_3a78e7f5a736ec80c89c26646ee8f938_0.png)
中山大学与字节智创的数字人团队最近引发了一次重大关注,他们推出了一款名为MMTryon的虚拟试穿框架。这款技术非常先进,只需输入几张衣服的图片,再加上几句提示穿法的文本指令,就可以一键生成高质量的模特试穿效果。
现有方法通常只适用于单件试穿任务(例如,上衣/下装,连衣裙),并且在定制穿衣风格(如拉链/解拉链,塞入/塞出)方面存在不足。此外,它们依赖特定类别的分割模型来识别替换区域,分割错误会导致试穿结果中出现明显的伪影。
为了解决前述问题,MMTryon引入了新颖的多模态和多参考注意机制,将参考图像的服装信息与文本指令的着装风格信息结合起来。为了消除分段依赖性,MMTryon使用免解析服装编码器,并通过可扩展数据生成管道将现有的VITON数据集转换为无需显式分段即可训练的形式。
![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243034-2024-07-06_a476e4910cb47bde3dc23a17a56c63f6_1.png)
指令提示和服装图像相结合,获得多模态交错指令嵌入,取代原始文本条件。服装编码器进一步处理每张服装图像以及相应的文本跨度,以获得参考特征,这些参考特征与目标特征一起经过Multi-Reference-Attention,以确保详细的纹理传输。
![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243042-2024-07-06_7723a9f7e66d0337fd1ceb805166c06b_2.gif)
服装编码器利用来自Grounding DINO和SAM的先验掩码,通过目标文本和输入特征之间的交叉注意力来提高文本查询的准确性。该服装编码器由扩散重建损失和文本查询损失进行监督。
![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243049-2024-07-06_f54fb5c3c3f922def7ccf62a150dd817_3.jpeg)
使用大型多模态模型来描述目标人物图像,然后使用开放词汇基础和分割模型来提取人物图像与多个服装主题之间的对应关系。对于每个主题,利用 SDXL 修复来获得增强的数据集,该数据集用作训练数据。
![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243109-2024-07-06_89191aa5c65604ef1a2bb69397a5ba2c_2.png)
在单次试穿任务中对 VITON-HD 进行定性比较。与其他方法相比, MMTryon 可以生成更逼真、纹理更一致的图像。
![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243116-2024-07-06_4dbcfc1ec16d8a846c455eef6b1cc102_3.png)
与 OutfitAnyone 相比,MMTryon 可以生成更真实、更稳定的图像。
![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243126-2024-07-06_642516ad34741a7c150dd1d818e793a7_4.png)
在Multi-Modal Multi-Reference任务中与 Paint-by-Example 、Midjourney 和 DALLE3进行定性比较。
![字节换装黑科技!高品质时装随意搭配MMTryon](http://ai-bots.com.cn/wp-content/uploads/2024/07/1720243136-2024-07-06_fa966df36e3973cfa4704632655024d6_5.png)
MMTryon,这是一种新颖而强大的试穿模型,能够根据文本和多件服装自由生成具有逼真试穿效果的高保真 VITON 结果。通过使用预训练编码器,MMTryon 不仅避免了分割的需要,而且即使在数据有限的情况下也能实现组合试穿。为了支持多模态和多参考穿衣模式,MMTryon 引入了多模态指令注意和多参考注意模块。在高分辨率 VITON 基准和野外测试集上进行的实验表明,与现有方法相比,MMTryon 具有更优越的功效。