超越MJ6和SD3，快手开源文生图模型Kolors

AIGC最新资讯1年前 (2024)更新 AiBots

177 0 0

昨天，快手放出一个重磅炸弹，开源了自家的文生图模型Kolors。全称为基于隐空间扩散的文生图大模型 Kolors ，该模型基于数十亿图文对进行训练，支持256的上下文token数，支持中英双语。

使用链接在文章底部

Kolors在智源研究院FlagEval多模态文生图评测中获得第二名，并在中文和英文主观质量单项中排名第一。Kolors专注于提升写实人像、艺术风格和复杂场景的生成质量，尤其在中文理解和表达方面表现出色。Kolors能够生成具有中国特色的自然景观和象征性场景，在人物生成上擅长塑造东方面孔，结合中国服饰和发型，符合国人审美。文字生成方面，Kolors支持中英文字体，特别是在中文书法和图片文字生成上表现优异。

同时，Kolors通过人工测评整体满意度平均分和机器测评MPS综合得分均超过目前主流的模型，例如：MJ6、Stable Diffusion 3、DALL-E 3。

快手构建了一个包含14种垂类，12个挑战项，总数量为一千多个 prompt 的文生图评估集 KolorsPrompts。在 KolorsPrompts 上，并收集了 Kolors 与市面上常见的 SOTA 级别的开源/闭源系统的文生图结果，并进行了人工评测和机器评测。

邀请了50个具有图像领域知识的专业评估人员对不同模型的生成结果进行对比评估，为生成图像打分，衡量维度为：画面质量、图文相关性、整体满意度三个方面。Kolors 在整体满意度方面处于最优水平，其中画面质量显著领先其他模型。

同时，采用 MPS (Multi-dimensional Human preference Score) 来评估上述模型。以 KolorsPrompts 作为基础评估数据集，计算多个模型的 MPS 指标。Kolors 实现了最高的MPS 指标，这与人工评估的指标一致。

对比来看Kolors 的编码器对中文支持最好，基于SDXL模型架构，并融合了ChatGLM256技术，以增强双语理解和文字生成能力。

Kolors 展示了理解复杂中文文本的强大能力。可以观察到，Kolors 在使用 GLM 时，在多个主题和详细属性上表现良好。相比之下，使用 CLIP 的 Kolors 则略差，并且底部提示中的颜色也存在混乱。

同时，Kolors 展示了强大的图片上对于文本的渲染能力，对中英文处理的很好，甚至还有书法。

本地部署（显存要求约19G）

官网使用

官网链接：https://kolors.kuaishou.com/

提示词测试：

一对年轻的中国情侣，皮肤白皙，穿着时尚的运动装，背景是现代的北京城市天际线。面部细节，清晰的毛孔，使用最新款的相机拍摄，特写镜头，超高画质，8K，视觉盛宴