|

魅力自贡网
2000活跃值=1元

首页 > 科技视界 > 科技视界 > 通义千问首个文生图模型开源：破解AI图像生成“写字”难题，复杂中英文渲染效果惊艳

通义千问首个文生图模型开源：破解AI图像生成“写字”难题，复杂中英文渲染效果惊艳

发布时间：2025-08-05 22:14:44来源： 13966578800

8月5日，通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image，这是通义千问系列中的首个图像生成基础模型，在复杂文本渲染和精确图像编辑方面进展显著。

该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现。

在多个公开基准测试中，包括GenEval、DPG、OneIG - Bench（通用图像生成），GEdit、ImgEdit、GSO（图像编辑）以及LongText - Bench、ChineseWord、TextCraft（文本渲染）等，Qwen-Image在各类生成与编辑任务中均获得SOTA。

通义千问首个文生图模型开源：破解AI图像生成“写字”难题，复杂中英文渲染效果惊艳

在性能表现上，Qwen-Image能在不同场景中实现高保真文本渲染。例如，在海报制作中，它不仅能准确展示海报风格，还能保留人物姿势和神态刻画，准确生成指定的中英文文字；在分模块案例中，能完成排版并生成各部分的图标、标题和介绍文本；除此之外，即使纸张面积小且段落文字长，也能准确生成文字，还可在双语间灵活切换。

同时，Qwen-Image 在通用图像生成方面支持多种艺术风格，从照片级写实到印象派绘画，从动漫风格到极简设计，能灵活响应创意提示。

通义千问表示，希望Qwen-Image能进一步推动图像生成领域发展，降低视觉内容创作技术门槛，激发更多创新应用可能，同时期待社区积极参与和反馈，共同构建开放、透明、可持续发展的生成式AI生态。

目前，该模型已在魔搭社区与Hugging Face开源。

【返回列表】

特别声明：以上内容(如有图片或视频亦包括在内)为“魅力自贡网用户上传并发布"，本平台仅提供信息存储服务。

科技视界更多>>

宝马电动M3将提供多款经典发动机模拟声浪可切换V8与V10音效特斯拉美国完全自动驾驶系统交通违法调查案获五周延期回应时间阿根廷首次迎来大批中国电动车入境宝马电动版 M3 搭载模拟发动机声浪：其技术源头大揭秘 5000台新车集中交付，奇瑞汽车与一嗨出行达成战略合作轻舟智航智驾上车量突破百万台，26年还将有50款新车上市！加拿大“放行”中国电动车，谁是最大受益者？丰田确认研发全新中置引擎跑车 IDC：2025年Q4 vivo中国市场出货1200万台，中国品牌排名第一 IDC：2025年Q4荣耀手机中国市场排名第5 海外出货量同比增长约55% 极氪法务部就车友活动不实信息发布严正声明：坚决追究造谣者法律责任鸿蒙智行尚界Z7道路测试视频首曝：溜背造型、车长或超过5米 DeepSeek大量招人，该梁文锋上场了赵长江：自己天天学习华为，最大的挑战“在于我自身” 可灵AI 12月收入超2000万美元，ARR突破2.4亿美元新年换机大战打响，天玑9500靠“体验质变”撬动高端市场华为Pura 80系列到手即可体验鸿蒙 6，智能体验全面升级 2025换新机建议一步到位，都是16+512GB超高性价比，年轻人“最爱” CES 2026即将开幕：机器人、AI眼镜，哪些黑科技将引领未来？曝豆包AI眼镜即将进入出货阶段需配豆包APP使用何小鹏：下个月进入全新一代量产机器人的“ET0”阶段 VI-grade中国零原型（ZPS）实验展示中心在上海正式启动鸿海科技日：鸿华先进展示搭载TomTom技术的语音AI导航体验工信部公示人形机器人标准化技术委员会委员名单：王兴兴、彭志辉等人在列血氧、心率监测数据将更精确智能手表这一技术取得新突破田渊栋、卡帕西力荐Nano Banana新玩法：论文变漫画、手写解题以假乱真，谷歌这波赢麻了阿维塔董事长王辉：明年4款新产品密集推出，是一场硬仗联想CFO郑孝明：正囤积PC内存，不会向客户转嫁成本小鹏X9超级增程定价背后的战略逻辑：一场“艰难决定”与规模化破局部分车辆出现App离线、远程控制功能不可用，极越汽车回应

Copyright 2014-2025 魅力自贡网版权所有京ICP备15125667号