首页 > 科技视界 > 科技视界 > 通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳

通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳

发布时间:2025-08-05 22:14:44来源: 13966578800

 8月5日,通义千问官方宣布开源一个20B的MMDiT模型Qwen-Image,这是通义千问系列中的首个图像生成基础模型,在复杂文本渲染和精确图像编辑方面进展显著。

该模型具备卓越的文本渲染能力、一致性的图像编辑能力及强大的跨基准性能表现

在多个公开基准测试中,包括GenEval、DPG、OneIG - Bench(通用图像生成),GEdit、ImgEdit、GSO(图像编辑)以及LongText - Bench、ChineseWord、TextCraft(文本渲染)等,Qwen-Image在各类生成与编辑任务中均获得SOTA。

通义千问首个文生图模型开源:破解AI图像生成“写字”难题,复杂中英文渲染效果惊艳

在性能表现上,Qwen-Image能在不同场景中实现高保真文本渲染。例如,在海报制作中,它不仅能准确展示海报风格,还能保留人物姿势和神态刻画,准确生成指定的中英文文字;在分模块案例中,能完成排版并生成各部分的图标、标题和介绍文本;除此之外,即使纸张面积小且段落文字长,也能准确生成文字,还可在双语间灵活切换。

图片

同时,Qwen-Image 在通用图像生成方面支持多种艺术风格,从照片级写实到印象派绘画,从动漫风格到极简设计,能灵活响应创意提示。

图片

通义千问表示,希望Qwen-Image能进一步推动图像生成领域发展,降低视觉内容创作技术门槛,激发更多创新应用可能,同时期待社区积极参与和反馈,共同构建开放、透明、可持续发展的生成式AI生态。

目前,该模型已在魔搭社区与Hugging Face开源。

科技视界更多>>

宝马电动M3将提供多款经典发动机模拟声浪 可切换V8与V10音效 特斯拉美国完全自动驾驶系统交通违法调查案获五周延期回应时间 阿根廷首次迎来大批中国电动车入境 宝马电动版 M3 搭载模拟发动机声浪:其技术源头大揭秘 5000台新车集中交付,奇瑞汽车与一嗨出行达成战略合作 轻舟智航智驾上车量突破百万台,26年还将有50款新车上市! 加拿大“放行”中国电动车,谁是最大受益者? 丰田确认研发全新中置引擎跑车 IDC:2025年Q4 vivo中国市场出货1200万台,中国品牌排名第一 IDC:2025年Q4荣耀手机中国市场排名第5 海外出货量同比增长约55% 极氪法务部就车友活动不实信息发布严正声明:坚决追究造谣者法律责任 鸿蒙智行尚界Z7道路测试视频首曝:溜背造型、车长或超过5米 DeepSeek大量招人,该梁文锋上场了 赵长江:自己天天学习华为,最大的挑战“在于我自身” 可灵AI 12月收入超2000万美元,ARR突破2.4亿美元 新年换机大战打响,天玑9500靠“体验质变”撬动高端市场 华为Pura 80系列到手即可体验鸿蒙 6,智能体验全面升级 2025换新机建议一步到位,都是16+512GB超高性价比,年轻人“最爱” CES 2026即将开幕:机器人、AI眼镜,哪些黑科技将引领未来? 曝豆包AI眼镜即将进入出货阶段 需配豆包APP使用 何小鹏:下个月进入全新一代量产机器人的“ET0”阶段 VI-grade中国零原型(ZPS)实验展示中心在上海正式启动 鸿海科技日:鸿华先进展示搭载TomTom技术的语音AI导航体验 工信部公示人形机器人标准化技术委员会委员名单:王兴兴、彭志辉等人在列 血氧、心率监测数据将更精确 智能手表这一技术取得新突破 田渊栋、卡帕西力荐Nano Banana新玩法:论文变漫画、手写解题以假乱真,谷歌这波赢麻了 阿维塔董事长王辉:明年4款新产品密集推出,是一场硬仗 联想CFO郑孝明:正囤积PC内存,不会向客户转嫁成本 小鹏X9超级增程定价背后的战略逻辑:一场“艰难决定”与规模化破局 部分车辆出现App离线、远程控制功能不可用,极越汽车回应