会写字、懂排版、能分镜：HiDream-O1-1.5 展示全能图像生成能力，电商设计迎来 AI 革命

优企酷·2026-06-11

在生成式人工智能的竞赛中，图像生成赛道正迎来新的挑战者。

在生成式人工智能的竞赛中，图像生成赛道正迎来新的挑战者。近日，智象未来（HiDream.ai）凭借其商用图像生成模型 HiDream-O1-Image-1.5，在国外文生图榜单上斩获 1265 ELO评分，位列中国第一、全球第二，仅次于OpenAI。这一成绩不仅超越了 Google Nano Banana 2（Gemini 3.1 Flash Image Preview）、NVIDIA（Cosmos3-Super-Text2Image）和字节跳动（Seedream 4.0）等巨头的模型，也让外界再次将目光投向中国团队在视觉生成领域的底层架构创新。

从开源登顶到商用霸榜，仅隔半月

就在半个月前，智象未来开源的 HiDream-O1-Image-Dev-2604 刚刚登上同一榜单的开源模型全球第一。如今，商用版 1.5 又快速跻身全榜前三，形成“开源+商用”双线领跑的局面。

“原生全模态”架构：告别模块化拼凑

HiDream-O1-Image-1.5 的技术核心，是其原生全模态架构 Unified Transformer（UiT）。与传统文生图模型常见的“文本编码器+VAE+扩散模型”模块化路径不同，UiT 从底层将图像像素、文本 Token、视频体素以及音频、动作、空间关系等原始信号映射进同一个共享 Token 空间，由同一套 Transformer 完成理解、生成和推理。这意味着模型不再需要在不同模态之间反复转换信息，从而在文字密集排版、多主体生成、分镜叙事等复杂任务中显著减少了细节损耗和语义错位。

智象未来也是业内首家将这一架构从“技术验证”推进到 “生产验证” 的公司。开源版证明了路线的可行性，商用版 1.5 则在广告营销、电商视觉、影视分镜、IP 创作等真实商业场景中展现出强交付能力。

不只是“画得好看”：会写字、懂排版、能分镜

评测数据显示，HiDream-O1-Image-1.5 并非只在单一维度上表现突出，而是在多个应用场景中同时具备竞争力：

人像与动物摄影：在皮肤质感、皮毛细节、复杂光影和水下折射等场景中保持摄影级真实度，肢体比例和空间透视稳定。

电商海报：能够将商品、场景、装饰元素与中英文营销文案自然融合，即使在多层级卖点和复杂排版下，文字可读性和画面完整度依然出色。

IP形象设计：围绕同一角色生成多角度视图和多种情绪表情，保持五官、发型、服饰的高度一致性，可显著提升角色三视图开发效率。

多宫格/分镜设计：可生成逻辑连贯的连续画面，并自动维护角色、场景与视觉风格的统一，支持影视分镜、漫画创作和广告脚本的快速视觉化。

多层次文字渲染：在中英文混排、数字公式、图表信息和多级标题等复杂需求中，仍能保持较好的可读性与版面稳定性，拓展了教育培训、办公协作等场景的实用价值。

对比谷歌Nano Banana 2：复杂中文与光影细节胜出

日前，有博主发布了一组图片，将HiDream-O1-Image-1.5 与 Google 的 Nano Banana 2（Gemini 3.1 Flash Image Preview）进行了直接对比。其中一个 Prompt 要求生成“中国白酒奢华电商海报”，需要在羊脂玉瓷瓶表面浮雕一首八句中文古诗，文字内部镶嵌金箔，并配合黑板岩、浅水池、焦散光影和盆景松树等复杂元素。结果显示，HiDream-O1-Image-1.5 在中文文字的准确渲染、金箔材质的金属光泽、以及水面焦散光效上都明显优于对手。另一组“好奇小猫探索童话花园”的提示中，其花朵的层次感、光影的柔和过渡也获得用户更高偏好。

从图像生成到“世界模型”的入口

智象未来的长期目标是构建原生全模态世界模型。其认为，一张图像承载着现实世界某一时刻的主体、空间、材质、光影和关系——只有稳定理解并生成这些状态，模型才能进一步处理连续时间中的运动、因果、镜头和叙事。HiDream-O1-Image-1.5 的表现证明了 UiT 架构的可扩展性，也为后续多图一致性、视频首帧生成乃至长视频生成提供了更稳定的底层能力。

目前，HiDream-O1-Image-1.5 已在官方平台 vivago.ai 和 hiharness.ai 开放体验。开源版本也已在 GitHub 和 Hugging Face 上线，供开发者下载使用。

从依赖“更大参数”和“更美画面”的旧竞争，到由架构能力、生产效率和工作流价值共同决定的新阶段，HiDream-O1-Image-1.5 的登顶不仅是中国大模型企业在全球顶级赛道上的一次亮剑，也印证了原生全模态路线作为下一代多模态模型底座的可行性。对于内容创作、商业营销、影视制作等产业而言，一个能够“理解图文、掌控排版、叙事分镜”的 AI 生成工具，或许正在重新定义视觉生产力的边界。