5月19日,智象未来在北京以“Imaging the World”为主题举办首届技术开放日,正式发布基于原生全模态架构Unified Transformer(UiT)打造的图像大模型HiDream-O1-Image-Pro。该模型参数规模超过2000亿,在多个基准测试中刷新SOTA纪录,标志着智象未来在图像、视频、文本、音频等多模态统一建模方向上迈出关键一步。

与此同时,智象未来宣布完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本等机构参与。这是公司半个月内再次完成融资,资本市场对其原生全模态大模型方向及世界模型布局持续看好。
架构革新:从“单模态拼接”到“原生融合”
当前图像生成模型正从U-Net向扩散Transformer(DiT)演进,但主流的潜在扩散模型(LDM)仍存在图像与文本分离编码带来的语义理解、细节还原、文字渲染等瓶颈。智象未来此次发布的HiDream-O1-Image-Pro,将原始图像像素、离散文本标记和任务条件统一纳入连续共享标记空间,实现图像、文本与多任务条件在底层表征上的深度融合。
智象未来创始人兼CEO梅涛表示:“很多‘多模态大模型’本质仍是单模态拼接。原生多模态从一开始就把世界的规则刻进模型里——它知道物理定律、空间关系、因果逻辑,能真正理解、推理并重构世界,这是实现AGI的关键路径。”

智象未来联合创始人兼CTO姚霆介绍,此前采用同一架构的HiDream-O1-Image开源版本(8B参数)已在Artificial Analysis文生图榜单上登顶开源模型全球第一,超越Z-Image Turbo、Qwen-Image等主流模型,成为前20名中参数量最小的版本。此次发布的闭源Pro版本拥有超2000亿参数,在复杂文本渲染、指令编辑、多主体个性化等任务上全面树立新SOTA,验证了原生全模态架构的可扩展性。

行业共识:视觉生成是通往世界模型的关键阶梯
开放日圆桌论坛上,来自东方富海、微软亚洲研究院、阿里云等嘉宾围绕“从多模态到全模态,构建世界模型,走向AGI”展开对话。嘉宾认为,AI正从“生成视觉”走向“生成世界”,视觉生成、具身智能、Agent等方向的汇合,核心在于模型能否形成统一的跨模态世界表征。
原生全模态架构的价值,正是为图像、视频、文本、音频乃至动作和具身数据提供统一建模框架,使模型从单点能力走向完整的世界建模能力。这也是智象未来强调“Imaging the World”的深意——不只是生成视觉内容,而是让AI逐步具备理解、生成、构建世界的能力。

资本加速入场:半月内完成多轮融资,阵容日趋多元
不久前,智象未来宣布完成超5亿元融资,投资方包括安徽省产投、合肥产投、东方富海等。开放日上,公司透露融资持续提速,半月内再度完成新一轮亿级融资,深创投、金浦投资、财鑫资本、复聚资本加入。
至此,智象未来已形成由安徽、上海、湖南、杭州等多地产业基金持续跟进,深创投、东方富海、峰华资本、敦鸿资本等头部市场化VC参与的多元化资本阵容。

智象未来采用“模型+智能体”双轮驱动战略,形成“1+1+3”业务架构:底层HiDream系列大模型,中间HiHarness企业服务平台,上层覆盖商业营销、影视创作、社媒创作三大场景的智能体应用。
商业营销智能体HiBurst:覆盖跨境电商、内容营销等场景,已成为TikTok官方TOP5服务商,年生产电商营销视频超百万条。
影视创作智能体帧赞:支持电影级画质生成与“创意-分镜-成片”全流程,已累计制作短漫剧超5000分钟,入驻专业团队超千家。
社媒创作智能体vivago:近日完成升级,支持分钟级故事视频生成,登顶Product Hunt日榜第一,覆盖100多个国家及地区,服务超4000万用户。
开放日现场,智象未来还与上海电影集团上影新视野基金、蓝色光标、北京捷成世纪、倍尔健康等达成战略合作,推动大模型在影视、营销、跨境电商、医疗等行业的产业化落地。







