2025 AI下半场实录:数据如何从“配角”翻身做“导演”?

关注
在AI和数据的双轮驱动下,千行百业正在经历一场由量变到质变的飞跃。

2025年,AI行业正在经历一场从“炫技”到“落地”的深刻转型。在这个过程中,数据的角色发生了根本性逆转——它不再仅仅是业务的记录者,而是成为了智能体的能力之源。

12月11日,由北京市通州区人民政府主办,通州区经济和信息化局、通州区台湖镇人民政府承办的第二届ADD数据应用场景大会在台湖隆重举行。作为全国首个“数据基础制度先行区”的核心承载地,台湖再次站在了数字经济的聚光灯下。本届大会以“AI推动进化,数据定义未来”为主题,汇聚了来自政、产、学、研、投各界的数百位领军人物。

在大会的台湖会客厅环节,勾正科技商业化总监李蔚文担任主持,与首通智城副总经理常向魁、和气聚力联合创始人成硕、跨维智能联合创始人解锐、整数智能中国区总裁潘剑宜、普华永道中国科创与民企服务主管合伙人张勤,围绕“AI新场景,数据新动能”,探讨了数据的角色转变、垂直场景的商业闭环以及2025年AI创业的估值逻辑。

d342e1ba5g614550debcc15a1b02f508_01.jpg

以下为现场演讲/对话内容,经创业邦整理后发布:

李蔚文:2025年大家会发现AI已经不满足于聊天,开始深入物理世界和业务流。结合各位的经历,数据的角色在今年发生了什么根本性变化?

常向魁AI和数据已从过去的“配角”真正变成了“主角”。2025年,我们团队重点在城市治理、民生服务、产业发展三大领域取得了重大突破。比如数字人已能胜任产业服务问策和文旅导览。这一切的基础是数据,精准的数据是确保算法达成目标的关键。可以说,2025年正是在AI和数据的双轮驱动下,千行百业正在经历一场由量变到质变的飞跃。

成硕:数据的角色已从“助力”进阶为“赋能”。在教育场景下,这主要体现在两个维度的转变:一是从“批改”走向“教学”。除了将自动批改准确率提升至媲美老师的水平,也就是98.5%的准确率,我们更看重教学提质。比如老师在通过平台拿到数据之后一键督导学生与AI互动学习错题,批量对学生进行个性化辅导,延申老师无法个性化辅导的能力;对学生来说,我们也可以实现费曼学习法之下的学生讲题,让AI来吸收和反馈,延伸了学生自身的学习能力。二是从“课后”延伸至“课堂”。以作文课为例,老师现在可以通过拍照实时上传学生片段作文,AI即时分析并在大屏呈现全班讲评数据。这让针对性的当堂指导成为可能,完成了传统教学无法实现的实时反馈。

解锐:作为技术创业者,我感受到数据的角色发生了翻天覆地的变化。在前两年的大数据时代,数据的作用是帮我们“找规律”,为分析决策提供依据;但到了AI时代,数据变成了“能力的来源”。AI工具的能力完全来自数据,它不可编程、不可参数化设置,你喂给它什么质量的数据,它就长出什么质量的能力。

从发展脉络看,AI正从大语言模型走向多模态和3D AIGC,应用端也从人脸识别、自动驾驶进化到了具身智能。具身智能是技术的集大成者,它融合了负责交互决策的“大脑”、空间感知能力以及负责运动控制的“小脑”。

这导致了巨大的数据瓶颈,具身智能需要大量3D空间与对象交互的数据,其复杂度比传统数据高出几个维度,传统采集和标注方式难以支撑。因此,行业迫切需要利用3D AIGC的方式去造数据,通过生成式手段解决这一难题。

潘剑宜:我从数据服务商的角度补充三点变化。首先,数据生产已经从劳动密集型转向了知识密集型。以前是简单标注,现在我们需要博士、研究生级别的专家来构建高质量数据集,因为AI需要比模型更聪明的人类来教它。其次,数据维度正在升级。从一维的语言模型,到二维的文生图/视频,现在正演进为三维的物理世界交互。最后,要跟产业还是结合。随着AI从Chatting模式向Reasoning和Agent模式演变,我们对数据的需求也从简单的对话语料,变成了对操作步骤、决策逻辑的深度理解。

张勤:我在咨询服务中看到,数据正从静态的存档档案变成驱动价值的核心要素。我们帮助客户把全球子公司的合规数据整合成集,用AI建立监测模型,不仅将人工成本降低了90%,更将事后核查变成了事前预警。

在宏观共识之外,主持人李蔚文针对每位嘉宾所在的细分领域,进行了深度的一对一追问。

李蔚文:我们先从解总这里开始。大家都知道 Sim-to-Real(仿真到现实)很性感,但很多公司只停留在 Demo 阶段。跨维智能已经把该领域真正实现了规模化、商业落地,这是如何做到的?

解锐:创业需要一些“偏执”。早在十年前,我们就坚信Sim-to-Real是可行路径。2021年公司成立时,我们做了一个非常极致的尝试:完全摒弃真实数据,用100%的合成数据来训练AI模型。

这意味意味着不需要去现实中采集数据,也不需要人工标注。既然数据是生成的,我们就是这个虚拟世界的“造物主”,标注自动产生且零误差。事实证明,我们用纯合成数据训练出的模型,在工厂客户那里达到了“3个9”以上的可用率。

对于具身智能,如果不在Sim-to-Real下功夫,就无法解释海量训练数据从何而来的问题。我认为机器人应该在仿真空间里把任务训练好,再复制到真机上,而不是让一堆机器人在真实场地里费力地训练。

李蔚文:刚才解总提到他在“创造世界”,而整数智能的角色更像是这个世界的“高精地图绘制者”或“造产者”。潘总,从您的视角来看,目前阻碍具身智能真正爆发的数据瓶颈到底在哪里? 整数智能是否有相应的解决方案?

潘剑宜:解总是在“创造世界”,我们则是帮大家“理解世界”。针对具身智能,我们看到数据呈现金字塔结构:底层是互联网上的海量视频,用于预训练;中间层就是解总提到的3D仿真数据,这在目前非常稀缺,是上帝视角定义的物理规则;顶层则是真机数据。

整数智能目前的一个重点是4D数据标注。我们在3D空间的基础上加入了时间轴序列。因为无论是端到端的智驾模型,还是具身智能大脑,都需要理解物理原理中的因果关系——即理解上一个时间点的动作对下一个时间点的影响。

李蔚文:我们将目光转向应用层。成总,在中小学教育这样一个对容错率要求极低的场景里,数据扮演着怎样的角色?据了解和气聚力每周的文本大模型用量高达150亿 token,这么庞大的算力主要应用在哪些具体环节?

成硕:数据的角色不仅仅是后台的支持者,更是前台的辅助者,数据有了AI的加持,成为真正的co-pilot。作为一家技术应用型公司,我们每周的Token消耗量平均达到150亿,高峰期甚至能达到200亿。这巨大的消耗背后,是我们服务的全国近1万所学校,以及由此累积产生的20亿条真实考试与作业场景的高质量标注数据。我们的产品贯穿了课前、课中、课后的教学全环节,比如在课堂上,老师可以用手机对学生的作业进行拍照,AI在几秒钟内完成批改和数据分析,实时投屏呈现全班的知识点掌握情况,这让老师能当堂进行针对性讲评,而不是像以前那样只能等到课后改完作业再分析。这就是数据支撑下的精准教学。截至目前,我们AI作文的单日批改量达到8万篇,AI作业的单日试题批改量达到3800万道。

李蔚文:常总,现在全国都在推行“数据要素X”行动,首通智城作为排头兵一直在探索数据的价值化。但我们知道城市数据往往规模巨大且非常零散,如何把它变成可交易、可定价的产品?这中间的难点在哪里?

常向魁:作为通州副中心智慧城市的建设者,我们将数据价值化分为三步:第一步是统一采集,目前我们支撑了全区70亿条数据的采集,构建了数字孪生底座,支撑水务、城指、园林等行业应用。第二步是开放共享,根据行业具体需求,进行授权式的横向开放与共享。第三步是最关键的价值运营。城市数据往往规模大且零散,难点在于如何将其变成可定价的产品。我们正在尝试将数据资源化、资产化甚至证券化。通过精准分析,数据不仅能优化产业园区的生产环节,还能通过资产入表和资本化操作,为城市建设提供资金杠杆,实现“数据回血”。

李蔚文:这个问题想请张总来回答下。我们知道以前Demo炫酷就能拿到钱那么2025年,我们应该怎么评价一家AI创业公司?会更看重哪些方面?

张勤:在我服务客户和与投资人交流的过程中,我认为评价一家AI企业的核心标准其实很简单:有没有客户愿意为你买单。这背后代表着你是否解决了真正的痛点,并提供了持续价值。具体我会关注三个维度。首先,企业必须建立数据的护城河。光有技术是不够的,如果只靠公共数据无法长久,你必须拥有专属的数据网络、数据回馈闭环以及良好的治理环境。其次,是对行业场景的深度理解。你必须深入了解行业痛点在哪里,才能给出适配度极高的解决方案。最后,方案的可解释性与合规性至关重要。这是赢得大客户信任的前提,如果数据伦理存疑或模型无法解释,是很难获得市场认可的。总结来说,就是从数据优势到场景理解,最终都要落实到可量化的商业回报上。

李蔚文刚才大家都提到了变现和场景,但很多时候客户并不理解底层技术,中间存在很长的认知鸿沟。大家能不能简短聊一聊,在当下的环境中,该如何平衡技术创新的高投入与客户预期的性价比?

常向魁:定价可以多元化。除了直接成本和间接成本,还要考虑品牌溢价和数据赋能带来的隐性价值,企业通过数字化转型,带来的提质增效、降本开源,数字化技术通过优化生产工艺降低看得见的直接成本,利用市场化的渠道扩大收入来源,增加企业的实惠收入。

成硕:研发投入的关键不只在数额,更在于方向。是训练大模型还是调API,核心要看能否帮你沉淀行业Know-how并建立数据壁垒。至于管理客户预期,鉴于很多客户对AI抱有“万能”的幻想,不妨直接利用现有基座模型或产品原型让他们上手体验。这种方式成本低,也能最有效地让客户感知技术边界,从而对齐需求。总结而言,要从平衡到融合,在AI时代让客户参与到技术创新当中。

解锐:融资是为了保住技术的前沿性,但商业落地必须务实。所谓的先进技术,如果不能比老技术更便宜、更好用,那价值何在?客户理应享受更低价的优质服务。虽然目前具身智能处于特殊的机遇期,部分大企业愿意为创新支付溢价,但这绝不是常态,最终还是要回归商业本质。

潘剑宜:数据的价值是动态变化的,应该由市场定价。就像我们浙江人做生意一样,要看客户需求。数据的价值是会随时间衰减的:一开始稀缺时有溢价,一旦大模型学会了,价值就迅速缩水。为了把握最前沿的需求,我们构建了类似Hugging Face的开源数据社区。同时,我们通过制定测评标准来定义数据的优劣,比如我们做的OmniDocBench最近就被 DeepSeek引用,这也是确立行业地位的好方法。

张勤:我的建议是,从你最熟悉的领域开始,先做小规模投入,验证可行性后再放大。不要盲目铺开,要基于自己的历史积累构建护城河。

李蔚文:最后一个问题。创业是一场长跑,需要好的土壤。台湖作为数据先行区,兼具政策与场景。请大家用一个关键词来描绘你们心目中理想的“AI+数据”创业特区应该是什么样子?

张勤:我的关键词是“四有”,要有政策托底,有数据可用可流通,有场景可触及,有生态可依赖。

潘剑宜:我就用一个词:创新。希望数据先行区能真正发挥先行示范的创新引领作用。

解锐:多领域体系的融合。这不仅包括存储、算力等基础设施的融合,还包括应用场景与高端人才的融合,当然,还需要一个舒适优美的物理环境。

成硕:我希望在政策和场景之上,构建一个更丰富的应用生态,让更多上下游企业间能有更多像今天这样的交流机会。

常向魁:我们的关键词是“天时、地利、人和”。政府支持赋予了政策的天时,优越区位提供了产业空间的地利,聚集的数据人才是人和。汇聚这三大要素,我相信未来在算法、算力和数据建设上,我们与台湖的合作必将更加紧密。

反馈
联系我们
推荐订阅