12月11日,由北京市通州区人民政府主办,通州区经济和信息化局、通州区台湖镇人民政府承办的第二届ADD数据应用场景大会在台湖隆重举行。本届大会以“AI推动进化,数据定义未来”为主题,汇聚了来自政、产、学、研、投各界的数百位领军人物。

在大会的台湖会客厅环节,百分点科技总裁高体伟、数据堂首席运营官何鸿凌、合合信息智能解决方案事业部总经理李明、天娱数科首席数据官吴邦毅、云迹科技副总裁谢云鹏,由创业邦副主编主持,围绕《AI重塑产业场景,数据赋能智创未来》展开主题对话,现场金句频出:
1. 当前最大的挑战不再是“有没有模型”,而是“有没有好用的数据”。如何将企业杂乱无章的原始数据,转化为大模型可用的高质量养料,成为关键。
2. AI数据需求正从过去通用化的、用于训练基础模型的需求,变得越来越专业化,聚焦于垂直行业的深度训练。
3. 推动具身智能与空间智能发展的核心,在于推动数据本身的发展。在未来很长一段时间里,数据都将是不可或缺的基石,它属于新一代的基础设施建设。
以下为现场对话内容,经创业邦整理后发布:
主持人:今年有一个普遍共识,就是大模型和AI技术正在“脱虚向实”,进入产业深水区。请大家结合自己的业务,聊聊在2025年,各位看到的AI创新应用具体有哪些?同时,又面临哪些实际挑战?
高体伟:主持人刚才提到的两个关键词“脱虚向实”和“深化应用”,我深有感触。今年大模型发展的关键,已从追求参数规模转向了场景的深化——而深化的核心在于数据。数据已从过去的配角,变成了今天这场战役的主角。
因此,当前最大的挑战不再是“有没有模型”,而是“有没有好用的数据”。如何将企业杂乱无章的原始数据,转化为大模型可用的高质量养料,成为关键。这也是我们百分点科技重点投入的方向。我们把服务上千家客户积累的数据治理经验与工程师知识,沉淀进我们自研的大模型,目标是用AI技术来生产AI所需的高质量数据。通过构建对话式数据治理体系,或者说AI数据治理团队,在杂乱数据和模型所需的高质量数据之间,搭建起一条智能化的管线,从而系统化地应对这一挑战。
何鸿凌:我们公司主要为AI企业提供服务。从我的观察来看,今年一个明显的趋势是:AI数据需求正从过去通用化的、用于训练基础模型的需求,变得越来越专业化,聚焦于垂直行业的深度训练。
以前,大量的需求还是通用性的,比如语言、图像数据,行业属性不强。但从去年底开始,大家已不满足于通用领域,开始向高阶和专业化演进。比如,以前做试题数据,可能K12级别的就足够了;而今年,需求已经上升到大学、研究生乃至竞赛级别的语数英、物理化学试题。
但这仍属于服务基础模型的范畴,真正的挑战在今年下半年。随着AI“脱虚向实”和在各行业深度落地,它已不仅仅依赖基础模型的通用能力。因此,我们现在面临的是高度垂直、甚至冷僻的专业数据需求。例如,工业领域的稀土加工、航天领域的控制与调度,或者化学领域中非常细分的“地球生物化学”数据。
这种趋势对AI发展是好事,但对数据供给方却是巨大挑战——它意味着数据的稀缺性,以及能生产这类数据的专业人才的稀缺性。如何获取和构建这些高质量、高专业度的数据集,是我们当前必须应对的难题。
李明:作为一家多模态文本智能技术厂商,我们核心的AI OCR技术正在帮助各行各业走向数字化、实现AI Agent的场景落地。在服务超过1000家企业数字化转型的过程中,我深刻感受到:全面拥抱数字化与AI,已成为企业提升未来竞争力的必经之路。
但在落地过程中,企业普遍面临一个关键问题:尽管数据很多,可用数据的比例却不高。这往往是因为数据结构化不足、准确性不够、标准化不统一。我们正通过AI OCR能力,有效帮助客户解决多模态数据与数据结构化的难题。
除了技术问题,企业还面临政策合规的挑战,比如数据隐私保护和跨境流通限制;以及内部组织架构的阻碍——缺乏统筹数字化建设的核心负责人,数据分散在不同部门,“部门墙”现象严重。这些内外部因素都给数字化落地带来很大困难。
作为科技公司,我们始终在利用AI能力,持续帮助企业应对这些挑战,推动数字化真正落到实处。
吴邦毅:今天我想分享一个核心思考:AI,包括今年很热的具身智能,究竟在我们的生活中扮演什么角色?大家应该都有体会,早期的AI或具身智能主要替代重复性劳动;而现在,随着智能化提升和数据量增长,AI已成为我们日常决策的伙伴。不过即便如此,它依然处于被动状态——需要我们去主动提问。
所以下一阶段的关键是,让AI(无论是具身智能还是其他形式)能够主动感知世界、主动为我们解决问题。这就回溯到了数据问题上。
我们一直在做空间智能大模型,目标是让机器人更智能地理解物理世界。我之前与斯坦福的李飞飞博士探讨过:如何让AGI真正实现工业化、进入家庭?这需要一个递进的过程。要实现AGI工业化,就必须有空间智能大模型的支持。
目前主流的大模型仍以文本为主,其数据规模大约在50-100T,已基本涵盖人类文字数据。但这个量级远远不足以支撑具身智能和空间智能的发展。要让空间智能大模型变得更智能,必须依赖丰富的多模态数据——不仅是文本和语音,还包括视频、空间和3D数据等,这些都至关重要。
因此,推动具身智能与空间智能发展的核心,在于推动数据本身的发展。在未来很长一段时间里,数据都将是不可或缺的基石,它属于新一代的基础设施建设。
谢云鹏:今年大家都在思考:具身智能在具体场景中究竟能创造什么价值?从我们云迹做服务机器人多年的经验来看,这个价值最终要落在“服务”两个字上。
那么,什么是好的服务?是无微不至,还是保持距离?其实并没有统一标准。我们认为,真正好的服务,是懂你的服务——它能在千人千面的情况下,理解每个人的真实状态与需求,并提供相应服务。
过去十年,我们已在超34000家酒店落地,去年完成了5亿次机器人服务。如何把服务从千篇一律的配送,升级为千人千面的精准服务?这不能只靠具身智能替代简单重复劳动,而必须让它参与到前期的感知、认知与决策中,才能实现精准执行。
因此我们认为,未来智能体的趋势一定是“具身智能”与“离身智能”的结合。离身智能负责感知、认知和决策,这需要打通各类社会数据才能真正理解客户需求——包括吴总提到的物理世界模型,这点非常关键。而具身智能则负责最终的物理执行。
举个例子:如果我说“想喝杯咖啡”,最懂我此刻在什么时间、什么空间下具体想喝什么咖啡的,应该是离身智能。一旦需求明确,就可以由具身智能完成制作,再由机器人递送到我手中——这才是从需求洞察到服务闭环的完整过程。
所以说,数据的重要性恰恰体现在具身智能与离身智能的结合点上。只有通过数据,未来的智能体才能实现真正个性化、精准的懂你服务。
主持人:谢谢大家的精彩分享,请问高总。目前政企数字化的大背景下,叠加人工智能的转型需求。您认为在AI时代,客户有哪些新的需求变化?如何确保AI服务的安全合规?
高体伟:结合今天大会的主题,我看到政府管理决策正发生重要转变。过去决策主要依赖经验、有限信息或层层上报的报表;而现在,通过全域感知、实时数据收集与模型优化,决策模式正从事后响应转向事前预警与事中调整,从追求局部最优转向全局最优。决策流程也从固定化走向柔性化、实时化,这是政企领域最显著的变化。
如何让AI变得可信、可用而非“黑箱”?我们在实践中总结了四个关键:确保数据可信、模型可信,实现流程可控与合规可控。通过这四方面的协同,才能构建出真正适合政企场景的可信AI系统。
主持人:感谢高总,接下来请问何总,高质量数据是近两年的重点,数据堂在数据行业也耕耘很多年了,请您分享下,为什么高质量数据忽然成了热点,高质量数据有哪些战略价值?
何鸿凌:关于高质量数据,我观察到其内涵已因大模型发生了根本性变化。我们公司从机器学习时代发展至今,过去的模型主要在感知层面,判断标准是客观的——比如语音转文字是否准确、情感分析是否贴合标注。那时的数据质量高,意味着模型能准确复刻标注结果。
但大模型带来了根本不同。现在的模型具备了推理能力,输出带有主观性,传统的客观评判标准已不再适用。我们常会遇到模型推理过程错误却得出正确结论,或者推理看似合理结果却错误的情况。
随着大模型进入各行各业,其推理质量直接影响决策,这使得数据评估变得异常复杂。因此,我们现在必须从新的维度定义高质量数据:不仅要核查最终结果,还要追溯推理逻辑是否合理;需要进行一致性校验;必须检测数据是否被潜在投毒或含有偏见;最后还需通过专业评测集进行多维度验证。
正是这种评估方法的根本性转变,使得高质量数据在今天如此关键——它直接影响着千行百业的决策,而不再只是辅助客观判断的工具。
主持人:接下来想请教李总:在许多传统企业中,海量的纸质或图片文档长期沉淀在内部,难以访问和利用,行业常称之为“暗数据”。您认为企业应当如何有效挖掘这类暗数据的价值?
李明:我们合合信息的AI OCR技术,核心就是帮助企业唤醒各类沉睡的非结构化数据。通过多年在OCR算法上的积累,并结合大语言模型的能力,我们现在能一站式解决企业与个人在文档处理上的多样化需求。
这其中涉及多项技术环节。例如,面对非结构化文档,我们首先进行样本标准化预处理,包括去除复杂背景、曲面校正、文字增强与锐化等,以此大幅提升后续结构化的效果。在业务流程中,企业常有海量文档自动分类的需求,我们的分类引擎能快速识别文档类型并自动归类,进而精准提取关键字段。
此外,很多业务文档是混合型的——一份PDF里可能包含多类单据或样本。对此,我们通过AI技术实现智能“拆套”,自动分离不同页面并分别处理。针对日益增多的“非标”文档(如无固定版面但要素复杂的教材、论文),也能处理其中复杂的数学公式、化学式等内容,将其结构化后提供给大模型进行训练。
基于这些能力,我们已打造了TextIn平台,全方位解决各类文字识别与结构化问题。目前,国内超过一半的头部大模型厂商,在模型训练与语料萃取环节都在使用我们的服务。我们的愿景,是通过AI OCR技术助力全球各语种、各类型文档的结构化与数字化进程。
主持人:请问吴总,空间智能对于未来数字人以及机器人产业的发展,具体会起到怎样的关键作用?它的核心价值体现在哪里?
吴邦毅:空间智能之所以关键,在于它是AGI最终支撑工业化落地的递进与桥梁。
我们天娱数科在具身智能领域,专注于“感知”和“大脑”这两个核心板块。在这个过程中,我们发现了一个普遍的行业痛点:目前,无论是市面上各种形态的机器人、智能体还是大模型,各家生成和训练的数据,大多都只能封闭地应用于自己的特定本体上,无法有效迁移和通用。这是一个很大的限制。
同时,训练空间智能大模型所必需的3D数据,目前整体上是非常稀缺的。这正是空间智能成为关键一环的原因——它不仅是感知环境,更是支撑机器人进行决策与执行的核心。因此,我们决定聚焦于基础设施建设,大力投入3D数据集的构建。
目前,全球最大的3D数据集来自Objectverse XL,规模在千万级别。经过近一两年的积累,我们天娱数科的自建数据集已达到百万级规模,正在努力追赶。难点在于,3D数据的采集与传统文本数据完全不同,成本高昂。以往它主要依赖行业从业者、爱好者和影视游戏领域的制作,数据量和质量都远不足以训练大模型。
我举个例子。在技术路径上,早期我们采用ACT(一种Transformer架构)进行模仿学习,通过人员穿戴设备遥操作来让机器人学习人类动作。但采集一个简单的抓取动作,可能就需要10万条以上数据,而当时单条数据的成本高达5到7元,非常昂贵。
技术的迭代带来了转机。特别是随着2024年DeepSeek等工作的验证,我们现在结合仿真平台和强化学习进行后训练,这极大缓解了对海量真实数据的依赖。我们现在采用“数字数据”(仿真生成)与真实数据结合的方式,能够大幅降低数据成本。
所以,回到主持人的问题,空间智能对于数字人和机器人产业的价值,我认为它扮演的是“大脑”级的角色,是具身智能实现自主决策与行动非常关键的一环。
主持人:感谢吴总。请问谢总,云迹科技最近提出了一个“机器人口红利”的概念,认为机器人不仅是提供服务的劳动力,更是离实际场景最近的数据终端。能否请您具体分享一下,这些由机器人沉淀下来的数据,是如何反过来滋养业务,并形成云迹科技独特优势的?
谢云鹏:现在人口红利在逐渐消失,我们认为下一个红利是机器人口红利。因为人生产人的成本越来越高,而人生产机器人的成本正越来越低,并且随着规模增长,成本还会进一步降低。马斯克也曾预测,未来机器人的数量一定会超过人类——物联网设备的数量其实已经远超人口总量,我们虽然无法确定这会是5年还是50年后,但相信这是一个必然趋势。
因此我们提出了“机器人口红利”这一概念。关于数据如何反哺机器人服务,这正是我们持续思考的方向。我们希望把具身智能与离身智能结合起来,尽可能精准地掌握客户在客房内所产生的需求与信息,从而让机器人提供更准确、更符合人期望的服务。
目前在酒店场景中,很多用户需求其实存在,但可能被掩盖或未被激发。机器人服务与人相比有显著差异:比如在配送物品时,客人面对人可能会因衣衫不整或未化妆而感到不好意思,但对机器人就不会那么羞怯。我们最近甚至遇到一位客人,在用机器人送水时,特意留言让机器人对他说一句“一切都会好起来的”。这类需求,人们可能更愿意向机器人提出。
所以,我们认为未来如果能更精准地把握这些客户需求信息,机器人就能提供更切实、更保护隐私、也更具人文关怀的服务。这是我们的核心想法。
主持人:今天我们的话题始终围绕数据,而台湖正是国家数据基础制度先行区——所以最后一个问题,请大家每人给台湖送上一句话的寄语。
高体伟:听了领导对台湖的介绍,我觉得这里非常有特色。在未来的发展中,首先要找准自己的长板和独特定位,通过制度设计来牵引产业和技术落地。具体到执行层面,从我的角度出发,建议打造“可信数据空间+特色行业智能体”的模式。在这个过程中,可以凝聚行业与人才,基于开放可信的数据生态,把台湖打造成国内AI原生应用的标杆。
何鸿凌:数据先行、模式创新、AI应用落地。
李明:在数据要素快速转化为生产力的进程中,客观来说,现在天时地利人和基本都已具备。无论是制度上的突破、技术的迭代,还是场景的落地,其实都呈现出百花齐放的态势,并涌现出不少标杆案例。关于台湖,我听了相关介绍,这里的产业集群覆盖了算力、场景等多个层面,还拥有自身的核心数据产业园区。基于这些优势,我确实期待能在台湖快速见证数据可确权、可定价、可交易的标杆场景,以及整个数据流通的典型实践,也希望能在这里看到更多案例落地。
吴邦毅:我送上对台湖的祝福——这里必定会成为一个以数据为核心,未来汇聚算力、算法和高新技术人才的区域,希望台湖发展得越来越好。
谢云鹏:好戏连台,以数据科技赋能具身智能的高质量发展。







