数据就是黄金:Al时代的掘金之道

2023-09-06
落地场景赋能行业,需要结构化的高质量数据

8月30日,由创业邦主办的2023AIGC技术应用大会在深圳举行。本届大会以“元载万物·智启新界”为主题,旨在聚焦AIGC技术的创新应用,打造深入探索AIGC产业落地的交流平台。

会上,中科闻歌首席战略官、国际闻歌总裁郭骅,海天瑞声CTO黄宇凯,达观数据CTO纪达麒,春雨医生CTO、联合创始人曾柏毅进行了一场名为《应对策略——AI时代下的数据新机遇》的圆桌对话,圆桌对话由达晨财智合伙人任俊照主持。精彩观点如下:

1.AI时代,数据给企业带来机遇的同时也伴随着技术层面、数据安全以及观念转变等方面的挑战,多模态数据的处理是在线医疗行业发展的关键。

2.针对数据隐私安全问题,首先要对数据级别进行划分,采取不同的处理方式,但本质仍要在隐私合规的框架内执行。

3.打破数据孤岛的难点不在技术,而在人的观念与组织架构方面的障碍。

4.高质量数据获取成本高,因此在内部处理时可以去反过来,不是从数据层,而是从模型端处理,增强其稳定性。

以下为对话内容,由创业邦整理:

任俊照:在AI这个新时代,数据是新的黄金。数据对企业驱动商业的时候,会有什么样的机遇?也会有什么样的挑战?各位分享一下。

郭骅:首先我觉得数据这块概念比较广,没有提炼过的,杂乱无章的、非结构化的数据,它的价值不一定大,怎么样能够把它从这种Raw Data变成真正有用的信息,变成真正能够帮助决策的有价值的数据,这点是比较重要的。

黄宇凯:问题中提到“数据是黄金”,其实说得更多的一个比喻是“数据是石油”。把杂乱无章的数据收集后整理变成结构化的高质量数据,算法模型再从高质量数据中提炼出一些知识,最后落地到场景中去,赋能行业。基于此我觉得是有很多机遇的,就看各企业能不能抓住这样的机遇。

伴随机遇而来的就是挑战。其中一个就是技术层面,有了高质量数据后如何与算法、算力结合,这个过程中也有一些需要克服的难题。第二个挑战是数据的合规与安全层面,大家都能意识到数据的价值,数据的一些确权,特别和隐私相关的一些问题也越来越被重视,包括国家层面也是出了很多的法律法规来规范这件事情。这里面其实对于要想抓住数据机遇的这种企业来说,挑战是不小的。

纪达麒:我也很同意前面两位专家的观点,我再补充几点,首先从机遇来说,基于数据挖掘可以有一些信息来支撑我们做很多的决策。但可能基于刚刚提到的技术上的原因,数据的隐私性问题,数据的实际使用情况并没有太好。另外还有就是我们人的原因,可能很多企业它已经习惯了从上到下传统方式,当我们希望用一种新的方式去改变它的时候,其实大家是有些排斥或者说不习惯的。

曾柏毅:从医疗的角度来说,我觉得这个机遇和挑战都是一个点,多模态。现有的AI或者大模型,它在处理多模态的数据方面其实还是有一些问题的。但在医疗领域,特别是想要获得一个比搜索引擎好10倍的服务体验,基本上来说多模态是必不可少的,所以这里面其实是机遇和挑战并存,就看哪一家能够真的把这个问题给解决。

任俊照:刚才几位嘉宾都有讲到这个数据,关于数据隐私、安全这些问题,我很想问一下像春雨医生,包括达观,就针对数据的这种隐私安全问题是怎么去平衡的?有没有什么经验可以分享一下?

曾柏毅:我们有很多用户患者的数据,这个数据如果你去分的话,它其实也分成几种。一种是高度隐私数据,就是通过这个数据能够推导出这个人;有一些可能相对,你可能没有办法定位这个人,但是如果这些数据泄露出去也不好,比如患病部位照片;还有就是相对来说属于弱一点的隐私数据,比如行为数据、用户偏好。对于这三种不同的数据,它处理方式是不一样的。我们会把强隐私信息全部隐藏,而对其他用户问诊有帮助的一些数据,也倾向于在用户允许的情况下,把它给脱敏公开出来。

纪达麒:我们的做法其实跟刚才曾总也是比较类似的。首先来说其实数据是要分级别的,对能够唯一确定出这个人的数据,我们是能不碰就不碰。如果真需要的话,我们也会进行一些加密处理并给它弄一个ID之类的。其实很多应用挖掘是针对某些群体,挖掘出用户的共同特征,而不是针对某一个人,所以往往是在模型生成最后需要具体接触某一个人的时候才会需要个人信息。在这之前我们已经把它都全转化成ID,到最后真需要使用的时候,也只有极少数人能知道这些数据的真实情况。

任俊照:数据它存在于各行各业,这些数据如果进行协同共享,能产生更大的价值,但其实对我们每个做AI的企业来说可能也是一个非常大的挑战。所以我想问怎么去打破这个数据的孤岛,如何实现行业数据共享?另外国家今年也成立大数据局,这个是不是未来会有利于数据共享的推进?我想问一下这个郭总,你分享一下。

郭骅:中科闻歌做了一些政府的项目,想要打破这种数据孤岛。这个过程中,我们发现,除了技术上的挑战,更多挑战来自于人的观念、组织架构上的障碍。很多技术手段是可以实现数据共享,但在应用层面,不管企业也好,政府部门也好,于观念上面打破各自的壁垒,可能是更难的。

任俊照:因为数据的质量对AI这个算法模型还是很重要的,所以在数据的收集、清洗处理这一块,怎么确保数据的高质量性?黄总你分享一下。

黄宇凯:关于怎么保证这个数据质量,其实海天这么多年来确实有一套我们的经验,分开来讲,其实就是在整个数据生产的三个主要环节里面分别体现出来的。

第一个环节其实是设计环节,这个环节需要我们去理解最终这个算法模型在做训练的时候需要什么样的数据,什么样的结构,什么样的组成方式?这个数据集的分布它的覆盖是怎么样的?第二环节是在这个数据收集或者数据采集的阶段,从各个源头去收集数据的时候,过一个最基本的一个质量阈值,保证数据质量基本能达标。第三个环节是数据处理的环节,在这个环节我们可能需要一个好的平台来规范数据的流转,其次也可以通过模型做一些交叉对比检查来判断数据质量是否达到要求。

纪达麒:这个问题我也来解释一下,为什么我们获取高质量数据这么难?首先从数据收集环节,你的数据可能是来自方方面面的,中间的处理环节就更复杂了,怎样提取到里面最重要又核心的数据?数据分析之后,我们还要保证它持续的一个高质量。最后数据可能会有问题,但是判定它哪个环节发生问题或者收集的数据中哪一些数据是有问题的也是一个复杂的过程。

具体的处理方法我这边也不再多说了。其实我还想再提一个可能大家容易忽视的问题,我们强调高质量的数据,但是在实际的获取过程中,它的成本是很高的。所以我们在内部处理的时候,可以去反过来,不是从数据层,而是从模型端上处理,模型你能不能不要那么多的数据,就能达到比较好的效果,你能不能有一些脏数据,你也可以做得比较好,效果也不差。

任俊照:好,接下来话题我们想问一下海天的黄总,因为你们一直在给很多客户提供各种各样的数据、数据集,像今天这种大模型出来以后,有新的场景需要有新的数据,在这里你们是怎么不断去根据市场的变化来为客户提供有价值的数据的?你们是不是能预测到未来是一个什么样的新的场景,从而反向积累数据?麻烦你分享一下。

黄宇凯:对,我们肯定会投入一些精力去预测,另外,因为我们的客户也是遍布全世界,AI或者互联网企业的巨头基本都是我们的客户,所以在和客户的交互过程中也能获得有价值的第一手资料。这些客户对于前沿场景的预测、以及这些场景里面对数据的要求是什么,对我们来说都是非常宝贵的资料。

任俊照:接下来我问一下达观的纪总。这种大模型出来以后,对你们本身服务客户的这种数据挖掘上面,有没有产生一次新的这种场景,包括新的一次探索,或者是客户会有一次新的这种需求,来反向对你们有所这种诉求?你分享一下。

纪达麒:大语言模型出现之后,我们对原有的一些产品应用做了很大的改进,在文本生成这一块,我们也开始有一些产品上的布局。其实我们公司核心还是做NLP,但我们觉得很多客户数据并没有被充分挖掘,尤其是文本数据。随着大语言模型出现,我们在处理文档这一块的成本降低,或者说它的效率提高之后,未来其实我们是有更多的一些场景文本,可以纳入到我们达观可处理的范围之内。所以我们觉得大语言模型,对于我们整个NLP在企业里面大范围应用还是有比较大的促进作用。

任俊照:未来对于企业辅助决策上面,有没有这种场景创新的可能性?

纪达麒:辅助决策其实就要基于数据来做决策。而数据我们刚才提到说,可能有很多的是我们已有的结构化数据,但其实更大量的是非结构化数据,尤其是文本类数据,如果这些文本数据可以更好、更快、更充分地挖掘的话,就能够有更多的数据来去给我们决策层给予支撑,所以说有这样的一个大模型,对决策来说会有一个很大的帮助。

任俊照:那我们再问一下春雨医生的曾总,AI跟医疗的计划应该是很早就开始了,现在大模型出来以后,AI跟医疗的这种结合,这种探索到底能不能走得下去?

曾柏毅:我们其实在这个大模型出来以后,也聚焦在两个环节的运用,一个是用户体验的提升,另一个是降本增效。用户体验的提升其实我们找到一个场景,可以用这个大模型来去帮助大专家来提前获取用户的一些信息,这样在实际问诊环节专家和患者的沟通就会变得特别的高效。另外其实还有一个场景就是降本增效,即用大模型来做问诊质量的评估。以前我们是靠健康顾问员工和专家团医生结合去解决,现在就相当于把一部分的人力用大模型来去替代。

所以我们看到可能直接去使用人工智能去解决用户的问题,目前来说还比较远,但是它有点像自动驾驶,你可以先做一些自动泊车这样的应用,待时机成熟的时候我们再加强人工智能的应用。


更多活动大会一手信息,欢迎加入创业邦会员,现场聆听一线投资人、头部企业家精彩分享,掌握最新创投趋势!

图片

图片