管住国王——隐私计算

2020-08-13
国王不能进,这句话简显意赅的阐明了一个普世价值观,私人的财产权是一种国家保护的权利。

图片来源pexels

编者按:本文来自六鹰资本,作者Mark Xing,创业邦经授权转载。

“即使是最穷的人,在他的小屋里也敢于对抗国王的权威。屋子可能很破旧,屋顶可能摇摇欲坠;但风能进,雨能进,国王不能进,他的千军万马也不敢跨过这间破房子的门槛。”

与生俱来的数据权利

国王不能进,这句话简显意赅的阐明了一个普世价值观,私人的财产权是一种国家保护的权利。从1995年互联网商业时代的开启,人们一刻不停的在网络上创造着数据。随着互联网大佬们都在讲数据是未来的石油,我们步入了数据时代。中国已通过政府文件,将数据,土地、劳动力、资本、技术并列为五大生产要素。

数据已经成为新经济发展的基石,我们生活中的云计算,大数据,互联网电商,人工智能,互联网广告,智慧城市等,这些应用无疑都是由大量并持续的数据来支撑的。预测2020年,全球数据量将达到50ZB(1ZB=1000的七次方Bytes),其收入规模将超过 500 亿美元。并且还保持着每年20%的复合增长。

面对这样的一大笔财富,我们迎来了一系列新的问题,数据归属谁,如何保存,如何使用,怎么分配利益,怎样才能安全,数据治理的法律法规和操作流程是否透明?

回顾过去20年多互联网的发展历史,我们可以简单发现几个特征,迄今为止,互联网寡头们多是依靠应用和服务去交换个人用户的数据,你使用任何一个互联网App的时候,都先会被要求确认使用协议,那些冗长的条款里其实就一句话,你要使用我们的App服务,我们就要收集和使用你的数据。

安身方可立命

互联网寡头们通过应用服务拿到了我们的私有数据,他们长时间存储我们的数据,对此的解释是将好好替我们保存;互联网企业之间还交易我们的数据,他们会说为了优化用户感受,或者提供更好的服务,开拓更新的领域;更可怕的是,我们的数据总被泄露,从Apple iCloud上的照片泄露,到Facebook上的个人信息被泄露,最近Google plus也出现了数据泄露;川普要封TikTok时的理由是TokTik会泄露美国人的数据隐私,对此Z世代的美国青年高喊"我们还有隐私可以泄露吗?Google和Facebook每天都拿走和泄露我们的数据"

数据安全是现在每个互联网用户最关心的。就算没有得到自己在数据上的收益,但至少不能被坏人拿走,从而利用这些信息去骗取钱财,或者实施伤害和犯罪。仅在2019年数据泄露的前10大事件,就总计泄露了70亿人次个人数据,而这只是重大数据泄露事件的统计,未被统计的数据泄露量,应该远大于此。

数据的蛮荒时代

当前的数字世界处在一个数据的蛮荒时代,无论技术,法规,安全和利益,都充满了野蛮和暴力的影子。没有形成数据社会治理规则,缺乏双方议价机制,无法构成健康有序的市场生态。政府,企业和个人在认识到数据安全的严重性后,都开始尽量的封闭,混淆或匿名自己的数据,从而造成了众多的数据孤岛和大量伪相数据;这种现象的蔓延,造成了以数据为核心基础的各种互联网应用的体验变差,对刚刚兴起的数据产业也是极大的打击。

一个健康的数据产业基础,可以分解成真实可信的数据,安全高效的数据收集方式和存储环境,数据生产者愿意积极参与的数据市场。我们要让海量的数据流动起来,又不让数据泄露,必须给数据生产者合理的价值回馈,才能让数据应用企业可以使用源源不断的优质数据;为了解决这些问题隐私计算应运而生。

隐私计算破局数据困境

隐私计算是在保护数据本身不对外泄露的前提下实现数据分析计算的一类信息技术。通俗的讲,用户把自己的数据存储在自己控制的某个存储设备上,而互联网应用把对应算法发送到这个存储了用户数据的设备,在这个设备内的黑箱里进行被公认的可信计算,并将结果返回给互联网应用。整个过程中,互联网应用无法得到用户的数据,但分享了用户的数据价值。

推动隐私计算发展的还有分布式计算网络和区块链。当用户产生数据的那一刻,就可以使用区块链技术将数据哈希化,同时在分布式网络里形成对数据真实性记录的共识计算;而每一个数据应用的请求,也在分布式网络里被广播,记录,分发,处理和返回结果,基于密码学的机器共识模式,保证数据真实可靠,并保留了数据的上下文继承关系。智能合约可以高效便捷的建立数据应用之间的交叉调用。而数据应用企业也可以通过token化的方式,将未来产生的数据价值,分享给数据的生产者。一个完整的数据产业闭环体系,应该具备在数据收集,存储,计算,交易,利益分享等维度上的平衡。

硬件,密码学与算法

隐私计算当前涉及3个主要领域,可信硬件,多方计算和联邦学习。

可信硬件指的是可信执行环境(TEE, Trusted Execution Environment),核心是构建一个硬件安全飞地,数据仅在该安全区域内进行计算,TEE 将信任机制交给硬件方(如Intel Software Guard Extension 和 ARM TrustZone),可信硬件不属于“数据可用不可见”,但通用性高、开发容易,适合简单场景应用。最近众多黑客对TEE的攻击屡屡得逞,也严重妨碍了TEE的想象空间。

多方安全计算(MPC)是针对无可信第三方情况下,安全地进行多方协同的计算问题。即在一个分布式网络中,多个参与实体各自持有秘密输入,各方希望共同完成对某函数的计算,而要求每个参与实体除计算结果外均不能得到其他参与实体的任何输入信息。其核心设计是基于密码学的加密算法协议,如混淆电路,不经意传输,私密分享和同态加密等。近些年区块链和多方安全计算产生了一些新的结合,区块链可以通过采用MPC技术来提升自身的数据保密的能力,以适应更多的应用场景。MPC可以借助区块链技术实现冗余计算,从而获得可验证的特性。Blockchain+MPC在近期的发展极快,也非常具有想象空间。

联邦学习本质上是一种分布式机器学习技术,联邦学习的目标是在保证数据隐私安全及合法合规的基础上,实现共同建模,提升AI模型的效果。联邦学习分为三类:横向联邦学习、纵向联邦学习和联邦迁移学习。联邦学习类技术以数据建模和数据预测分析为目标,可对算法提供优化。

数据即货币

货币如果不用于交换,其价值就一分不值。要让货币有价值,就需要能交换到物品,服务或权利。片段的不能被分享的数据也是不具备价值的,现在最大的互联网巨头,也只能掌握用户的部分数据片段,而这些数据并不能全面、精准地描绘出目标用户的全部特征。所以需要激励用户把数据全面的,安全的,长时间的存储下来,并通过隐私计算,使得这些数据在不被拿走的情况下计算和分析,产生巨大的可分享价值。只有数据的生产者和使用者存在共同利益,并都乐于分享利益的时候,数据才会更好的转化成现实生活中的货币价值。

数据流动是数字经济时代企业的主要特征。政府,企业和个人需要更开放的构建数据产业生态,在数据流通和交易领域多维度合作。通过对各方数据的隐私计算,释放数据更大的价值,提升生产效率,推进产业创新。如果数据共享和流通是新经济必然的路径,那么保护私有数据、商业机密等在数据处理、流转过程中不会泄露,将是一个必要的前提条件。

场景为王

随着数据产业的发展,数据安全和数据共享交易的需求越来越广泛,隐私计算的应用热度逐年增加,隐私计算也将会产生更多加密算法,结合更多的应用场景。当前一些隐私计算场景应用于:

金融行业的风控,多家金融机构在不泄露客户个人信息的前提下对客户进行联合画像和产品推荐,在多方借贷等场景下能有效降低违约风险。

医疗保险正在成为隐私计算的重点赛道。通过隐私计算技术,医疗机构和保险公司之间可以在不拿走原始数据的情况下分析投保者的健康信息。

医药研发可以在不拿走病人医疗数据的前提下,分析和统计疾病的区域特征,家族特征,流行病特征,挖掘和验证医疗方案。

互联网广告是隐私计算的一个典型场景,通过隐私计算技术,广告主在不拿到用户的个人数据前提下,勾勒出真实和精准的用户画像,并准确呈现给用户对应的广告。

电子政务可以通过隐私计算技术,在不接触个人信息数据前提下,进行多个层面的实时调查分析,如人口普查,交通规划等。

隐私计算的基础设施

在六鹰资本,我们已关注隐私计算技术多年。我们认为要多管齐下来确保用户数据的安全,在个人设备上利用区块链,可信硬件,多方计算,联邦学习,智能合约,安全网络等多种技术,从用户数据产生的那一刻就开始安全的存储这些数据。而在应用层,我们认为要构建开放共享的数据市场,让更多的数据应用能够与用户互动,分析,交易和分享这些数据价值。数据价值应该具备智能化,可编程化,token化。我们正在努力构建一个真正可以分享的隐私计算生态,也邀请数据应用方向的创业团队加入进来,一起探索和推动发展数据产业。我们坚信在未来,会有更多数据相关的技术涌现,使得政府,企业和个人可以更好的分享数据的价值。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。