品玩 November 14, 2021

54亿,1000美元。

近日一个非法贩卖个人信息的犯罪团伙被打掉。其非法获取的个人信息超过54亿条,其中部分来自购买,其余则来自其背后一家网络公司为医院、机场等客户搭建的信息系统。这些信息在收集起来之后,通过模型整理分析,变成了敏感度极高的个人隐私信息,被放在暗网上以查询方式重复出售,一条标价1000美元。

这成为数字时代背面的寻常事情。

根据公开报道,2020年全球数据泄露的平均经济损失为1145万美元,而根据Verizon最近发布的《2021年数据泄露调查报告》显示,85%的数据泄露事件涉及人为因素。

2025年全球数据量预计将达到175ZB,是2020年40ZB的四倍多。当数据成为愈发重要的资产,数据安全和隐私保护也面临着更严峻的形势。

 保护好这桶石油

「它很有价值,但如果未经提炼也无法展现自己的价值。它必须变为天然气,塑料,化学品等,变为一个商业产品才能有价值。因此,我们必须对数据进行分解和分析,数据才能有价值。」

英国数学家 Clive Humby在十五年前第一次将数据比喻成新时代的石油,现在数据的重要性也成为广泛共识。无论用户服务、业务营销都需要使用大量的数据。数据成为这个时代最被看重的无形资产。

移动互联网时代,数据已经不只是一种网络效应的附属品,而开始真正定义一家公司。这在一定程度上导致了当下数据严重的中心化板结,而数据孤岛现象可以被理解为一种公司对于数据资源的消极保护。

短视频或音乐掌握着大量的用户数据,用协同过滤以及更复杂的算法滚起雪球进一步优化自己的推荐机制;出行和购物平台则掌握着大量用户的出行以及购物习惯,并且“个性化”的杀熟手段屡见不鲜。移动互联网时代,每个人都被包裹在独立的信息茧房中,这种现象同样发生在各个企业甚至行业身上。这其中的一个矛盾点是,数据库的打通能使得数据本身发挥更大价值,但各方更加担心自己数据的价值因为共享而被稀释。同时数据治理方面的标准缺失也进一步加剧了数据共享的法律风险,这些因素都制约着数据在一个更高纬度上进行融合。

巨量而全面的隐私数据被集中掌握,意味着这些数据一旦泄露危害性将会很大。除此之外,疫情催促大众生活转到线上,用户需要进一步出让自身个人信息以换取必要的生活便利也是另一个危险变量。今年3月,在印度已经发生了800万核酸检测结果报告泄露的事件,泄漏的敏感信息包括姓名、年龄、婚姻状况、检测时间、居住地址等。

这种孤岛现象同样发生在更贴近民生的行业里。比如要确定一个用户是不是低保户,需要获取这个人的纳税情况、不动产以及车辆情况等多维度的数据,这需要分别去纳税局、房屋管理局、车管局等拥有相应数据的地方逐一查询,而无法在一个单点机构得到结论。

医疗体系里的医院数据库同样相对独立且缺少共享机制,病人隐私信息的低效流转使得整个就诊过程缺乏效率。而越基层的医院单元对于共享病人数据库的抗拒也越大,因为这决定了自己能不能留住这些重要的病人资源。

打破数据孤岛效应和隐私安全问题的入口,则在于改变数据现有的协作方式。

技术融合的风口

随着11月1日《个人信息保护法》的正式开始实施,中国在网络安全和数据保护方面的法律“三驾马车”正式成型,另外两部法案是《网络安全法》和今年9月施行的《数据安全法》。

《数据安全法》中第二章第十六条规定,国家支持数据开发利用和数据安全技术研究,鼓励数据开发利用和数据安全等领域的技术推广和商业创新,培育、发展数据开发利用和数据安全产品、产业体系。

这部直指数据安全问题的法案意味着隐私计算成为一个新的风口。

根据《隐私计算白皮书》的定义,隐私计算是指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一系列信息技术,保障数据在流通与融合过程中的“可用不可见”。而隐私计算也不只是一个单一技术,其本质上是一套包含人工智能、密码学、数据科学等众多领域的跨学科技术体系,联邦学习、多方安全计算、机密隐私和同态加密则是其中的关键技术。

如果这样太过绕口,这个概念或许可以回到其出发点上的原始构想:「两个百万富翁都想比较到底谁更富有,但是又都不想让对方知道自己有多少钱。在没有可信的第三方的情况下如何进行?」

姚期智院士院士在1980年代提出了这个“百万富翁难题”,这个问题也成为了隐私计算的起点。

但是隐私计算同样存在局限。虽然保证了多方安全计算过程中输入数据的隐私性,但隐私计算并不涉及对原始数据的存储手段,后者仍然面临泄漏风险,并且其计算结果的可信程度也会因为过程的不可追溯而无法完全可信。

隐私计算目前在各种场景下的应用也尝试顾及到计算结果的确权和反复验证能力,但很多时候仍然要依靠第三方的信任背书,这意味着在两位百万富豪之间,一位「裁判」角色仍然是需要的,这在一定程度上又将这个协作过程收拢为一个封闭系统,一定程度上违背了对一个完全开放的,自协作网络的期待。

在数据监管以及隐私保护都在趋于合规的数字时代背景下,隐私计算力所不及的地方正好是区块链技术可以弥补的。

区块链技术可以对某个单点的数据篡改行为记录留痕。而区块链中的非对称加密、哈希加密技术则最大程度保障数据的安全性和避免泄露。比如经过链上确权的数据在被复制和传播时,可以触发智能合约对文件进行销毁处理,并对泄露行为进行记录。

同时,区块链可以保证数据从申请调用到计算的整个过程都被记录上链,解决了隐私计算所缺失的可追溯性,使得计算结果更加可信。

国际调研机构Garther的预测,到2025年全球将会有一半的大型企业需要在不受信任的环境和多方数据分析中用到隐私计算来对数据进行处理。目前国内企业的通用做法是通过双系统架构将两者结合。这意味着在实际操作层面,企业需要采购、配置隐私计算以及区块链两套系统来实现协作,且在协作过程中,两套系统的适配能力和安全也存在挑战。

蚂蚁链的解法

“未来的行业协作中,数据隐私保护将成为底层需求,我们认为隐私计算应该直接原生在区块链网络平台上。”蚂蚁链技术总监闫莺在今年的云栖大会上表示。企业的数字化转型陆续完成后,同行业的数字化企业连接起来,最终走向产业协作的数字化,是蚂蚁链认为的未来趋势。

2019年同样的场合,阿里巴巴董事局主席张勇提出「大数据是石油,算力就是发动机」,两年后,蚂蚁链拿出「FAIR」平台,开始解「数据」这道题。

10月22日,蚂蚁集团旗下蚂蚁链宣布升级区块链架构,在新架构上,隐私计算成为链上的一种原生能力。同时,蚂蚁链基于这一新架构推出了全新区块链网络平台「FAIR」,在「FAIR」上,隐私计算将在出厂设置中就与区块链一起融合到单个系统内。

“每一个区块链节点也成为一个隐私计算节点”,闫莺表示。而这两者的融合,本质上是在为其中牵扯的数据协作方提供一种信任共识,这也是为什么这个平台被命名为「FAIR」。

「FAIR」是一个关于数据流转的集合规范,最早在2016年由欧盟提出。其中「F」指的是是Findiable,即可发现,「A」是Accessible,即可使用,「I」是Interoperable,即可协作,最后的「R」则是Reusable,即为可重复使用。在此基础上,蚂蚁链对这个定义做了延展。

“「A」也意味着Auditable,即可审计,就是数据的获取过程必须合规;而「R」则从从可复用变成了可回收(recyclable),即整个数据授权的过程是可逆的,用户有权利撤回自己的数据授权。”

「FAIR」平台融合了多方安全计算、可信执行环境以及联邦学习三类主流的隐私计算技术。并且通过深度融合软硬件技术,构建了自主安全计算硬件并获得CFCA安全认证,联合达摩院计算技术实验室和阿里安全双子座实验室等团队设计的全同态硬件加速,实现了百倍以上的性能提升。「FAIR」平台也成为国内第一个同时融合隐私计算和区块链技术的平台

「FAIR」也已经在一些具体场景中应用落地。例如在政务领域,判断一个用户是否是低保户,需要综合纳税情况、不动产以及车辆等多维度数据,而这些数据分别存放在税务局、房管局、车管局等不同的机构,需要各部门交互核实,产生一个新的数据,来证明该用户是否为低保户。由于数据涉及个人敏感隐私,出于风险考虑,这些数据往往只能协作不能聚集。

现在,基于蚂蚁链「FAIR」平台提供的一体化能力,可以支持跨机构的数据协作,实现数据有效价值提取和确权、流转。 

今年年中,蚂蚁链还发布了区块链高速通信网络 BTN(Blockchain Transmission Network),一个面向全球可信数字网络建设的通信技术方案,意在解决区块链场景下的实时通行问题。蚂蚁链方面表示,BTN 可以将区块链网络的吞吐量提升 186%,带宽成本降低 80%,时延降低 40%。目前蚂蚁链目前技术上可支持10亿账户规模、每日10亿交易量、实现每秒10万笔跨链的信息处理能力。

一系列的动作背后,蚂蚁链在产业协作上的布局方向也逐渐明晰。它希望自己所拥有的技术积累和能力可以为数字时代搭建出产业协作的基础设施,尝试解决的问题不只停留在底层技术层面,更在面向行业提供一个友好开放的技术平台,使得产业数据和数据资产可以真正在安全合规的情况下跨域协同,实现数据不动价值动。

「FAIR」平台则是这场数字变革中所孕育出的第一个技术底座。

固定链接 '数据皆为资产的时代,谁来守护数据安全?' 提交: November 14, 2021, 6:08pm CST