隐私计算正在打破“数据孤岛”— PlatON 2.0白皮书解读

撰稿人:30+

以下内容为个人观点,并不代表投资建议。

喜欢的朋友,请一键三连,点赞、评论、分享!

image

《PlatON 2.0:去中心化隐私人工智能网络》 白皮书发布,其中数据利用、隐私计算、AI等领域多次被提及。本文将结合白皮书部分内容,从数据的保护、流动、价值变现等几个方面对白皮书内容做出解读。

《PlatON 2.0:去中心化隐私人工智能网络》摘要

仅过去十年,我们的社会已经完成了从模拟到数字的转型,我们正在快速迈进全数字时代。但由于人工智能的高度集中化,加上数据隐私和滥用问题,数据的整体利用率非常低,数据的价值急需被知识化的沉淀和利用,被称为web3.0的下一代智能网络的呼声越来越高。

==数据发展趋势==

全球数据增长趋势

据Statista分析,预计到2025年,全球联网设备的数量预计将达到309亿台。联网设备和服务创建了庞大的数据量,IDC预测到2025 年,全球数据将扩展至163ZB (1ZB 等于1万亿GB),相当于2016年所产生16.1ZB 数据的十倍。这些数据将带来独特的用户体验和众多全新的商业机会,数据已经成为消费者、政府和企业日常各方面顺利运作的关键要素。仅过去十年,我们的社会已经完成了从模拟到数字的转型。下一个十年,数据的力量必将给我们带来几乎无限的变化。

image

全球数据增长趋势

全球数据隐私保护趋势

IDC在数据时代2025研究报告中指出人工智能和安全是关键发展趋势:
人工智能系统改变格局 。机器学习、自然语言处理和人工智能等全新的技术将数据分析从事后的回溯转变为战略决策和行动的积极驱动力。人工智能可以大大提高各种行业、环境和应用数据分析的频率、灵活性和即时性。
安全成为一种重要的基础 。全新来源的各种数据将会给私人信息和敏感信息造成新的漏洞。越来越多的数据需要安全保护,而实际得到安全保护的数据则少之又少,这之间存在显著的差距,而且这一差距还将继续扩大。到2025年,在全球数据圈创建的所有数据中,近90%的数据将需要某种程度的安全保护,但得到安全保护的数据将不到一半。

image

全球数据隐私保护趋势

国际数据公司(IDC)2月21日发布的报告预测,中国数据圈在2025年增至48.6ZB字节,占全球27.8%,成为最大数据圈。

报告预计,中国的数据圈从2018年至2025年将以30%的年平均增长速度领先全球,比全球高出3%。

此外,从2015年到2025年,中国数据圈以14倍的速度扩张,蕴含的价值难以估量,如此规模庞大的数据对置身于其中的企业和政府等而言,机遇与挑战并存,有效合理地挖掘数据价值将会成为推动经济增长的重要助力。

IDC也指出,2018年,数据圈中56%的数据需要得到安全保护,而到2025年将增长至66%。物联网的发展将推动实时数据的增长,到2025年,实时数据占比将达到29%。碎片化给数据识别、分类、管理、安全以及应用带来的挑战也是企业需要面临的问题。置身于数据生态圈中的企业,只有洞悉数据发展趋势,制定合理的数据管理、应用策略,才能在数据星球中进一步提升企业价值以及竞争力。

“数据是新的石油,是本世纪最为珍贵的财产!”据估算,近年来数据正以每18个月翻一番的速度增长,且增长速度在加快。当今世界,大数据已对社会治理、国家管理、人民生活和经济发展等产生重大而深刻影响。目前各国都把信息技术与大数据作为实现创新发展的重要动能。

==数据泄露==

进入21世纪,全球范围内很多公司包括互联网巨头先后被曝出数据泄露和滥用,谷歌、亚马逊、Facebook、苹果等美国互联网公司这两年在欧洲接连因数据隐私、垄断、纳税等问题受到欧盟的罚款,引起了全球广泛关注,也让人们逐渐意识到个人隐私保障的重要性。

案例一:

image

9月4日,有用户在某知名黑客论坛出售一个包含38亿Clubhouse和Facebook用户记录的数据库。黑客称该数据库中含有来自Clubhouse私密数据库和用户Facebook介绍中的38亿手机号码。

研究人员编译发现该数据库中包含用户名、手机号和其他数据。从出售数据的帖子来看,完整38亿条记录的售价为10万美元,同时黑客也可以将数据库分割出售给有意愿购买的买家。

目前,研究人员还未确认该数据库的真实性,但该数据库有可能是黑客将泄漏的Facebook个人简介数据与其他泄漏的数据进行了拼凑。

但如果泄漏的信息是真实的,那么对垃圾邮件攻击者来说就是一座金矿。如果泄漏的信息属实,攻击者可以根据现有信息获取更多关于泄漏的手机号属主的信息,包括用户名、根据手机号前缀获取位置信息等。因此,攻击者很容易就可以根据这些泄漏的信息来伪造个性化的垃圾邮件并发起大规模垃圾邮件攻击活动。

案例二:

image

The Telegraph(英国每日电讯)是英国四家全国性 ” 高级 ” 日报中销量最大的一家。近日,The Telegraph 被爆由于数据库安全保护措施不到位引发 10 TB 数据泄露。泄露的信息包括内部日志、订阅者姓名、邮件、设备信息、URL 请求、IP 地址、认证 token 以及唯一读者识别码。

9 月 14 日,安全研究人员发现了该没有保护的数据库,并确认可以在没有密码的情况下访问至少 1200 条未加密的通信录信息。

image

泄露的 URL 请求可能会用来重构用户的浏览历史,引发隐私风险。受影响的用户的主要风险是可能会受到垃圾邮件或钓鱼邮件。

==立法保护==

image

数据的无序流通与共享,可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。

例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(General Data Protection Regulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。

2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。

我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。

特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。

总体来看,目前我国的信息安全相关的法律法规是基于《国家安全法》及《网络安全法》建立的,并在网络安全等级保障制度、关键信息基础设施保护制度以及数据本地化和跨境流动制度等中有所体现。同时,在个人信息保护上,基本以《网络安全法》《民法典》及即将出台的《个人信息保护法》为主。

三部法律在立法定位上,《数据安全法》是数据安全领域的基础法律,与现行的《网络安全法》和即将要出台的《个人信息保护法》并行成为网络空间治理和数据保护的三驾马车,《网络安全法》负责网络空间安全整体的治理,《数据安全法》负责数据处理活动的安全与开发利用,《个人信息保护法》负责个人信息的保护。

==数据流动==

image

当前的大环境下,由于数据隐私和滥用问题,以及数据监管的加强,个人和机构不愿意共享个人和专业数据,资源有限的AI机构不能获得较大的有效数据集训练更好的模型,而且如果不定期使用新数据对最好的模型进行过,那么即使是最好的模型也将过时。因此,人工智能的重点已经从以AI基础算法为中心的导向,转移到以保障安全及隐私的大数据架构为中心的导向上。数据的隔离和对数据隐私的保护正成为AI领域的下一个挑战。

数据作为数字化时代的一种核心生产要素,只有在广泛的使用中才能最大限度的发挥数据资产的价值,而最大程度的资源利用就是从独享走向共享。开放共享就需要:

1、数据流动

数据作为一种特殊的资产,只有在流通和使用过程中才能不断创造新的价值。所以数据流动是“常态”,数据静止存储才是“非常态”。数据的跨部门、跨领域、跨行业等跨域流动将频繁发生。这与仅限于信息孤岛中的常处于静态的传统数据形成鲜明的对比。

2、业务环境将更加开放

业务生态将更加复杂,参与数据处理的角色将更多元,系统、业务、组织边界将进一步模糊,导致数据的产生、流动、处理等过程比以往更加丰富和多样。这与传统数据通常在本地的“自产自销”完全不同。

随着对数据流动性重视程度逐渐提升,中国、欧盟、美国等不同国家和地区都在选择合适的制度确保数据流动性。这些数据必须要基于主权国家固有权利,核心逻辑是要在网络空间和数据领域,延伸扩展传统国家主权理念基本价值追求,确保国家对本国数据享有独立的自主开发、占有、管理和处置的最高权利。

==人工智能==

image

人工智能的发展趋势

在过去5到10年,互联网、移动互联网、物联网的强势发展产生了海量的数据,芯片处理能力提升、云服务普及以及硬件价格下降也使得计算力大幅提升,加上广阔的产业及解决方案市场使得人工智能技术得以快速发展,AI早已无处不出现在人类的日常生活中,从行业来看,人工智能已经在医疗,健康,金融,教育,安防等多个垂直领域得到应用。

根据西雅图研究公司Mind Commerce的通用人工智能报告,到2025年,全球企业应用和解决方案的通用AI市场将达到38.3亿美元,通用人工智能支持大数据和预测性分析的全球市场将达到11.8亿美元。到2027年,70%的企业和工业组织将部署AI嵌入式智能机器,全球经济活动的8%以上将由某种人工智能解决方案自主完成,而今天这一比例还不到1%,超过35%的企业价值将直接或间接归功于通用的人工智能解决方案。

人工智能的发展障碍

数据隐私与监管
目前以深度学习为主的机器学习技术离不开海量的数据进行学习和推断,因此海量的数据成为人工智能前沿技术发展最重要的资源之一。科技巨头们通过互联网发展期的积累,获得了海量的数据,随着数据的值在人工智能时代日益凸显,这些数据也将逐渐演变成企业的重要资产和竞争力。据IDC估算,全球数据总量预计2020年将达到44ZB,中国的数据量将占全球数据总量的18%,在2020年达到8060EB(约等于7.9ZB)。

人工智能越是“智能”,就越需要获取、存储、分析更多的个人信息数据,不可避免会涉及个人隐私保护这一重要伦理问题。今天,各类数据信息采集无时不有、无处不在,几乎每个人都被置于数字化空间之中,个人隐私极易以数据的形式被存储、复制、传播,如个人身份信息数据、网络行为轨迹数据以及对数据处理分析形成的偏好信息、预测信息等。可以预见,在不远的未来,越来越多的人工智能产品将走进千家万户,在给人们生活带来便利的同时,也会轻易获取更多有关个人隐私的数据信息。

训练成本高昂
虽然硬件和软件的进步一直在推动人工智能培训成本每年下降37%,但由于人工智能模型的规模增长更快(每年10倍),导致人工智能的总培训成本继续攀升。ARK认为,最先进的人工智能训练模型成本可能会增加100倍,从目前的大约100万美元到2025年超过1亿美元。

2021092916380318-1024x332

人工智能模型训练成本

资源集中化

虽然AI取得了巨大的进步,但AI的好处并没有得到广泛利用,人工智能还没有实现民主化,而且有愈加集中的趋势。

大多数人工智能研究由少数科技巨头控制,人工智能的独立开发者没有现成的方法来变现他们的成果。通常情况下,他们最有利可图的选择是将他们的技术卖给科技巨头之一,导致技术控制变得更加集中。

少数科技巨头们通过为消费者提供服务垄断了数据上游,获得前所未有的数据,训练高端AI模型并纳入他们的生态系统,进一步增加用户和其他公司对科技巨头的依赖。除少数科技巨头外,小型企业、创新企业等其他市场主体很难收集大规模的数据,即使花费了不菲的代价获得了数据,也缺乏有效的使用场景,并且无法交换,很难精准的对接相关的AI学习网络。

大多数组织都面临着AI技能和人工智能人才的缺乏,而科技巨头正在战略性地致力于以前所未有的速度和规模垄断AI人才,进一步拉大与其他公司的差距。

随着互联网时代的发展,无时无刻不在产生海量数据,这些海量的数据不仅蕴含巨大价值,也隐含大量的个人隐私。人工智能的发展离不开海量的数据,然而数据的垄断及不可流动性,继而对人工智能的发展产生阻碍。

==数据安全==

image

数据安全并不是一个新概念,从第一款具有代表性的数据安全产品——数据防泄漏产品(DLP)诞生至今已有十几年,数据安全及相关产品已逐渐为人接受。数据安全已成为热门话题,大数据的安全也随之成为一个严肃的课题。

随着区块链技术越来越多地出现在人们的视野,其去中心化的特性颠覆性地解决了许多“信任”问题,为多企业、多单位共同参与项目提供了一致性的保障,为数据安全、数据增值、成果认定提供了平台支撑,促使各参与方更精于合作,更专注于研究工作本身,减少数据泄密带来的风险。

区块链的共识算法可以帮助去中心化的人工智能系统中的主体协作完成任务。比如,在智能交通领域,人工智能是无数无人驾驶车辆背后的 “大脑”,这些自主车辆需要相互信任地合作,才能完成共同的目标。人工智能系统没有机制来确保这些自主车辆之间能够以可信的方式达成共识。

当然,这些自主车辆的协作可以依靠受信任的第三方,这将使公众面临安全和隐私问题。人工智能模型需要海量的高质量的数据来训练优化,而数据隐私和监管阻碍了数据的有效共享。区块链和隐私计算技术能实现合规所需的隐私和安全控制,促进数据共享和价值交换。

人工智能和密码经济学之间的交叉是另一个有趣的领域,区块链与AI结合可以使得数据货币化,激励更广泛的数据、算法和算力加入,创造更高效的人工智能模型。区块链可以使AI更加连贯和易于理解,AI训练决策过程中使用的所有数据、变量和过程都有不可篡改的记录,可进行跟踪和审核。

数据的流通且安全的被人工智能使用,必将是未来的大趋势。

== PlatON 2.0 ==

PlatON的使命与目标

PlatON结合区块链和隐私计算技术,建立一个去中心化的协作式隐私人工智能网络和全球大脑,以推动人工智能的民主化并建立安全的通用人工智能。

隐私人工智能网络

  • 去中心化的隐私计算网络,建立一个去中心化的数据共享和隐私计算基础网络,连接数据所有者、数据使用者、算法开发者和算力提供者。
  • 去中心化的人工智能市场,实现AI资产的共建共享、敏捷的智能应用开发,提供从AI算力、算法到AI能力及其生产、部署、集成的全流程产品和服务。
  • 去中心化的AI协作网络,允许AI进行大规模合作,汇集了集体智慧来执行复杂的AI服务。

image

隐私人工智能网络分层架构

整个隐私AI网络分为三层:

Layer1:共识网络

Layer1是区块链基础协议,核心是共识和智能合约,Layer1是去中心化计算的基础,智能合约就是简单的计算模式,某种意义上是一种Serverless。

Layer2:隐私计算网络

隐私保护计算网络中的数据一般保存在本地,通过安全多方计算、联邦学习等技术进行协同计算,数据可用不可见。不仅仅数据的隐私得到保护,计算结果如训练完成的AI模型的隐私也能得到保护。

Layer3:协同AI网络

利用隐私计算网络的数据集和计算资源,可以进行训练出AI模型,这些AI模型可以部署在AI网络中,并通过AI代理对外进行服务,形成AI服务市场。通过多代理系统(Multi Agent System)等技术,可运行AI代理进行通信和协同,创建越来越多的创新AI服务,并实现AI DAO,形成自治的AI网络。

==隐私AI网络优势==

  • 去中心化
    • 任何用户、节点无需都可以连接到网络,结合去中心化数字身份(DID)认证和授权,全球范围内任何数据、算法和算力进行安全的共享,连接和交易,人人可开发和使用人工智能。
  • 隐私保护
    • 基于MPC、同态、零知识证明等现代密码学的隐私计算技术,提供了计算的全新范式,使数据和模型可用而不可见,让隐私得以完备的保护,数据权利得以保障。
  • 高性能共
    • 通过Pipeline验证、并行验证、聚合签名等优化,实现高性能异步BFT共识,并使用形式化验证方法证明其安全性、活性和快速响应性。
  • 低训练成本
    • 任何人都能够在安全且无摩擦的市场中共享计算资源,真正降低边际成本,大幅度地降低社会的计算成本。
    • 实现安全的数据共享,促进数据的合规流通,打破数据垄断,通过去中心化累积比科技巨头的数量更多,质量更好,成本更低的数据。
  • 低开发门槛
    • 可视化AI模型开发及调试,自动化机器学习(AutoML),通过MLOps简化AI模型从模型开发、训练到部署的全流程管理流程,降低AI模型的开发门槛,提高开发效率。AI服务能自动发现、组合、协作,通过更高级的自动编程形式,创建越来越多的创新AI服务。
  • 监管合规
    • AI训练决策过程中使用的所有数据、变量和过程都有不可篡改的记录,可进行跟踪和审核。隐私保护技术的使用使得数据的使用满足被遗忘权、可携带权、有条件授权和最小化采集等监管条例。

==总结==

数据对于AI来说,就像煤炭之于蒸汽机,电能之于灯泡,汽油之于汽车。汽车发动机必须在动力与节能之间寻找更高的平衡点,AI也必须在应用潜能和隐私数据保护之间寻找更适合的平衡点。

PlantON结合区块链、人工智能和隐私计算技术,建立一个去中心化的协作式隐私人工智能网络,解决数据的累积、加密、流通以及AI的低门槛开发训练,打破“数据孤岛”的限制,将数据的利用提高到一个新的水平。在这个网络上,任何人都可以获得人工智能技术或成为其发展的利益相关者,实现人工智能的民主化。

image

:point_down::point_down::point_down:

PlatONWorld — PlatON生态长期主义者的基地!

欢迎大家持续关注 PlatONWorld !

PlatONWorld | 官网 platonworld.org

PlatONWorld | Telegram

PlatONWorld | 微信社区 mcqueen678(微信号)

image

2 个赞

文字很美好,何时能看到落地?

估计是3-5年!

1 个赞

技术分析归零。。。

麻烦不要在技术贴发这种不文明的回复。违规3次将封禁账号。