原文链接:
非抄袭,均纯手工打造。
1、引言
读一篇文章,首先要看的是它的结构,而非它的具体内容。
什么是结构,就是并列式、总分式、对照式,还是递进式等等,这个结构,一方面是一种行文方式,另外却是实实在在能够反映所阐述的事情内在的逻辑。
顺着这个结构往下拆解寻找关键点,就像庖丁解牛一样,就很容易get到文章的中心思想,并判断这个中心思想是否站得住脚。
什么意思,就是它想表达什么观点,得出什么结论?围绕这个观点和结论它是如何来阐述论据的?总共阐述了几点论据?这几点论据之间是什么关系?这几点论据是否准确,是否全面?是否可以举出反例来推翻这个观点和结论?
如此一层一层扒下去,关于一篇文章,你就会有一个大致的了解和实在的判断。
当然了,要是你读的是爽文小说,以上说的都不算数,你怎么读着舒服怎么来。
好了,言归正传,让我们来认真拆解一下这部《PlatON分布式隐私计算AI网络白皮书》。
首先还是看大的结构。
文章前三章的结构是递进式,后面几章是并列式,两部分是以总分式的方式串起来的。
嗯,我说得越复杂,你们就越难以发现我有没有说错。
开个玩笑,不过说的确实绕了些,用白话说,行文方式就是:
首先讲背景和趋势,从可观测可感知的现象分析引出本质需求,继而得到提出PlatON的必然性和合理性,当然就是针对需求解决问题。这是前三章的意义。
接着,后面几章讲分别从技术层面、应用层面、经济模型、社会活动层面、计划与进展层面展开讲述PlatON各细节方面的部署或者执行情况。
最后,按照行业惯例,给出参考文献,一方面是表示对引用文章作者知识产权的尊重,另一方面,是方便对所引用的论据有疑问的朋友追溯查证。
接下来,我们就这个脉络进行剖析。
2、整体背景
无论是创业也好,还是投资也好,与众不同、特立独行当然不失为一个好的方法,不过千万不能玩过头了,底线就是千万不要和大的趋势对着来,南辕北辙的后果就是跑得越快死得越快。
君不见这段时间多少大资本大企业被牵涉,前有蚂蚁上市被叫停、滴滴被约谈整改,后有整个教陪行业集体凉凉,恒大深陷破产风波。
这就是罔顾中国大的政策及市场环境的调整和变化,低估中国政府对于社会和经济结构转型的决心的后果。
所以,不分析大环境大趋势就讲解决方案的文章都是刷流氓。
还好,白皮书里没有耍流氓。
文章开篇首先点明了我们所处的时代,是一个数据爆炸的时代,这一点我们其实都有感同身受。2008年,第一代iphone横空出世,存储容量不超过8G,大家都觉得用起来绰绰有余,2021年的今天,iPhone已经到了第13代,存储容量最大也到了1TB,依然有人觉得不够。
当然了,这一切都只是我们定性的感受,所以文中也给出了较为权威的数据统计和预测,来自Statista和IDC(国际数据公司),两家比较知名的数据分析机构。
如图所示:
概况来说,就是表达了一种观点,或者说现象,就是未来数据量将呈指数型上涨,而这随着5G、物联网等新技术和新应用而诞生的新数据,具有极大的商业价值,是非常需要得到保护的。不过,如果延续当前的数据管理模式,那么到2025年,将有将近一半的数据是应该得到保护却得不到保护的。
这是一个非常严重的想象,也是产业未来集体推进的一个痛点。当然了,从另外一个角度来看,这也是一次非常重大的机遇。
3、人工智能和数据
从整个大的经济和产业发展趋势来讲数据隐私保护的重要性固然是合理的,不过由此而来的一个问题就是容易陷入空泛。
的确,从广义的角度来讲,数据的隐私保护作为一项基础功能,可以说是数字经济时代一切应用都需要和适用的。
然而,有时候,说什么都能干和什么都不能干有点差不多的意思。
所以,有必要为隐私计算寻找一个聚焦的切入点,以实现应用的首先突破和效应的集中展示。
AI,即人工智能,作为近些年的一个热点,无论是在政策产业规划还是行业应用方面,都有其体现。
另外,最重要的就是,AI确实和数据有着斩不断、理还乱的联系。
人工智能向来有基于逻辑和基于机器学习的。
PS.按照严谨的说法,人工智能的三大学派是符号主义、连接主义和行为主义,不过这么讲太抽象了,不容易理解,所以我用更简单的。
早期的AI主要是基于逻辑的,其代表如专家系统、知识图谱等等,核心是编制规则,主要依赖于人的经验,算法本身对数据的需求并不大。
而进入二十一世纪以来,尤其是近些年,得益于数据采集和存储的便利性、计算机性能的提升以及软件处理架构的改进,基于机器学习AI开始重新展露头角,并且一发不可收拾,其中知名的代表大家应该都有所耳闻,击败一众围棋高手的AlphaGo,背后的深度学习。
机器学习的核心思想是让机器能够通过相关的数据不断学习,如果学习后参加考试回答结果是正确的,那么就加强记忆,如果学习后参加考试回答结果是错误的,那么就修正学习方法,直到能够回答正确。
其实本质上和我们读书学习是一样的。
我们从幼儿园开始逐渐的读书学习,读的书越来越多,读的书越来越难,与此同时,我们的知识和认知水平也在逐渐提高。
基于机器学习的人工智能也是如此,我们希望人工智能的水平越高,就需要给它找更多类别、更大数量、更好质量的数据来训练。
当前,其实很多公司的AI本身在模型架构和算法设计上差距都不大,真正拉开差距的就是其训练水平了,又或者说,就是有多少数据可以拿来用于其AI模型的训练。
4、问题和痛点
之前讲到了,当下人工智能需要大量不同类别的高质量数据用于训练,这是有效提升智能水平的关键,其重要性往往会超越算法本身的设计。
不过有一个问题,那就是,数据从哪里来?
像谷歌或者BAT这种大企业有着天然的优势,因为他们有自己的平台,时时刻刻都在收集着用户的数据,谷歌有搜索引擎和安卓系统,占据了桌面端和移动端的流量入口,阿里有电商数据、腾讯有社交数据,并且,这些公司通过不断的收购和投资,还在扩大自己的数据版图。
对于我们普通人而言,由于早已习惯了各种看似免费的商业模式,所以感受不深,其实这带来了三个深层次的问题。
-
首先是数据垄断现象带来的AI垄断问题 。互联网大厂天然拥有数据资源,从而更容易发展自己的AI,其AI也天然具备更高的智能水平,从而造成AI领域的马太效应,最终整个AI也将掌控在这些互联网巨头手中,重蹈现在移动互联网时代的覆辙,届时,不光是大众衣食住行的定价权,连我们的决策和思考都会被这些巨头所深深影响;
-
其次是数据隐私忧虑带来的AI天花板问题 。对于我们普通人而言,大多数由于本身缺乏对个人数据的系统性管理能力,因此选择了用数据来换取便利,这种损失是隐性的,通常感受不明显,但是对于企业而言,其科研生产经营人事财务等一系列数据其实都是其最重要的商业机密,很少有企业会愿意把自己的核心数据拿出来共享,所以我们经常会看到,政府部门之间、企业各部门之间、企业与企业之间,都存在着数据孤岛现象。即使是互联网巨头之间,一样会有相互的边界,比如阿里的电商数据和腾讯的社交数据之间,一定是大规模断路的。这将导致大量的跨类别高质量数据其实是长期处于冷冻,而无法用于AI的训练的,这必然是制约AI未来发展的一个临界点;
-
最后是数据的所有权、使用权和收益权问题 。之前提到过,每个人的数据看似是没有多大价值的,但是其实在各个互联网巨头手中,是通过我们的数据实现了融资、变现等一些列行为的,也就是说,其实我们的数据是有价值的,但是在今天,出于各种客观的制约和主观的操纵,这些价值被模糊化了,那么,在未来数据爆发的时代,当数据的价值不可再忽略的时候,如果才能明确和保障这一系列权益,这也是个问题。
5、解决方案
从白皮书不难看出,PlatON的愿景就是建立一个去中心化的协作式人工智能网络和全球大脑。其核心思想就是将数据资产化,从而实现数据的自由流通,进而大大加速AI算法的成熟和应用。
这是针对前面提到问题的给出的一种系统性解决方案。
可以看到,第一步就是要实现数据的资产化,这是基础。
数据本身是一种有价值的重要的生产要素,这个是毋庸置疑的,但是有价值并不等于就可以资产化,资产化有两个关键,一个是确权,一个是保护。
即,如何确立数据的所有权,以及通过什么手段来保护主权。
通常的资产,可以通过法律的手段来达成上述目的,但是对于数据这种无形资产,仅仅通过法律就会比较难了,因为数据的复制和传播都及其简单,事后追责都很麻烦,更不要说事前事中保护了。
所以通过技术的手段来进行确权和保护开始成为一种主流的认知,PlatON正是基于区块链+隐私计算技术来实现的。
其中,隐私计算技术是实现数据确权和保护的关键,区块链起到的作用是为资源的调度和数据的流通提供便利。
由于技术栈的作用点不一样,所以出于解耦合的目的,从架构上,PlatON分解为了三层,各司其职。
- 第一层是共识层,是区块链技术栈所在,包括了节点、共识机制、智能合约虚拟机;
- 第二层是隐私计算网络,是隐私计算技术所在,包括了执行隐私技术所依赖的算法和数据,以及部署及执行算法的计算节点和提供数据的数据节点,算法都是基于密码学技术的,包括安全多方计算、同态加密、零知识证明等等;
-
第三层是协同AI网络,说直白点就是一个AI模型的货架,这些AI模型都是可以基于上两层训练出来的,这个货架可以源源不断的上新。
6、特点
PlatON的定位是隐私AI网络,核心是隐私计算,不过,与此同时,注意到的是,它本身也是一条图灵完备的公链平台,也就是说,从功能性的角度,它和以太坊类似的,支持虚拟机和智能合约的。
在功能上类似,也就意味着在实施上他们也将面临类似的问题。
这是以太坊一直以来无法回避的问题,也是随着这两年DeFi、NFT等各种应用爆火之后愈发不可收拾的问题,就是TPS,或者说可扩展性问题。
以太坊2.0将采用分片的方式来改善这个问题,当前以太坊1.0是通过layer2的方式来改善这个问题。
具体到PlatON,采用的是分层的方式,其实严格来说,也是一种layer2的解决方案,核心还是通过上面提到的分层架构,在实现解耦合的同时,也大大提升了整个网络的横向可扩展性。链上链下通过基于密码学的可验证计算(VC)链接起来,即链下执行具体的个性化的计算任务,链上对任务完成情况做验证并达成全网共识,将大量的计算放到易于扩展链下,减少对稀缺的链上资源的占用。
回到他的核心点,隐私计算,其实隐私计算并不是一个新的话题,关于这方面的研究这些年一直有在进行中,纵观目前行业内的隐私计算相关项目,技术路径一般可以分为两类,一类是基于TEE(可信执行环境)硬件的,其中比较知名的TEE就是intel的SGX;一类是基于密码学技术的,之前提到过的安全多方计算、同态加密等等都是。
基于TEE的隐私计算实现,优点是工程上容易实现,缺点是带来了对硬件厂商的中心化依赖,同时受限于TEE本身的性能,在扩展性上存在问题;基于密码学技术的隐私计算实现,优点是更安全,无中心化依赖,可扩展性空间更高,缺点就是以当前的技术水平,工程落地上不理想,很难做到效率和通用性兼顾。
走密码学这条道路,没有足够的科研基础和持续的经费投入,是非常难的。
以上,其实关于PlatON的特点其实就差不多了,把白皮书中的内容简单总结一下,就是:
- 支持WASM和EVM虚拟机,对以太坊兼容性好;
- 链上链下解耦的分层系统架构,系统可扩展性强;
- 基于密码学技术的隐私保护解决方案,上限高。
7、外围工具
隐私计算的理念非常好理解,其效用也很容易让人接受。
然而,这改变不了一个隐藏的事实,就是隐私计算的技术门槛其实相当之高,对于普通的AI从业者而言,想要通过隐私计算来实现AI模型的训练,除了需要其具备AI方面的相关知识外,还需要在密码学方面有较高的造诣,才有可能很好地将隐私框架融入AI模型中,这其实非常不利于隐私计算应用的推广。
所以这里单独将白皮书中的隐私AI开发框架Rosetta拿出来提一下,在我看来这个东西是非常重要的,尽管它其实可以是一个独立于PlatON网络的存在,看起来没有太大的关系,但其实对于加速整个系统的成长有积极的意义,所以有必要单独提出了讲讲。
简单来说,它其实是将大数据处理框架,如TensorFlow等;常用的AI算法,如统计机器学习、基于人工神经网络的深度学习;密码学的算法,如安全多方计算、同态加密;以及底层的硬件调度框架打包集成在了一起,内部做了融合处理,而对外部只暴露了一些常用的调用接口,这样对于AI工程师而言,在开发AI算法的时候,只用考虑自身业务的逻辑,并调用相应的接口来实现,而不用再去学习更复杂的密码学算法了。
以后,开发人员可以通过Rosetta,利用系统第二层的隐私计算网络,便利地开发和训练自己的AI模型,并上架到第三层的协同AI网络,供具体的应用来使用。
8、应用场景
之前有讲到,整个数字经济的体系都需要数据隐私保护的加持,因为在数字经济中,数据是一项有价值,或者更直接的说,有价格的资产,因此,通过隐私保护对数据资产的确权和保护就非常的必要。
白皮书中列举了几种典型的应用场景,有区块链行业相关的热点,比如预言机、链游,也有传统的生物医药、金融风控、智慧城市等。
那么具体在这些应用场景的哪个环节会用到隐私计算呢?其实无一例外都是在需要相关多方发生交互的环节。
白皮书中讲了一些案例,我就不重复引用,我尝试用自己熟悉的情况来描述。
比如对于预言机,预言机是链上用户获取特定信息的来源,不过对于用户而言,其实在持续关注和获取哪些数据本身的行为本身就是一种隐私,甚至有可能牵扯到商业秘密,这个时候隐私保护就显得非常重要;
比如对于链游,大家都知道现在链游的一个方向是元宇宙,元宇宙试图构建一个拟真的,有沉浸感的世界,要构建这样一个世界,需要从现实世界中采集大量的数据并在虚拟世界中进行还原,如果没有隐私计算对数据的确权和保护,现实世界中的数据所有者恐怕都不愿意将自己真正有价值的数据提供出来;
比如对于生物医药,其实医疗水平的进步很重要一部分来源于大量临床案例的分析,通常大医院这方面的数据会很多,而很多中小医院这相对匮乏,而医院从病人隐私以及自身发展的角度,通常都不愿意将这些数据共享出来,因为数据的特殊性,一旦共享出来,就不受控制了,这在很大程度上制约了医疗整体水平的发展,而基于隐私计算对数据确权和保护之后,是有可能解决这个问题的;
比如对于金融风控,理论上,对一个人或者企业的风险评级,掌握的信息越全面,评估结果越准确,比如我们看支付宝的芝麻信用评分,其实就是综合了人脉、资产、身份、行为、过往守约记录5个方面。那么问题来了,人脉方面的数据阿里未必能够比腾讯更全面,而如资产、行为等数据,除了在阿里的平台,用户在其它平台可能也有。当前这些互联网平台之间的数据其实是断路的,所以对用户的画像准确性和通用性上可能都有欠缺,比如在一个平台的高信用,拿到另外一个平台可能就无法被直接接受。如果可以通过隐私计算,在不伤害各方数据隐私的前提下将多个平台的数据综合利用,就可以得出一个更精确、更普适的人物画像,从而更容易针对性地提供风险匹配的金融服务。
比如对于智慧城市,智慧城市的打造其一个目的就是让城市服务能够更便捷、更精准、更高效、更安全。为了达到这个目的,往往是需要政府各部门,以及一些企业的配合。以城市安全为例,这需要公安方的天网摄像头、道路交通摄像头、小区的物业摄像头、各商业机构的金属探测传感器、运营商的通讯数据等联动,对可疑和危险情况能够第一时间发现和连续跟踪,防患于未然,而这些传感器都分属于不同的主体,无论出于对公民隐私的保护,还是出于各主体之间的考虑,都有必要对这些传感器数据的隐私进行保护。
9、进度
梦想是要有的,结果也是要有的。
可以看到尽管主网上线是今年的事情,但是PlatON整体的研发时间已经很长了。
不过,主网上线只是证明它能够做到和其它很多公链一样的事情了,比如智能合约。
对于我而言,最期待的还是今年底隐私计算网络的上线,这在我看来才是它的核心竞争力。
我当然也知道这块很难,不过,终究是需要攻克的不是?
10、结语
大概到这里,关于PlatON以及他想实现的整个隐私AI版图应该会比较清晰了,关于更具体的一些情况,大家也可以去详细阅读它的白皮书,我这里就先不多嘴了。
最后我想说,这里我讲的是PlatON的白皮书,更是隐私这条整体的赛道,这条赛道很难,究竟谁能够真正走到最后,说实话,不得而知,这需要资本、技术、商业的联合推动,也需要十足的耐心和毅力,但是无论如何,我相信这是个正确的方向,总有人会最终走下来的。