4月30日,由无涯社区、PlatON联合主办的《Rosetta AI框架—将隐私能力赋予Tensorflow开发者》发布会正式开启,隐私AI框架Rosetta首次同大家见面。PlatON算法科学家谢翔博士在发布会中全方位介绍了Rosetta的技术实现与产品理念,并就Rosetta的功能性、实用性以及商用场景进行了深度讲解。
精彩片段
Rosetta的寓意是三者合一:隐私计算 + 区块链 + AI。
现在整个AI行业已经遇到一个大瓶颈:数据较为分散,为了提高整个模型的精度,则必须能够拿到更多的数据;但是由于数据隐私的问题,越来越难拿到别人的数据。这个“矛盾”带来的问题已经在AI整个行业突显出来。支持隐私AI能在很大程度上缓解现在AI行业的“矛盾”,因而也会存在着巨大的新兴市场。
数据不再是被拷贝的次数越多价值越低,而是使用的次数越多价值越高。数据最终可以真正“安全”地在不同的应用中流动。
基于Rosetta框架之上的第一个产品将会是数据银行(Data Bank)。数据银行是一个数据资产的交易市场,以各类的数据生产要素为核心服务对象,结合隐私AI算法、PlatON区块链打造的分布式数据资产交易平台。
数据的“效用”才是体现数据价值的标准,而数据效用的体现离不开隐私计算。
以下是发布会全程实录:
01
Rosetta是什么?这个名字的由来有什么含义?
Rosetta是基于TensorFlow的隐私AI框架,目的是能够降低AI开发者的门槛,让其能够在不需要了解隐私计算技术细节的前提下使用,将原来传统的数据处理方式很方便地切换到隐私计算的方式下来。
Rosetta的名字取自古埃及的罗塞塔石碑(Rosetta Stone)。其上记载着古埃及象形文字,埃及草书和古希腊文。这里Rosetta寓意着承载和结合隐私计算、区块链和AI三种典型的技术。
02
为什么说隐私计算的核心是隐私AI?PlatON为何会考虑加入AI支持?
这还得从PlatON的定位说起。PlatON一个目标是要打造隐私计算的商用基础设施。这里的核心点是以商用为目标。
在现有的商业应用中接触数据最多的应该就是AI行业,而且现在整个AI行业已经遇到一个大瓶颈:数据较为分散,为了提高整个模型的精度,则必须能够拿到更多的数据;但是由于数据隐私的问题,越来越难拿到别人的数据。这个“矛盾”带来的问题已经在AI整个行业突显出来。
支持隐私AI则能在很大程度上缓解现在AI行业的“矛盾”,因而也会存在着巨大的新兴市场。从商业角度或者市场规模角度,支持隐私AI是必然的道路。
03
Rosetta框架核心是希望解决什么问题?Rosetta在整个PlatON系统中占据一个怎样的位置?
Rosetta最终目的是要为隐私计算提供快速、高效、稳定的开发框架,以解决在AI应用中数据的隐私保护问题。
PlatON是要打造“隐私计算网络”+“分布式经济体基础设施”,分布式经济体基础设施就是大家熟悉的区块链。而Rosetta则是要为建立隐私计算网络提供基础的技术框架。后续的隐私AI的应用都会基于Rosetta上来开发,当然也希望广大开发者来使用Rosetta,我们一起来不断完善。
04
能否为我们畅想一下, 解决了隐私保护问题之后的世界是什么样子的?或者说, 今天的数据隔离损害了哪些具体的效率?
要彻底解决隐私保护问题需要足够长的一段时间,甚至也不能完全解决。但是我们期待的一个世界是,数据的价值可以真正地被量化,个人对自身的数据有完全掌控权。
数据不再是被拷贝的次数越多价值越低,而是使用的次数越多价值越高。数据最终可以真正“安全”地在不同的应用中流动。
现在数据保护的问题其实是非常严重的,个人的数据在未经允许下被滥用,电话号码、身份证信息、住址等等其实都已经完全在不知情的泄漏给了第三方。希望以后的数字世界里能够缓解这些问题。
05
看到Rosetta几乎集成了所有主流的AI框架, 如果一个开发者已经用TensorFlow实现了一个AI应用, 希望迁移到PlatON上, 需要根据Rosetta做哪些工作?
Rosetta的目的是期望可以兼容各种主流的AI框架,但是我们目前还是脚踏实地的以TensorFlow作为首选。
Rosetta的最终目的就是降低熟悉TensorFlow的AI工程师使用隐私计算技术的门槛。如果已经有了一个AI应用,那么工程师只要修改极少量的代码,就可以把原来的应用迁移到隐私计算的框架下来。比如,只要引入下面的包即可:Import latticex.rosetta。
06
基于Rosetta的框架之上的第一个产品将会是什么?该产品的定位和作用可以介绍一下么?
基于Rosetta框架之上的第一个产品将会是数据银行(Data Bank)。
数据银行是一个数据资产的交易市场,以各类的数据生产要素为核心服务对象,结合隐私AI算法、PlatON区块链打造的分布式数据资产交易平台。
面向数据提供方、数据需求方和数据所有者提供全方位的技术基础设施与全方位的产品支撑,激活并高效配置数据资产,释放数据红利。
数据银行结合法规和政策,确保数据的隐私性和可用性,实现数据的可用不可见,可满足跨机构、跨行业的数据融合、联合分析和建模的需求。
07
提到AI我们不能不提大数据, 而提到大数据的第一个印象就是一个字“大”, 那么我们可否认为, 数据的价值主要是数据量的大小?
其实不然。我记得发生过一件事,某个云厂商因为技术问题丢失了一个企业客户的数据。当时是按照数据量大小赔付了几十万元,但是该企业客户依赖这些核心数据估值到了上千万。所以很明显直接按照数据量大小的估值方法是非常不准确的。
或者举另外一个例子,大家是觉得以太坊网络里面所有的公开的交易数据(大概超过了1TB)更有价值,还是手上拥有以太币的账号的私钥(32字节)更有价值?
所以,我们一直认为数据的“效用”才是体现数据价值的标准,而数据效用的体现离不开隐私计算。
08
Rosetta框架是面向哪些潜在用户的?他们愿意选择Rosetta的理由会是什么?
最直接的用户应该是AI开发者,最大的理由就是可以复用存量的代码,一键转换。
当然还包括另外两类潜在用户,一类是隐私计算算法开发者,包括密码学,TEE等等。也特别希望他们能把好的算法和框架结合起来,为最终的AI开发者提供更多的工具。
另一类就是架构师,在Rosetta的团队里,我们有之前长期从事编译器的同事,经验丰富的软件架构师,以及算法的同事一起在配合。
为了了解TensorFlow的底层架构,我们花了2到3个月左右的时间一行一行读TensorFlow的底层代码。我们也深知现在对于TensorFlow底层架构的了解还不够,所以也希望这方面的高手和我们一起来打磨和改善Rosetta。
09
Rosetta开发框架预计什么时候能和开发者正式见面?
Rosetta的v0.1.1版本已经在Github上开源了,大家可以从这里访问:
欢迎大家Star/Watch/Fork。
10
对于不同的企业之间的数据一起共享来做模型训练来说,在Rosetta技术上是通过什么方式来支持?
这个问题我们把它叫做联合建模,这是Rosetta支持的最经典的一种场景。
在传统的方式下,开发者用TensorFlow写一个模型,然后把数据收集起来进行训练。当然,现在这种方式不再能行得通,因为基本上很难把企业的数据收集到一起。
那用Rosetta的解决方式很简单,还是利用原来的代码,稍微添加一些内容(比如,import latticex.rosetta),把这段代码部署在不同的企业之间。就可以进行安全的联合建模,也就是说大家一起训练,但是不需要收集原始数据了。
底层的技术,我们目前是采用的安全多方计算(MPC)来实现的,当前的版本支持三方一起来进行联合训练,后续我们会在丰富这些算法。
11
未来我的计算可能是放在某个云计算中心, 但是我又不希望云计算平台看到我的敏感数据, 这种情况下Rosetta可以帮到我吗?
这是Rosetta考虑的另外一个场景,我们叫做安全的数据外包,采用的是同态加密算法的技术。大概原理是用户把数据加密之后存放在云端。云端对数据不可见,但是通过同态加密算法可以对数据进行操作。
我们的后续版本会集成同态加密算法,可以让开发者无门槛地从普通的计算方式切换到基于同态加密的计算方式。
12
PlatON有打算如何支持开发者更好地理解和使用Rosetta?
首先,在我们的github上有比较详细的使用说明,包括examples和tutorials,欢迎大家去试用和提意见。
另外,我们预计会有一系列的技术讲解和活动,来让大家熟悉如何利用Rosetta搭建隐私AI的模型训练和预测。
最后,我们也会结合一些现有的案例,来为广大开发者介绍如何在实际案例中使用Rosetta。