上次社区给大家开小灶,恶补了隐私保护的几种方法,这次谈一谈隐私保护的全生命周期。
这次是以浅浅社区微信小程序为例子,虽然它还没有上线,但仍然可以分享其中的原理。我们很高兴可以为来自五湖四海的社区成员们开这次的课程小灶,还请多多支持浅浅社区。由于笔者水平有限,如果有哪里出现错误,也欢迎大家指正。
一、当我们注册浅浅社区的时候,就需要录入用户的个人信息,包括但不限于用户的昵称、性别、出生日期、籍贯、学历等基础属性。同时还包括用户使用浅浅社区时所产生的定位信息、点赞、评论、发布动态等行为数据。我们把这个部分称作隐私数据的产生。
二、我们内部要使用隐私感知算法,处理用户产生的数据,从中构建隐私变量集合或者是从变量集合中确定隐私变量的取值范围,产生隐私元数据。然后对这些数据中的隐私信息进行标记、分级,计算它们的概率分布。得到隐私元数据的概率分布之后,就能较为方便对隐私尺度的大小进行刻画,为实现后续的隐私保护奠定基础。
三、经过隐私感知算法的处理,浅浅社区已经知道哪些数据属于隐私变量,进而可以使用上节课我们提到的基于密码学的隐私保护、基于抗大数据分析的隐私保护以及网络信息隐藏的隐私保护这三种不同的方案。在密码学中,常见的有同态加密、混淆电路或者是秘密共享等;在抗大数据分析的方案里,最经常使用的是数据扰乱,通过消除不同隐私数据之间的关联性或者采用k-匿名方法增加对敏感属性的约束进而实现隐私保护。
我们还提到说网络信息隐藏,实际上这部分的内容跟浅浅社区开展的社区公益课程《计算机网络》有很大的联系。因为从原理上讲,网络信息隐藏是将元数据以变化的形式进行传输,同时在另外一个信道中传输对应的还原控制参数。
其实就好比应用层中的FTP协议,当两台主机通过FTP进行文件传输时,都需要打开20数据端口以及21控制端口,数据和控制分开存储和传输。这里举这个例子,方便读者简单理解网络信息隐藏的原理。
四、隐私发布。这一步骤是严格确权的,用户有权选择在公开网络中展示自己的隐私信息。
五、在前面的过程中,数据已经经过产生、感知、保护、发布,那就要有一个可信的存储平台,用于隐私数据存储。浅浅社区在这个步骤中,主要是研究数据的高效存储以及密文数据的快速检索。
六、众所周知,浅浅社区是具有社交属性的生态项目。因此有一些用户的隐私数据,比如部分基础信息以及在社区活动中产生的行为数据,这些内容是需要进行后台分析、处理、计算,成为推荐模型的训练数据。因此隐私信息的联合处理就成为我们绕不开的核心环节。
在这个环节中,并不是简单的隐私计算就能够完全做到的,因为用户对于隐私的认知是主观的,会随着时间而不断变化,从而出现数据授权的放缩。于是我们就需要设计出一套行之有效的协议与方法,能够自适应地选择不同的隐私计算方案,去主动配合用户的个性化调整。
七、当联合处理结束之后,数据的下载或者是上传都需要经过互联网,这个时候就需要考虑隐私数据在网络边界时的隐私交换问题。如何防止用户的隐私信息在这个过程中泄露出去,成为社区的一个治理难点。
八、数据解密。由于用户在联合处理的时候,使用的全是密文,因此在这个阶段,就是之前处理的逆过程。把密文解密成明文,使得信息接收者能够清楚地知道这是什么意思。
九、当用户不再需要浅浅社区的时候,社区允许用户注销账号,同时牵扯到隐私数据的可信销毁。如何确保用户的隐私信息是实实在在地被彻底的、不可逆的删除,就需要深入研究可信销毁这一重要课题。
综上所述,就是隐私保护的九大生命周期,如同生老病死,春去秋来。