【联邦广告专题】系列科普文由浅入深地介绍“联邦广告”作为线上长链路营销难题的新兴解决方案,在技术层和实践中如何发挥有效的价值。带你了解广告行业全貌与联邦广告技术最前沿,无论是广告行业的技术人员还是非技术人员都值得一看。
内容包括:
线上广告的生态背景现有 OCPA + RTA 模式的优势联邦广告中差分隐私、同态加密和隐私保护集合交集的三大隐私保护技术联邦/可信广告方案的应用场景详解上一篇文章线上广告下一站:联邦广告中我们介绍了:
广告行业现状,金融业广告投放所面临的挑战联邦广告如何有效应对这些挑战联邦广告的基本概念及基本原理今天我们就来聊聊联邦广告在保护隐私方面最重要的三大技术:差分隐私(Differential Privacy)、同态加密(Homomorphic Encryption)和隐私保护集合交集(Private Set Intersection)。基于这三大技术,联邦广告可以在保证数据隐私的前提下完成计算任务。
数字时代的不断发展给人们带来了巨大的便利,隐私保护问题也日益受到关注。有的人可能会说,我愿意放弃个人隐私来换取便利,但实际上这样的说法有两大错误。一是便利本身来源于技术进步,并非由个人隐私置换而来;二是个人隐私作为重要的个人利益,是不能放弃的。借用罗翔教授的话,“因为如果可以放弃的话,那么自由一定会导致强者对弱者的剥削。自由不能以彻底放弃自由为代价”。
随着人们隐私意识的不断加强,面对互联网和大数据带来的全新隐私挑战,越来越多国家和地区都开始以法律法规形式遏制个人信息被滥用的情况,以更好地保护个人数据隐私:
欧盟推出的 GDPR(General Data Protection Regulation, 通用数据保护条例) 已于 2018 年 5 月 25 日起正式生效。美国加利福利亚消费者隐私法案(CCPA) 于 2020 年 1 月 1 日正式生效。我国将在 2020 年制定个人信息保护法、数据安全法。这里着重提一下 GDPR 中的数据最小化原则(所收集、处理的个人数据之于其处理目的,应当准确、相关、必要)和完整、机密原则(用技术手段确保个人数据安全,不被非法处理、窃取、损毁等)。数据最小化原则中的『相关』和『必要』对于企业来说有巨大的影响,这意味着每个企业都只能拥有用户的部分信息。而完整、机密原则中强调了技术手段的重要性。
让我们用大白话重新翻译一下:
不同企业拥有关于用户的不同数据,有没有可能在不泄露隐私的前提下,充分利用多方数据?有哪些技术手段可以在保证用户隐私的前提下完成计算?接下来我们就围绕这两个问题,用大白话来聊聊差分隐私(Differential Privacy)、同态加密(Homomorphic Encryption)和隐私保护集合交集(Private Set Intersection) 究竟是怎么回事。
02差分隐私 Differential Privacy
差分隐私这个词被大众熟知是在 2016 年苹果的 WWDC 大会:用户数据加密后上传到苹果服务器后,苹果可以用这些加密后的数据计算出用户群体的相关特征,但无法解析某个个体的信息。不过差分隐私并非苹果原创,来自微软的 C. Dwork 早在 2006 年便首次提出隐私的概念。
举一个贴近生活的例子,假如我们班 50 个同学举办毕业晚会,最后有抽奖环节,特等奖一共 5 名,为了保持神秘,并不公布名单。所谓差分攻击,就是当我打听到了其他 48 个同学的中奖情况,实际上第 49 个同学是否中特等奖我也就知道了(如果包括我在内的 49 个同学已有 5 人特等奖,那么最后一个同学肯定没中奖;如果只有 4中奖,那么最后一个同学就肯定中奖了)。
差分隐私正是为了应对差分攻击而生,简单来说就是给查询结果加噪声(实际上,也可以对源数据/模型参数加噪声),但是一定要恰到好处。噪声加太大,数据集得出的统计值就没有意义了;而噪声加太小,还是很容易被差分攻击攻破,无法保证隐私。用上面特等奖的例子来说,就是在打听除自己外 48 个同学的信息时,让有些人不说实话,那么我就无法推断第 49 名同学是否真正中奖了。
在联邦广告中,我们采用差分隐私算法保证用户隐私:广告主回传加密后的转化结果,我们是无法通过查询还原出某个用户是否有转化的。
03同态加密 Homomorphic Encryption
前面提到的差分隐私是通过加噪声来确保无法通过结果反推原始数据,但噪声毕竟是噪声,在复杂计算任务中很可能因为噪声累积而导致结果不可用,那么有没有一种方式不用添加噪声同样可以保证隐私不泄露呢?有!比如本节的同态加密算法,就是通过密码学方法来保护隐私的。
同态加密最早由 Ron Rivest, Leonard Adleman 和 Michael L.Dertouzos 在 1978 年以银行为应用背景提出。Rivest 和 Adleman 就是大名鼎鼎的 RSA 算法中的 R 和 A。虽然同态加密在1978年就已提出,但直到 2009 年,也就是三十多年过去后,“全同态加密(Fully Homomorphic Encryption)” 才由 Cragi Gentry 实现。那么同态加密为什么这么难?我们先通过一个简单的例子感受一下:
假如我想要让好朋友计算 a+b=c,最简单的方法就是直接告诉他 a 和 b 的值,然后他计算出 c 并告诉我最终结果。但是这次我想要搞神秘一点,我希望在不告诉朋友 a 和 b 真实值的情况下完成这个任务,用同态加密的方式就需要如下四个步骤:
我对 a 和 b 加密,得到 [[a]] 和 [[b]] 并发给朋友,因为加密后是无意义的字符串,所以朋友并没有办法知道 a 和 b 到底是什么值我告诉朋友我需要的计算方法是相加,也就是说我的计算函数 f() 就是求和朋友也不含糊,让我求和我求就是了,直接 [[a]] ⊕ [[b]] 得到 [[c]],并把 [[c]] 发回给我(这里就是关键!加密后仍然可以进行计算)我用自己的密钥解密 [[c]] 得到 c,就是本次计算的最终结果(加密计算后的结果能够还原,并且和未加密的计算结果一致)这里我们关注下计算函数 f(),如果 f 可以是任意能通过算法描述且计算机实现的函数,那么我们称之为全同态加密(FHE, Fully Homomorphic Encryption);如果 f 只能是一些特定的函数,那么就是部分同态加密(SWHE, Somewhat Homomorphic Encryption)。
在联邦广告中,基于计算效率的考虑,除了对算法进行优化外,我们采用的是 SWHE 加密方案,并在加密后的数据上构建转化率预估模型。能够解密的密钥保存在广告主手上,这样就更好地保证了数据隐私与安全。
04隐私保护集合交集 Private Set Intersection
提到集合交集,想必大家都不陌生,简单来说就是找到两个集合中相同的部分,用符号表示就是 “A∩B”,但是在前面加上隐私保护,问题的难度就上了好几个台阶。准确一点说,隐私保护集合交集属于安全多方计算领域的特定应用问题:在数据由不同管理者持有的条件下,通过 PSI 计算达到保护隐私与信息共享的双赢局面。我们还是用一个简单的例子来感受下:
假如我是一个游戏爱好者,想看看我和一位好朋友有多少共同玩过的游戏,但是我这个朋友对隐私比较看重,除了我们共同玩过的游戏外,不想让我知道其他他玩过的游戏。如果不用 PSI 方法的话,我就得把我玩过的游戏列表分享给他,再由他进行匹配,这样我其他玩过的游戏就暴露了。而如果采用 PSI 方法的话,就可以做到我和我的朋友都知道我们共同玩过的游戏,并且我玩过的其他游戏他不知道,他玩过的其他游戏我不知道。
上面的场景可能不够硬核,我们再来看看 PSI 在线上广告场景中的使用。在线上广告的流程中,曝光和点击发生在广告平台上,广告主没有这部分信息;而点击后的一系列转化行为(如收藏、购买等)则发生在广告主提供的落地页中,广告平台没有这部分信息。如果我们想要确定对应广告平台上的真实转化率,就需要对广告平台的数据以及广告主数据求交集。那么问题来了,双方的用户信息都是私密的,但却需要通过求交集找到关联上的数据,这个时候就是 PSI 方法大显身手的时候了。采用 PSI 方法不但可以打通线上广告前后端流程,同时保护了双方的用户隐私。
正是因为 PSI 方法应用非常广泛,从 Google 到 Facebook,从百度到字节跳动,都分分开始落地应用。我们的联邦学习方法也不例外,通过 PSI 方法保证广告主和广告平台的隐私的同时,可以快速进行模型迭代。
经过前面的介绍,大家应该已经大致了解联邦广告是如何利用差分隐私、同态加密和隐私保护集合交集这三大技术,为广告主和广告平台在线上广告投放的全链路为隐私保驾护航。总结一下就是:
通过差分隐私技术杜绝可能的差分攻击,保障广告主转化数据的隐私通过同态加密技术保证计算过程中数据隐私与安全,只有广告主有最终揭开结果的钥匙(密钥)通过隐私保护集合交集在保证广告主和广告平台数据隐私的前提下打通广告投放前后端,使得全链路优化成为可能
没想到吧!为了保障数据隐私,在看起来很细微的地方也要做大量工作呢。别着急,接下来我们会继续深挖联邦广告,敬请期待!