某些研究需要敏感的数据集,比如学校营养午餐与学生健康之间的关系、企业薪资股权激励的有效性等,这些有价值的数据通常会涉及隐私信息。在经过多年努力之后,谷歌密码学家和数据科学家提出了一种全新的技术来实现这种“多方计算”(multiparty computation),而不会向任何无关的人公开信息。
谷歌将发布一款名为“Private Join and Compute”的开源加密工具,可以快速连接不同数据集的数字列信息,并计算其中数据的总和、计数或平均值,但计算结果只能通过解密才能查看——这意味着,你也许只能获得结果,而计算过程中的数据是无法获得的。
事实上,“Private Join and Compute”开源加密工具的原理可以追溯到二十世纪70年代和90年代,但谷歌已经重新利用并更新了技术,以便与当今功能更强大,更灵活的处理器配合使用。
谷歌隐私工具和基础设施工程总监阿曼达·沃克(Amanda Walker)表示:
“最终的结果是,谷歌可以在不暴露任何个人数据的情况下执行计算,然后只获得汇总结果。实现这一目标的原生方法是获取两个敏感数据集,将他们转储到一个数据库里,再进行连接和汇总,不过如果你将所有内容放在一起,那么就可能会面临数据泄露的风险。”
以学校午餐为例,学校提供有关学生以及食物储存时间的所有信息,但随着时间的推移,需要使用卫生保健服务提供者的数据来追踪菜单变化是否可能对学生的健康产生积极影响。“Private Join and Compute”开源加密工具能够允许各方持有非常敏感的数据,但却不会相互泄露敏感信息。
“Private Join and Compute”开源加密工具使用了二十世纪70年代的“交换加密”(commutative encryption)技术,允许使用多个密钥对数据集中的数据进行加密,而无需考虑密钥的使用顺序。该技术有助于多方计算,用户需要应用、并剥离多层加密,但却不会对加密数据执行的计算产生影响。更重要的是,“Private Join and Compute”开源加密工具还结合了二十世纪90年代的一些加密方法,这些方法能让系统组合两个加密数据集,确定它们的共同点,然后通过称为“同态加密”(homomorphic encryption)的技术直接对这个加密加密且不可读的数据执行数学计算。
阿曼达·沃克补充说道:
“我们发现早期的系统非常有限,只能做一部分操作,因此谷歌就在考虑是否能够优化这些加密操作,答案当然是肯定的。”
谷歌已经发布了一篇技术论文,描述了“Private Join and Compute”开源加密工具如何被学术和行业加密用户使用的。由于谷歌正在开源这款工具,因此未来会有更多机会审查该工具的安全性和隐私性。
泰尔·马尔金(Tal Malkin)是哥伦比亚大学密码学家,他表示自己很早就看过了这篇论文,并认为这款新工具代表着加密行业向前迈出了重要一步,因为它来自于谷歌,而且还是开源的。利用这种方式,可能会促使那些充斥着用户数据、并希望管理数据隐私的企业使用谷歌的加密工具。
泰尔·马尔金表示:
“自二十世纪80年代以来,安全计算一直是密码学重点研究的领域,但直到最近才被业内认为是一种专业的理论研究。我认为,谷歌希望开放这个重要的隐私技术,这非常令人兴奋。”
事实上,包括谷歌在内的很多企业都希望利用“Private Join and Compute”开源加密工具在不超越隐私范围的前提下研究私人数据。
文章翻译自 Wired