数据合规科技的风险辨识及规制需求

  • A+
所属分类:数据合规风险

数据合规科技的风险辨识及规制需求

数据合规科技的理念源于欧美立法者广泛推崇的“通过设计保护隐私”,即在设计之初就将数据安全的需求嵌于其中,成为技术运作的缺省规则,而不是出现问题之后,才将法律规则赋于其上。我国科技部“伦理先行、敏捷治理”的倡议同“通过设计保护隐私”有异曲同工之妙,体现出积极预防而非被动救济、正和共赢而非零和博弈的全周期数字正义价值观。遗憾的是,当前数据合规科技的各项技术面临通信开销大、性能效率低、传输复杂度高、与主流技术体系磨合不佳等瓶颈,技术应用的前端、中端和后端均可能引致不同程度的系统性风险。厘清风险嵌入数据合规科技的技术途径,是明确规制需求的基本前提。

方案构建维度的风险

方案构建是数据合规科技应用的起点,目的在于将抽象的数据处理需求,比照着监管规则的技术约束转化为程序和代码可以处理的计算问题。例如,欧盟通用数据保护条例(下简称GDPR)对跟踪广告提出了更高的隐私保护需求,数据处理者想要在不降低广告跟踪性能的前提下安全、合法地调取用户数据,就需通过安全多方计算的技术范式对原有的数据处理过程予以重构。数据合规科技的方案由主导方提出,主导方以技术的受益权为对价换取多个参与方的数据集和算力投入,各方在意思表示一致后开始合作。在数据合规科技场景中,解决特定问题的数理过程依然经由算法实现。弱人工智能阶段,算法逻辑直接映射自然人逻辑,开发者的价值观负载和内隐性偏见将导致自动化决策系统失误。数据合规科技为算法自动化决策施加了诸多限制性条件,使得主导方在代码编写和技术开发过程中不得不心怀更多顾虑,转译过程的精确性更加无法保证。

具体而言,安全多方计算通常以降低数据清洗成本为起点,技术方有时会摒弃清洗成本较高的非结构化数据,采用生成对抗网络(GAN)产生的模拟数据。联邦学习中参与“集训”的初始模型必须具备相当程度的适应性品格,才能在多个数据源间往返流转,这种适应性品格使得初始模型通常承载着多功能乃至多目的因而丧失本应具备的专用性和专属性。可信执行环境的硬件封闭和低代码平台算法间的相互嵌套带来了衔接和协作方面的问题,让转译过程中的偏差和耗散更为严重,毕竟,“中间步骤越多,就越不能终局地定义概念”。数据合规科技虽向外拓展了自动化决策的维度,但随之而来的代价是,方案制定者的内心成见将被技术显化,代码意涵与真实意涵相去甚远。规制的需求,因风险的存在而存在,如何降低转译偏差,加固技术性较高的监管薄弱环节,提升底层代码表意的准确性,是数据合规科技规制需要考虑的第一层问题。

数据整合维度的风险

数据是风险嵌入数据合规科技的另一条重要途径。数据匮乏将导致机器学习模型过拟合现象。借用权重衰减实现岭回归的正则化策略,虽能有效提高模型泛化性能、防止过拟合,但由于权重向量在梯度更新之前先行收缩,该举措经常会导致模型规则的修改。数据合规科技的重要价值之一,在于显著拓宽了模型的数据来源渠道,但有时数据渠道本身也是风险的根源:首先,互联网等外部渠道数据的来源合法性难以甄别;其次,共享模式下数据流转更加复杂和难以控制,数据使用边界无法限定;再次,各方数据问题可能相互传染,激发数据安全的连带风险。机器学习模型遵循算法逻辑,从大数据的具体样例中“温故而知新”出足以指导实践的普遍规则。多方安全计算利用更大的数据池形成规则集、联邦学习借用大数据增量完成自我迭代、低代码平台使用旧数据训练的模型解决新问题等过程,实质上是提取数据增量中隐藏秩序、规则和倾向,并将其用于未来发展的感知与决策的过程,不会背离过往数据所体现出的关系特征。

本来,大数据的“多渠道和合”有望修正数据采集的天然瑕疵。最理想的情况是,因样本分布过于离散导致代表性不足的数据暗点、因样本过于集中导致代表性过剩的数据亮斑、因遗漏误录导致样本缺失的数据盲区,都能因为不同源头数据集之间的取长补短而完全消失,抹平单一数据集的结构性差异。例如,通过联邦学习技术,仅能较好识别标准普通话的语音识别软件可能因方言数据集参与模型训练而减少识别错误;倾向于对流动人口作出高危警示的犯罪预测系统,或随全国违法数据的加权平均,矫正对外地人的偏见。但是,数据合规科技经常在相互渗透的行业间进行,各技术数据源的选择标准有时过于僵化,为合规而采取的安全保护手段也因成本限制而日渐趋同,数据合规科技的数据聚合过程可能反而会放大数据集的原本缺陷,导致暗点更暗、亮斑更亮、盲区更盲。简言之,数据合规科技虽然大幅增加了可供机器学习模型深度挖掘的大数据体量,但如果增加的大数据异质化程度较低,数据量和模型性能之间仍然不呈线性关系,在过拟合问题之外,还可能由于噪声侵入进一步降低系统效率。如何将数据资源的非均衡性考虑在内,建立科学的数据筛选和容忍机制,是数据合规科技规制需要考虑的第二层问题。

技术适用维度的风险

数据合规科技固有的“白盒特性”,导致了技术适用维度的人机对抗风险。所谓“白盒特性”,是指数据合规科技中的各参与方都可以直接获取完整的技术参数,恶意攻击者同样可以利用该特性伪装成诚实参与方窃取运算结果、扭曲模型训练、破解可信环境或生成恶意低代码。数据合规科技的安全研究,大多都建立在同一个假设之上,即,除了主导方、中央服务器是中立可信的,其他所有终端和参与方均不能排除尝试获取用户隐私和对抗系统的可能,即使他们严格按照协议方案执行程序。正因为如此,一般依据危害性从低到高将数据合规科技的参与方划分为三种类型:诚实但好奇的、暗自觊觎的、纯粹恶意的。此种划分方式表明,随着利益需求的不断变化,各参与方的角色也可能发生改变。当隐私泄露时,“没有一片雪花是无辜的”。

数据合规科技长期面临单点故障和人为攻击的安全隐患,其威胁主要来自三个方面。其一,刻意上传破坏模型。出于安全考虑,中央服务器没有访问各参与方本地数据的权限,因此,即使是诚实但好奇的参与方也可能因为上传不正确的数据或模型导致运算结果误差或全局模型损坏。在实践中,不可信服务器的恶意投毒、样本对抗和后门攻击往往更加致命,也更为常见。其二,回推手段获取信息。好事者无需采用任何非法手段,通过比较数次单独运算结果同多方计算结果的差异、分析本地模型更新与全局模型的迭代、窥视加密解密的双向过程等,就足以从中获取相当丰富的推论信息。其三,恶意服务器围猎用户隐私。纯粹恶意的敌方可能直接对用户数据集、训练模型参数、模型预测标签以及模型返回结果下手,通过对抗式网络攻击、成员推理攻击、属性物理攻击和模型反演攻击等方式获取用户隐私数据。

更严重的是,防御体系的升级速度,赶不上数据量的指数级增长。即便有所防范,训练集中只要包含3%的中毒数据,模型误差将从12%上升至23%。通过隐写术反汇编,恶意参与方可以将病毒和流氓软件悄无声息地传输至目标设备中,攻击成功的概率在九成以上。对于司空见惯的32位浮点数、权值较低的机器学习框架(例如PyTorch、TensorFlow等),恶意负载行为既不会显著影响原始模型性能,也不会对神经网络的全局判断造成影响,可以规避杀毒引擎的安全扫描。如何引导各参与方怀抱诚实和善意,在“你中有我,我中有你”的交互中做到“人人为我,我为人人”,是数据合规科技规制需要考虑的第三层问题。

结果输出维度的风险

“个人信息不仅关涉个人利益,而且关涉他人和整个社会利益,具有公共性和社会性。”模型不精确、数据瑕疵放大、用户隐私泄露等问题,可能导致普遍存在的算法歧视从个体歧视上升至群体歧视。算法歧视主要源于数据集偏差或数据缺陷,在数据合规科技场景中,不同来源数据间的强搭和错配可能对联合数据造成冲击与扰乱,使歧视规模性放大。除了数据投毒等极端手段,诚实但好奇参与方的数据输入因数据梯度同其他参与方相差过大,也可能间接导致模型被污染,输出歧视性结果。

单次歧视的即时危害虽不易被察觉,却足以在更长时间维度和更长数据链条上产生积累式影响,联邦学习全局模型的不断轮回就将导致群体歧视泛滥。例如,一线城市的银行对高净值客户的划分标准显著高于二三线城市,若不加区分地将银行数据整合并通过联邦学习训练客户画像模型,加权得出的高净值客户划分标准定然对二三线城市客户产生歧视。同理,当不同学校的毕业生数据被用于训练招聘筛选系统、当男性占绝对多数的IT行业数据和其他行业数据被共同用于训练升职评价系统时,同身份紧密捆绑的群体歧视将假模型共训之名,从数据向模型蔓延。如何对“因时间、空间等联结形成的特定对象的个人信息加强精准保护”,减少歧视的发生,是数据合规科技规制需要考虑的第四层问题。

应用市场维度的风险

机器学习模型映鉴社会运营的多元要素及其复杂互动,透过算法将连贯重叠的个体生活分割成彼此独立的静态片段。在数据合规科技大规模部署前,面对相似或相异的受众,不拘一格的智能应用被限制在各自为政的领域,彼此之间没有交流与协作,更多地是算法间的“朝上竞争”—效率高、服务好、安全稳定的智能应用将获得更高市场份额,兴风作浪、过度榨取用户剩余的智能应用将面临被淘汰或整改的命运。数据合规科技可能逐渐导致算法趋同,在技术黑箱的掩护之下,过去算法间的朝上竞争极有可能向逐底竞争转变。对数据规整性要求不高、通信成本更低、算法可解释性匮乏的智能应用,或将随着数据合规科技的跑马圈地,逆向淘汰相对保守的传统智能应用。如何避免智能应用的“逆向淘汰”,是数据合规科技规制需要考虑的第五层问题。

上述五个维度的风险并非技术变革的产物,而是前沿科技打破传统算法应用数据处理惯例的必然结果。易言之,虽然打着合规的旗号,数据合规科技所遵循的内在机理耦合了风险产生的技术规律。应对风险的本土化策略,是紧密结合我国实情,向前检视当前数据安全法律体系的制度余量,向后探索符合数据合规科技发展规律的规制路径。

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: