1. 首页 > 财经资讯

苏宇:利用技术识别算法歧视因素 破解差别对待“黑箱”

  近日,由对外经济贸易大学数字经济与法律创新研究中心举办的“算法公平治理与实现”研讨会在线上举行。中国人民公安大学数据法学研究院院长、法学院副教授苏宇从技术角度出发,介绍了算法歧视的识别方法。

  苏宇将算法歧视的识别分为两大类情形、四种具体情况:第一类情形是代码本身有明显缺陷。其中,第一种情况是将与歧视有关的敏感变量及相应的区别性处理规则直接写进代码;第二种情况是代码尽管不直接包含基于敏感变量的歧视性规则,但包含基于替代变量的歧视性规则。

  第二类情形是代码本身没有明显缺陷或者不方便探知源代码。此种情形下可进一步划分两种情况:一是从算法解释中可以清楚发现歧视性因素,用标准化的算法解释方法即可揭示其中包含的算法歧视;二是无法为差别对待的结果提供合理解释。

  针对不同的歧视情况,苏宇副教授介绍了不同的识别方法:对于第一类情形,代码直接包含基于敏感变量或替代变量的歧视性规则,直接检查代码就可以发现问题;对于第二类情形,不直接包含基于敏感变量或替代变量的歧视性规则,可能需要运用反事实解释等算法解释方法,发现其中隐含的歧视。

  如果算法解释显示存在歧视性因素,可通过研究不同变量对机器决策产生影响的程度,判断是否存在不能接受的歧视因素。具体而言,算法解释的常用方法主要有七种,包括局部依赖图、单个条件期望、置换特征重要性、全局代理、局部代理、沙普利值、反事实解释等。其中,局部依赖图、单个条件期望、置换特征重要性、沙普利值、反事实解释五种对揭示歧视性因素的解释都是有说服力的。有些解释方法可以结合使用,例如局部依赖图可以显示一种变量对于机器学习模型预测结果的总体边际效应,而个体条件的期望是显示具体个案中的单个变量对决策有什么样的结果,二者可结合使用。整体上,基于沙普利值的解释方法可能最有利于识别算法歧视。

  如果既接触不到源代码,也无法从中直接找到输入的敏感因素,则需要用到因果关系挖掘的方法。如果算法歧视的证明标准特别高的时候,仅有相关性是不够的,还需要把因果性证明出来,以具备足够的说明力。此时,首先需要发现输入的敏感因素或其替代变量与输出的歧视性结果之间有强相关关系,随后基于因果结构方程建立因果模型,或通过其他方式进行因果关系挖掘。由于证明因果关系相当困难,法律上还可采用另一种方式,即让算法应用运营者承担一定的举证义务来说明为何会产生具有歧视性色彩的强相关结果。

  苏宇认为,如果识别算法歧视的相关路径成熟,那么测量便是顺理成章的事情。识别和测量是一体的,而测量对技术的要求更高。

(文章来源:中新经纬)

本文来源于网友自行发布,不代表本站立场,转载联系作者并注明出处