·阅读提示·
近期,关于AI伦理和AI歧视的话题屡见不鲜,其中不乏针对女性的歧视。AI对女性的偏见主要有贬低女性、女性代表性不足、刻板印象、识别能力弱四类。对于人工智能背后的性别偏见,本文作者倡导从女性学与算法学两个方面分别进行去偏,认为建立一个完整的偏见审查机制是一个可能的着力方向;同时提出,在追求性别平等的同时,科学技术、大数据背后所引发的其他社会不公平、不正义现象也应为人类所警惕。
■ 彭鲲志 黄隽恺
算法是绝对科学的么?我想绝大多数人的答案是否定的。然而,在算法已潜入生活方方面面的当下,我们却总是不自觉地倾向于信赖算法。前段时间引发热议的文章《外卖骑手,困在系统里》展示了围绕着智能算法的各方是如何依赖着算法指令,在“科学”的引导下陷入困境。面对我们对算法科学性习惯性盲从,数据科学家凯西·奥尼尔(Cathy O'Neil)认为,算法神祇或许是一位男性神——人工智能及其背后所谓科学的算法隐含着大量的性别偏见——而科学膜拜却遮蔽了我们发现性别偏见的眼睛。
算法中的性别偏见
在最近的新闻中,关于AI伦理和AI歧视的话题屡见不鲜,其中包括针对女性的歧视:谷歌图片搜索中“CEO”的结果几乎全部是男性,翻译软件总是将“医生”翻译为男性而将“护士”翻译为女性。
正如人类的偏见和歧视不可避免一样,AI的性别偏见是真实存在的。AI对女性的偏见可以总结于如下四类:贬低女性、女性代表性不足、刻板印象、识别能力弱。人工智能六大领域中“自然语言处理”的核心算法之一——词嵌入,便表现出了其中若干项:在“女人:男人”=“A :B”的映射测试中,不仅产生了“垒球:棒球”这样的刻板印象划分,更出现了贬低性的“保姆:老板”组合。
性别偏见背后是强大的歧视理论和算法过程,算法以代码形式重新包装后进一步放大的社会偏见,无形地让女性利益受损,加剧了社会既有的性别歧视。
性别偏见产生的机制:社会学角度和算法结构
对于隐藏在科学面具下的不公,凯西·奥尼尔为这种有害的模型取了一个有些讽刺的名字:数学毁灭性武器WMDs,其缩写与大规模毁灭性武器相同。在某种意义上,这个修辞上的小心机也展示了大规模使用算法可能造成的杀伤力。那么,一个有缺陷的算法何以产生?
我们可以简单地把人工智能的代表算法之一——神经网络算法,理解为一个有许多层级的回归函数。通过大量的训练数据,算法将不断调整其中的系数,以使得对训练集的整体误差最小。不难发现,人工智能的本质是一个对大数据特征进行提取后形成的“黑箱”。正是通过这些特征值,这个“黑箱”才得以对新的个例做出预测。
大规模的数据是AI实现的基础,而算法被用于处理大量个案,那么哪些个体的需求能够成为一个算法的主要目的?答案显而易见,在统计性歧视的作用下,弱者的需求被消解。除性别以外,女性的种族、阶层、年龄、性取向等都成为女性被歧视的原因。单身女性现状或许能成为大数据参与交叉性压迫的例证:媒体通过大量报道“剩女”“单身母亲”等话题,并利用“平均工资低”“年龄大”等刻板印象对单身女性进行污名化。这种刻板印象不仅反映在单身女性被歧视,也成为其他算法系统学习的数据,构成一个不恰当的反馈回路,加剧了性别不平等。
如何判断一个算法是否有偏见
可以见到,不公平的算法实际上正在加剧不平等,而算法本身的非实体性则很好地为他们开脱了罪名。假定我们接受了这种“让机器拥有话语权”的方式,则必须引入一个更高维的框架对算法进行约束与评价。作为一个无法了解详细结构的“黑箱”,AI算法的各个层级难以被规范化。在一个只有输入和输出的模型中,算法的输入数据只能通过筛选来规范,那么我们应该如何评价算法的结果?
一个广为接受的评价体系——机会平等,是罗尔斯所提倡的平等理念在机器学习领域的体现,即在不同群体中,有资格并被判断为有资格的个体所占比例相同。对于算法公平性不同定义的应用广泛体现在了各个去偏算法中,而它们的结果却令人不甚满意:大部分去偏算法只是掩饰了一部分偏见。
那么,针对算法中依然存在的性别偏见,与其追求平等的概率,是否可以采取一个更为激进的角度,要求一种暂时的“不平等”,以对女性这一弱势群体做出补偿? 我们认为,想要实现机会公平,一种“补偿正义”是必要的:必须保证每个人发展能力的机会平等。我们期望算法结果中针对以女性为代表的弱势群体的“优待”——这不仅能够为弱势群体提供更多的展示的空间,更可以为未来算法学习提供数据。
偏见的去除探索
AI的背后是一套人造的算法模型,这是无法跳脱出的桎梏。百年前的遴选模型必然不适用于今日,需要AI背后的工程师们为它注入灵魂。而对于性别偏见,我们倡导从女性学与算法学两个方面进行去偏。
性别偏见在家庭、生育、职场等领域频繁出现。算法模型记录了历史状态,因而我们可以更多地关注训练数据、算法模型的选择。同时,我们可以吸纳更多的女性进入AI研究队伍。LinkedIN的分析发现,全球只有22%的AI专业人士是女性。长期以来,以男性为主的创作者难免将偏见带入算法设计,使AI以男性的视角来看待这个世界。程序的设计者应从资本、父权与技术背后走出来,真正地回到人群中。
此外,人工智能的“黑箱”模型并非完全不能干预——我们期望从算法的角度介入大数据中的性别偏见。如今许多去偏算法,如几年前流行的“硬去偏”和谷歌最近在翻译中施行的“覆写式去偏”,都是通过修改某个与性别偏见有关的数值,进而干涉算法结果的例子。此外,建立一个完整的偏见审查机制以平衡训练数据中的性别比例和“特征-性别”联系,或许是未来去偏的一大方向。
人工智能在展现其有利于人类的生活一面时,其性别偏见却令人心有戚戚。在追求性别平等的同时,科学技术、大数据背后所引发的社会不公平、不正义现象也应该为人类所警惕。人类性别平等的理想不应该迷失在技术的海洋里。
(彭鲲志为美国田纳西州查塔努加市贝勒中学高四学生,黄隽恺为南京大学学生)