首先,我们调查了语言模型对AAE发言人的态度是否反映了人类对非裔美国人的刻板印象。为此 ,我们复制了普林斯顿三部曲的实验设置29,30,31,34,这是一系列研究的研究,研究了美国人所拥有的种族刻板印象 ,不同的区别并没有公开提及语言模型的种族,而是使用了基于AAE和SAE文本的匹配的Guise探测(方法)(方法) 。
定性地,我们发现人类与非洲裔美国人最强烈相关的形容词以及语言模型与AAE最强烈相关的形容词,尤其是对于早期的普林斯顿三部曲研究(图2A) ,形容词与非洲裔美国人最强烈的形容词存在实质重叠(图2A)。例如,这五个形容词与GPT2,罗伯塔(Roberta)和T5的AAE最密切相关 ,与1933年和1951年的Princeton Trilogy研究中与非洲裔美国人最强烈相关的五个形容词共享三个形容词(“无知”,“懒惰 ”和“愚蠢”),与10,000次置于供应范围内的五个形式相关的是<0。Princetton Trilogy研究 ,<10,000次置换了10,000次供应 。此外,该语言模型代替了积极的形容词(例如“音乐”,“宗教 ”和“忠诚”) ,表现出额外的负面关联(例如“肮脏”,“粗鲁”和“激进 ”)。
为了更定量地调查这一点,我们设计了一种平均精度的变体51 ,该变体衡量了人类与非洲裔美国人最强烈相关的形容词之间的一致性,以及根据语言模型(方法)与AAE与AAE的关联,形容词的排名。我们发现,对于所有语言模型 ,与大多数普林斯顿三部曲研究的一致性大大高于偶然的预期,如10,000个形容词随机排列所产生的协议分布所示的,这是偶然的(平均值(M)= 0.162 ,标准偏差(S)= 0.106; Extended数据表1);并且该协议对于1933年报道的刻板印象特别明显,此后每项研究都下降了,几乎达到了2012年的机会水平(图2B)。在补充信息(“形容词分析”)中 ,我们探索了模型版本,设置和提示之间的变化(补充图2和补充表4) 。
为了解释观察到的时间趋势,我们测量了所有普林斯顿三部曲研究和语言模型的前五名形容词的平均可爱性 ,这是根据普林斯顿三部曲形容词的人群评级得出的,以-2和2之间的规模(非常负)(非常积极)(非常积极;请参见“掩盖 - terepypype分析”)。我们发现,随着时间的流逝 ,普林斯顿三部曲研究中报道的人类对非裔美国人的态度的可爱性变得更加积极,并且语言模型对AAE的态度甚至比最负面的实验记录的人类对非裔美国人的态度更为负面(1930年代的人类对非裔美国人的态度;在补充信息中,我们提供了支持人类和语言模型之间这种差异的进一步定量分析(补充图7)。
此外,我们发现种族语言刻板印象不仅反映了语言模型中公开的种族刻板印象 ,而且构成了一种根本不同的偏见,在当前模型中并未减轻 。我们通过检查语言模型对非洲裔美国人的公开询问时所表现出的刻板印象(方法,“明显的敏感性分析 ”)时展示了这一点。我们观察到 ,对于所有语言模型,公开的刻板印象在情感上比秘密刻板印象要高得多(图2A和扩展数据图1)。令人惊讶的是,对于罗伯塔(Roberta) ,T5,GPT3.5和GPT4而言,尽管他们对AAE说话者的秘密刻板印象比最负面记录的人类刻板印象更为消极 ,但他们对非裔美国人的公开刻板印象比最积极的人类刻板印象更为积极 。对于接受HF训练的两种语言模型(GPT3.5和GPT4)尤其如此,其中所有公开的刻板印象都是积极的,所有秘密刻板印象都是负面的(另请参见“方言偏见的分解性”)。在与人类对非裔美国人的刻板印象的一致方面 ,公开的刻板印象几乎永远不会表现出比偶然预期的相当强大的一致性,如根据10,000个随机排列而导致的一致分布计算出的单方面t检验(m = 0.162,s = 0.106;扩展数据表2)。此外,公开的刻板印象总体上与2012年的人类刻板印象最相似 ,而与秘密刻板印象完全相反的趋势是不断下降的一致性(图2B) 。
在补充信息(“特征分析”)中描述的实验中,我们发现种族语言刻板印象与AAE的单个语言特征直接相关(图2C和补充表14),并且这种语言学特征的密度更高 ,导致更强的刻板型关联(补充图11和补充表13)和补充表13)。Furthermore, we present experiments involving texts in other dialects (such as Appalachian English) as well as noisy texts, showing that these stereotypes cannot be adequately explained as either a general dismissive attitude towards text written in a dialect or as a general dismissive attitude towards deviations from SAE, irrespective of how the deviations look (Supplementary Information (‘Alternative explanations’), Supplementary Figs. 12 and 13 and补充表15和16)。还测试了两个替代解释的单个语言特征 。
因此,我们发现了在语言模型中存在秘密种族语言刻板印象的大量证据。我们的实验表明,这些刻板印象类似于在民权运动之前存在的关于非洲裔美国人的古老人类刻板印象 ,甚至比对非洲裔美国人的人类刻板印象最负面,甚至更为负面,并且在有性上和定量上都与以前报道的与以前报道的公开的种族刻板印象不同 ,这表明他们是一种差异。最后,我们的分析表明,检测到的刻板印象与AAE及其语言特征固有地联系在一起。
本文来自作者[admin]投稿,不代表象功馆立场,如若转载,请注明出处:https://wap.xianggongguan.cn/life/202506-339.html
评论列表(3条)
我是象功馆的签约作者“admin”
本文概览: 首先,我们调查了语言模型对AAE发言人的态度是否反映了人类对非裔美国人的刻板印象。为此,我们复制了普林斯顿三部曲的实验设置29,30,31,34,这是一系列研究的研究,研究...
文章不错《AI根据他们的方言产生关于人们的秘密种族主义决定》内容很有帮助