導(dǎo)讀:這項(xiàng)研究增加了越來(lái)越多的證據(jù)表明面部識(shí)別容易受到有害的、普遍存在的偏見(jiàn)的影響。
面部識(shí)別系統(tǒng)存在問(wèn)題的原因有很多,其中最重要的一點(diǎn)是它們往往對(duì)某些人口群體和性別表現(xiàn)出偏見(jiàn)。近日,麻省理工學(xué)院研究人員還進(jìn)行了一項(xiàng)新研究,即研究AI對(duì)某些面部表情的偏見(jiàn)。研究人員稱(chēng),表情對(duì)面部識(shí)別系統(tǒng)的影響“至少”與戴圍巾、帽子、假發(fā)或眼鏡有影響一樣,而且面部識(shí)別系統(tǒng)在這方面是用高度偏差的數(shù)據(jù)集訓(xùn)練的。
這項(xiàng)研究增加了越來(lái)越多的證據(jù)表明面部識(shí)別容易受到有害的、普遍存在的偏見(jiàn)的影響。研究人員去年秋天發(fā)表的一篇論文顯示,亞馬遜、微軟等公司的人工智能對(duì)順性別男性和女性的準(zhǔn)確率都在95%以上,但有38%的情況下,將跨性別男性誤認(rèn)為女性?!靶詣e色彩項(xiàng)目”和美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)對(duì)主要供應(yīng)商系統(tǒng)的獨(dú)立基準(zhǔn)測(cè)試表明,面部識(shí)別技術(shù)表現(xiàn)出種族和性別偏見(jiàn),同時(shí)表明目前的面部識(shí)別程序可能非常不準(zhǔn)確,有時(shí)錯(cuò)誤分類(lèi)率高達(dá)96%。
在他們的研究過(guò)程中,合作作者使用三種不同的領(lǐng)先的人臉識(shí)別模型進(jìn)行了實(shí)驗(yàn),這些模型在包括VGGFace2(一個(gè)包含超過(guò)9100人的300萬(wàn)張圖片的數(shù)據(jù)庫(kù))和MS1M-ArcFace(擁有超過(guò)85000人的580萬(wàn)張圖片)的開(kāi)源數(shù)據(jù)庫(kù)上進(jìn)行了訓(xùn)練。他們將它們與四種語(yǔ)料庫(kù)進(jìn)行對(duì)比,具體規(guī)模如下:
● 這種復(fù)雜的面部表情包含了230個(gè)人在實(shí)驗(yàn)室控制的環(huán)境下拍攝的照片。
● 擴(kuò)展的Cohn-Kanade(CK+),一個(gè)最廣泛使用的用于訓(xùn)練和評(píng)估面部表情識(shí)別系統(tǒng)的數(shù)據(jù)庫(kù),包含123個(gè)人的593張照片序列
● CelebA是一個(gè)大規(guī)模的人臉屬性數(shù)據(jù)集,包含10000位名人的20萬(wàn)張圖片。
● 微軟于2016年發(fā)布的一項(xiàng)面向公眾的人臉識(shí)別基準(zhǔn)和數(shù)據(jù)集MS-Celeb-1M,該數(shù)據(jù)集包含了100萬(wàn)名名人的近1000萬(wàn)張圖片。
正如研究人員指出的那樣,長(zhǎng)期以來(lái),學(xué)術(shù)界和企業(yè)一直從網(wǎng)絡(luò)、電影和社交媒體等來(lái)源上搜集面部照片,以解決模型訓(xùn)練數(shù)據(jù)稀缺的問(wèn)題。像大多數(shù)機(jī)器學(xué)習(xí)模型一樣,面部識(shí)別模型需要大量的數(shù)據(jù)才能達(dá)到基本的精確度水平。但事實(shí)證明,這些數(shù)據(jù)來(lái)源通常是不平衡的,因?yàn)橐恍┟娌勘砬楸绕渌砬楦怀R?jiàn)。例如,人們傾向于在社交網(wǎng)絡(luò)上分享更多快樂(lè)的臉,而不是悲傷的臉。
為了通過(guò)表情對(duì)四種基準(zhǔn)語(yǔ)料庫(kù)中的圖像進(jìn)行分類(lèi),研究人員使用了來(lái)自Affectiva的軟件,該軟件可以識(shí)別多達(dá)7種面部表情:6種基本情緒和中性表情。他們發(fā)現(xiàn),在所有數(shù)據(jù)集中,“中性”圖像的比例超過(guò)了60%,在微軟MS-Celeb-1M名人圖片庫(kù)中達(dá)到83.7%。第二常見(jiàn)的面部表情是“快樂(lè)”,在所有的數(shù)據(jù)集中,大約90%的圖像顯示的是一個(gè)“中立”或“快樂(lè)”的人。至于其他5種面部表情,“驚訝”和“厭惡”的比例很少超過(guò)6%,而“悲傷”、“恐懼”和“憤怒”的比例非常低(通常低于1%)。結(jié)果也因性別而異。在VGGFace2中,“快樂(lè)”女性的數(shù)量幾乎是“快樂(lè)”男性數(shù)量的兩倍。
研究人員在一篇描述他們工作的論文中寫(xiě)道:“一方面,模型是使用高偏差的數(shù)據(jù)進(jìn)行訓(xùn)練的,這些數(shù)據(jù)會(huì)導(dǎo)致異構(gòu)性能。另一方面,人們只會(huì)對(duì)主流表情進(jìn)行評(píng)估,隱藏了其對(duì)某些特定面部表情圖像的真實(shí)表現(xiàn)。此外,性別偏見(jiàn)也很重要,因?yàn)樗赡軙?huì)導(dǎo)致男女雙方的表現(xiàn)不同?!?/p>
接下來(lái),研究人員進(jìn)行了一項(xiàng)分析,以確定像CelebA這樣的示例集中的面部表情偏差對(duì)面部識(shí)別系統(tǒng)預(yù)測(cè)的影響程度。在上述三種算法中,在顯示“中性”或“高興”表情的人臉上,性能更好,這也是訓(xùn)練數(shù)據(jù)庫(kù)中最常見(jiàn)的表情。這項(xiàng)研究的結(jié)果表明,面部表情的差異并不能誘使系統(tǒng)誤認(rèn)為一個(gè)人是另一個(gè)人。然而,他們也暗示,面部表情偏差會(huì)導(dǎo)致系統(tǒng)的“真實(shí)”比較分?jǐn)?shù)(衡量算法區(qū)分同一張臉圖像的能力的分?jǐn)?shù))之間的差異高達(dá)40%。
研究人員只使用了某個(gè)軟件來(lái)對(duì)情緒進(jìn)行分類(lèi),這可能會(huì)在他們的實(shí)驗(yàn)中引入無(wú)意識(shí)的偏見(jiàn),而且他們沒(méi)有測(cè)試任何商業(yè)部署的系統(tǒng),比如亞馬遜的Rekognition、谷歌Cloud的Vision API或微軟Azure的Face API。盡管如此,他們主張?jiān)谖磥?lái)的人臉識(shí)別數(shù)據(jù)庫(kù)中減少面部表情偏差,并進(jìn)一步開(kāi)發(fā)適用于現(xiàn)有數(shù)據(jù)庫(kù)和已經(jīng)在問(wèn)題數(shù)據(jù)集上訓(xùn)練過(guò)的模型的偏差減少方法。
研究人員表示:用于開(kāi)發(fā)和評(píng)估人臉識(shí)別系統(tǒng)的人臉數(shù)據(jù)庫(kù)缺乏面部表情的多樣性,這一缺點(diǎn)之一是會(huì)導(dǎo)致系統(tǒng)存在安全漏洞,面部表情的微小變化很容易誤導(dǎo)圍繞這些有偏見(jiàn)的數(shù)據(jù)庫(kù)開(kāi)發(fā)的人臉識(shí)別系統(tǒng)。面部表情對(duì)人臉識(shí)別系統(tǒng)計(jì)算出的匹配分?jǐn)?shù)有影響。這種影響可能會(huì)被利用為一個(gè)可能的漏洞,從而降低匹配的概率。