圖靈獎得主被罵到退推之後，MIT因AI數據集涉嫌種族歧視致歉並宣佈永久下架

純粹的科學研究和保持倫理標準並不相斥。

MIT 道歉並永久下線含偏見內容的數據集

近日，MIT計算科學與人工智能實驗室CSAIL宣佈永久下架一個高引用的用於訓練人工智能系統的數據集。因爲該數據集帶有一定偏見問題，其在訓練時可能使用涉及種族主義、女性歧視和其他有問題的術語。

據悉，該訓練數據集創建於2008年，包含8000萬張圖像。其中包括一個更小版本的圖像集（Tiny Images），有220萬張圖片，可以從CSAIL網站上搜索和閱讀。這個包括220萬圖像的可視化數據庫，連同完整的可下載數據庫，在週一從CSAIL網站上被移除。

該數據集主要用以產生更先進、精確的物體檢測技術，能夠教會機器學習模型自動識別和列出靜態圖像中描繪的人和物體。

本質上，它是一個巨大的照片集合，圖片帶有描述性的標籤，所有這些標籤都可以輸入到神經網絡中，教會它們將圖片的模式與描述性標籤聯繫起來。不過，該系統可能會對女性、黑人和亞洲人使用侮辱性語言。該數據庫還包含女性隱私部位的特寫照片，這些照片上標有“c”字。

應用程序、網站和其他依賴於使用MIT數據集訓練的神經網絡產品在分析照片和攝像機鏡頭時可能最終會使用這些術語。

這個數據集與ImageNet訓練集一起被用來作爲計算機視覺算法的基準。不過，與知名度更高的ImageNet不同的是，在此之前，還沒有人對這個圖像數據集中有問題的內容進行仔細檢查過。

硅谷隱私初創公司UnifyID的首席科學家Vinay Prabhu和愛爾蘭都柏林大學的博士候選人Abeba Birhane仔細研究了MIT的數據庫後發現，數千張圖片的標籤上帶有對黑人和亞洲人的種族主義辱罵，以及用於描述女性的貶義詞彙。

該圖顯示了MIT數據集中標有所選問題單詞的圖片數量。

他們在一篇提交給明年計算機視覺會議的論文中提到了一些細節，例如黑人和猴子的圖片標有“n”字；用粗糙的術語標註解剖部分等。這類圖像不必要將日常情景與侮辱性語言聯繫起來，並將偏見植入未來的人工智能模型中。

這是220萬張圖像數據集的可視化截圖。這裏展示了一些數據集的“妓女”標籤示例，出於法律和倫理原因，我們對其進行了馬賽克處理。這些照片包括一個女人，一個母親抱着她的孩子和聖誕老人的頭像照，色情女演員和一個穿比基尼的女人等

CSAIL的電子工程和計算機科學教授Antonio Torralba對問題數據集做出迴應。他表示，實驗室根本沒有意識到數據集中存在這些冒犯性的圖像和標籤。“我們真誠地道歉，並將數據集下線，以刪除違規圖片和標籤”。

在隨後的一份聲明中，CSAIL表示道歉，並作出了永久下架涉事數據集的決定。

引起我們注意地是，Tiny Images圖像數據集包含一些貶義詞分類和冒犯的圖像。這是依賴於WordNet中的名詞自動數據收集過程的結果。我們對此非常關注，並向可能受到影響的人們道歉。

由於數據集太大(8000萬幅圖像)，而圖像太小(32 x 32像素)，人們很難從視覺上識別其內容。因此，人工檢查，即使可行，也不能保證令人反感的圖像被完全刪除。

因此，我們決定正式撤銷數據集。它已脫機，並且不會重新聯機。我們要求社區將來不要使用它，並刪除可能已下載的數據集的任何現有副本。

爲圖像數據集註釋的詞彙庫WordNet存在隱患

CSAIL實驗室承認，他們在沒有檢查是否有攻擊性圖片或語言的情況下，從互聯網上自動獲取了這些圖片。

Vinay Prabhu和Abeba Birhane在研究論文中也提到，這些圖像是從谷歌圖像中被抓取來的，排列在75000多個類別中。

這個數據集包含53464個不同的名詞，都是直接從WordNet拷貝過來的。普林斯頓大學將英語單詞分類成相關集的數據庫，然後這些系統就會自動從當時的互聯網搜索引擎上下載相應名詞的圖片，並使用當時可用的過濾器來收集8000萬張圖片。

WordNet是在20世紀80年代中期在普林斯頓大學的認知科學實驗室中創建的，這個數據庫基本上繪製了單詞之間是如何關聯的。不過，WordNet中的一些名詞中帶有種族主義俚語和侮辱性詞彙。

幾十年後的今天，很多學者和開發人員將其作爲方便的英語詞彙倉庫。構建巨大的數據集時，需要某種結構，在這種情況下，WordNet提供了一種行之有效的方法，爲計算機視覺研究人員分類和標籤他們的圖像。

伴隨着WordNet的廣泛使用，其包含的問題術語也困擾着現代機器學習。

作爲一個單詞列表，WordNet本身可能沒那麼有害，不過當與圖像和AI算法結合在一起時，它可能會產生令人不安的後果。正如Abeba Birhane所說:“WordNet項目的目的是繪製出彼此接近的單詞，但當你開始把圖片和這些詞聯繫起來時，你其實是在把一個真實的人的照片和那些有害的詞語聯繫起來，這些詞語會使人們的成見根深蒂固。”

ImageNet也存在同樣的問題，因爲它也是使用WordNet進行註釋的。

在這些巨大的數據集中，有問題的圖像和標籤所佔的比例很小，很容易被當作異常現象而不予理會。然而，Vinay Prabhu和Abeba Birhane認爲，如果這些材料被用於訓練現實世界中使用的機器學習模型，可能會造成真正的傷害。”缺乏對權威數據集的關鍵參與，會對女性、種族和少數民族以及處於社會邊緣的弱勢個體和社區造成不成比例的負面影響。”

這些羣體在AI訓練數據集中往往沒有得到很好的表示。這也是人臉識別算法在識別女性和膚色較深的人時遇到困難的原因。今年早些時候，底特律的一名黑人因被面部識別軟件誤認爲小偷嫌疑人，而被警察錯誤逮捕。

“人們不會考慮這些模型將如何應用，或者它可以用於什麼。“他們只是想‘哦，這是我能做的很酷的事情’。但當你開始深入思考時，你就會發現所有這些潛在的目的，並看到這些危害是如何顯現的”，Birhane說。

像ImageNet這樣的大型數據集和8000萬張小圖片也經常在未經人們明確同意的情況下，通過從Flickr或谷歌圖片上抓取圖片來收集。Facebook就僱傭了一些“演員”，這些“演員”同意將自己的面孔用於一個數據集，該數據集是爲了教軟件檢測電腦生成的僞造圖像。

Prabhu和Birhane認爲，社交網絡的方法是一個好主意。學術研究不太可能有資金支付訓練數據。“我們承認，沒有完美的解決方案來創建一個理想的數據集，但這並不意味着人們不應該嘗試創建更好的數據集。

二人建議模糊數據集中的人臉識別，仔細篩選圖像和標籤以去除任何冒犯性的內容，甚至使用真實的合成數據來訓練系統。

反種族歧視浪潮在科技界進一步蔓延

MIT的行動表明，這場由美國黑人跪殺事件而引發的反種族歧視浪潮進一步蔓延到了學術界。

近日，反種族歧視的抗議在美國科技界愈演愈烈，多位科技圈大佬受到了波及。

6月29日，圖靈獎得主、Facebook 首席 AI 科學家 Yann Lecun 宣佈，自己將退出推特。在做出這一決定之前，他在推特上已經經歷了長達2周的“罵戰”，這令他不堪其擾。“罵戰”爭執的焦點在於帶有種族歧視傾向的PULSE 算法引起爭議，而Yann Lecun 被指責爲其辯護。

PULSE 算法由美國杜克大學科研團隊提出。該算法能夠將16x16像素的馬賽克人臉圖像，轉換爲1024x1024的高清圖像，分辨率提升高達64倍。新生成的人臉，毛孔、皺紋甚至一縷頭髮等細節都清晰可見，足以以假亂真。本質上，該算法是運用了“對抗生成網絡”（StyleGAN）工具，生成了看上去真實但實際上並不存在的人臉。

熱度剛起來沒多久，就有人發現了PULSE 算法存在的巨大漏洞。有網友發現，輸入模糊的奧巴馬照片，輸出時卻變成了一張白人面孔，而同樣輸入其他黑人或亞裔人的模糊人臉圖像，輸出的無一例外都是白人頭像。這招致了廣泛的批評，ULSE 算法被指帶有嚴重的種族歧視傾向。

爭議四起之時，Yann LeCun 發了一條推特分析 PULSE 爲什麼會出現這樣的偏見 — 因爲訓練數據集存在數據偏差。

沒想到卻意外“引火燒身”，Yann LeCun的言論引起了不少科技界人士的不滿，他們認爲，Yann LeCun 對於“AI的公平性”的理解過於片面。

後來，Yann LeCun連發 17 條推文解釋自己的立場，但反對者並不買賬。最後只能無奈宣佈退出推特。

Yann Lecun 之後，谷歌AI 掌門人 Jeff Dean緊接着成爲了下一個捲入風波的大佬。

事情的起因很有意思。哥倫比亞大學的一位黑人女性研究員、PresGAN 作者，Adji B. Dieng 因爲DeepMind舉辦的一場GAN普及課程中沒有提及她的研究成果PresGAN而感到不滿，她認爲其成果之所以被無視，主要是因爲她是一個黑人女性。而也是因爲種族歧視在，儘管她的論文已經發表9個月了，但被他人引用的次數僅有3次。

Adji B. Dieng 在推特上發文詰問DeepMind。有一個理性的網友Gwern在去看了Adji B. Dieng 的論文後發現，其論文水平不怎麼樣，引用次數少也在情理之中。Adji B. Dieng 也不甘示弱，她反譏Gwern是一個“優生主義者”。

Adji B. Dieng還意外發現，谷歌的 AI 掌門人 Jeff Dean竟然關注了Gwern，於是她開始喊話Jeff Dean，“你也關注了這個人，但我相信你不知道他是一個優生主義者”。就這樣，什麼也沒做的Jeff Dean 被捲入到了輿論旋渦中。不少人質疑，Adji B. Dieng這波操作有點強行“碰瓷”的意思。

從 Yann Lecun推特、Jeff Dean無辜 “躺槍” 再到MIT道歉，近期在科技界密集發生的輿論風波也在一定程度上表明，這場反種族歧視浪潮似乎有些變味了，變得有些混亂了。借用Prabhu和Birhane的一個判斷結束此文，從事良好的科學研究和保持倫理標準並不相互排斥。

參考鏈接：

https://www.theregister.com/2020/07/01/mit_dataset_removed/

圖靈獎得主被罵到退推之後，MIT因AI數據集涉嫌種族歧視致歉並宣佈永久下架

MIT 道歉並永久下線含偏見內容的數據集

爲圖像數據集註釋的詞彙庫WordNet存在隱患

反種族歧視浪潮在科技界進一步蔓延

容器中nginx無法使用同一個網絡下的容器域名

Python: SunMoonTimeCalculator

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

NETCore中實現一個輕量無負擔的極簡任務調度ScheduleTask

docker使用特定的網絡

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

nodejs學習07——API

避免DbContext同時在多個線程調用

GPT-4o 引領人機交互新風向，向量數據庫賽道沸騰了

商湯之後，又有8家企業被美國列入投資黑名單，AI四小龍全部中招

月活1.3億，月交互次數達20億，OPPO小布助手技術與應用探祕

2021，百度飛槳交出最新成績單

被美國列入投資黑名單，商湯科技緊急迴應；傳19家互聯網大廠裁員；Log4j 爆“核彈級”漏洞，波及Flink等十餘個項目 | AI一週資訊

全球首個知識增強千億大模型來了！2600億參數，代碼將在近期開源

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結