如何實現算法中的公平性

機器學習的公平性問題近幾年受到越來越多的關注,該領域出現了一些新的進展。機器學習訓練在涉及到性別、種族等與人相關的敏感屬性時,常常會由於統計性偏差、算法本身甚至是人爲偏見而引入歧視性行爲。由此,爲消除差別影響,改進機器學習公平性,主要途徑包括提高訓練數據集質量、改進算法降低對敏感屬性的依賴以及定義指標量化和衡量歧視程度。本文分析了算法歧視的致因,側重於數據問題給出了公平性的定義,介紹了統計均等等度量指標。文章也指出,各種算法公平性定義指標法都有其優缺點,並無法就公平性達成共識。因此,算法公平性並不能直觀看成一種數學或計算機科學問題。本文的目的是使廣大讀者切身理解根植於機器學習算法中的不公平性。爲此,作者力圖以易於理解的方式闡釋概念,避免使用數學表達。希望每位讀者都能從閱讀本文受益。

本文首發於Medium網站,經由原作者授權,InfoQ翻譯並分享。

“做好人容易,但做到公正不易”——維克多·雨果,法國文學家

“我們需要捍衛那些我們從未謀面、甚至永遠不會謀面的人的利益。”——Jeffrey D. Sachs,美國經濟學家

有監督機器學習算法在本質上是判別性的。這種判別性的根源,在於算法是根據嵌入在數據中的特徵信息進行實例分類的。的確,現實中此類算法就是設計用於分類的。判別性同樣體現在算法的命名上。有別於根據特定類別生成數據的“生成算法”,此類對數據分門別類的算法通常稱爲“判別算法”。使用有監督的機器學習時,這種“判別”(discrimination,也可表述爲“歧視”、“區別對待”)有助於按不同分佈將數據劃分爲不同類別,如下圖所示。

圖1:判別算法和生成算法對比示例。注意:圖中的生成算法根據給定類別的概率分佈繪製數據點(圖中藍色數據點),而判別算法的目的是判定各分佈間的最優分隔界限。(圖片來源:Stack Overflow)

對任一數據集應用任何一種判別算法,無論是支持向量機、普通線性迴歸等參數迴歸算法,還是隨機森林、神經網絡、Boosting等無參數迴歸算法,輸出結果本身在道德上並不存在任何問題。例如,可以使用上週的天氣數據去預測明天的天氣,這在道德上毫無問題。然而,一旦數據集涉及對人類相關信息的描述時,無論是直接的還是間接的,都可能無意中導致特定於羣組從屬關係的某種歧視性。

人們已經認識到,有監督學習算法是一把雙刃劍。它可以迎合人們的利益,例如提供天氣預報等信息服務,或是通過分析計算機網絡,檢測攻擊和惡意軟件進而起到防護作用。但從另一方面看,它在本質上也會成爲在某一層面上實施歧視的武器。這並不是說算法的所做所爲是邪惡的,它們僅僅學習了數據中的表示,但這些表示本身可能融入了歷史偏見的某種具體呈現,或是某個人的好惡和傾向性。數據科學中常說的一句習語就是:“垃圾入,垃圾出”,意思是模型高度依賴於所提供的數據質量。在算法公平性的場景中,可類似地表述爲:“輸入有偏差,則輸出有偏差”。

數據原教旨主義

數據原教旨主義(data fundamentalism)擁躉者甚衆。他們認爲,通過對數據的經驗觀察,可以反映出世界的客觀真相。

“數據足量,其義自見。”——Chris Anderson,《Wired》前主編,也是一位數據原教旨主義者。

數據和數據集並非客觀的,而是人類設計的產物。人們賦予數據以表達,從中推理,並以自身的解釋去定義數據的內涵。隱藏在收集和分析階段的偏見帶來了很大的風險,它們對大數據等式的影響和數字本身是一樣的。”——Kate Crawford,微軟研究院社會媒體組首席研究員

原教旨主義者的假設從表面看似乎合情合理。但Kate Crawford在《哈佛商業評論》( Harvard Business Review )撰文給出了一個很好的反駁:

“波士頓市存在着坑洞的問題,每年需修補約兩萬個坑洞。爲有效地配置資源,波士頓市政府發佈了一款很好用的智能手機應用StreetBump。該應用利用智能設備的加速度計和GPS數據,以非主動方式探測坑洞,然後立即上報市政府。雖然該應用的理念非常好,但存在一個明顯的問題。美國低收入人羣擁有智能手機的可能性較小,尤其是一些老年居民。此類人羣的智能手機普及率可低至16%。對於波士頓這樣的城市而言,意味着智能手機數據集中缺少了一部分重要人羣,通常是那些底層生活者。”——Kate Crawford

從本質上看,StreetBump應用獲取的數據主要來自相對富裕社區,來自相對貧困社區的數據則較少。這會導致人們的第一感覺是,相對富裕的社區存在更多的坑洞。但事實上,是因爲來自於相對貧困社區的數據不足,社區居民不太可能具有智能手機去下載SmartBump應用。通常情況下,對結果產生影響最大的,正是數據集中缺失部分的數據。上面的例子很好地展示了一種基於收入的歧視。因此,在基於數據給出結論時,我們需要謹慎,因爲數據中可能存在着“信號問題”。這種信號問題常被稱爲“採樣偏差”。

另一個很好的例子是“替代制裁的罪犯矯正管理分析”算法(Correctional Offender Management Profiling for Alternative Sanctions),簡稱爲COMAS。COMAS算法被美國許多州採用去預測累犯,即曾經犯過罪的人再次犯罪的可能性。但調查新聞機構ProPublica的分析表明,該算法存在對美國一些受保護階層的種族歧視問題,這引發了廣泛爭議。爲說明問題,預測累犯的算法可概要描述爲:

累犯風險評分 = (年齡-w )+(首次被捕年齡-w )+(暴力歷史 * w )+(職業教育 * w )+(違法歷史 * w )

其中w是權重值。很明顯,預測器並未使用種族作爲特徵變量,但是基於美國曆史上的不公,以及人口統計、社會、執法統計數據等因素看,“暴力歷史”、“職業教育”等變量的數據分佈在不同種族間存在着顯著差異。而執法統計數據也同樣倍受爭議。警察巡邏的街區通常也是使用算法確定的,而算法使用了數據分佈上的差異,引入了種族間的差異,進而在某種程度上導致結果偏向或是不利於某個種族。這些根深蒂固的偏見通過算法得以實施後,將繼續維持這一結果,導致進一步的不公平。這樣的循環從本質上看形成了“自證預言” (self-fulfilling prophecy)”,即:

歷史不公正 → 訓練數據 → 實際應用中的算法偏差

由此引發了一系列的棘手問題。我們是否應該刪除那些存在問題的變量?如何確定某個特徵會導致歧視性結果?是否需要設計一個能給出“歧視性”閾值的指標?一個極端的做法是刪除近乎所有變量,這將導致算法無所適從。儘管解決問題的前景看上去不甚明朗,但幸運的是總會有辦法的。本文隨後將進行闡述。

上面給出的例子並非一些孤立事件。同樣,乳腺癌預測算法也會呈現出一定程度上的不公平歧視。研究提出對乳房X光成像使用深度學習算法預測乳腺癌,但對黑人女性的準確率要低於白人女性。這在一定程度上是因爲用於訓練算法的數據集主要基於白人女性的乳房X光成像,以及黑人女性和白人女性間的乳腺癌數據分佈可能存在很大差異。據美國疾病控制中心的研究表明,“黑人女性和白人女性患乳腺癌的比例大致相同,但黑人女性死於乳腺癌的比例要高於白人女性。

研究動機

由此引發了算法開發人員的動機問題。設計模型的人是否存在故意性?他們是否故意夾帶私貨,並將其隱藏在不透明的機器學習模型中?

儘管對該問題無法確定地給出是或否的回答,但在提出問題時,一個好的做法是考慮漢隆剃刀(Hanlon’s razor)原則:

“能解釋爲愚蠢的,就不要解釋爲惡意。”—— Robert J. Hanlon

換句話說,謝天謝地這個世界上並沒有那麼多惡人,惡人肯定要少於不稱職的人。合理的假設是,當事情出錯時,更可能是由於無能、天真或疏忽,而非完全出於惡意。雖然可能有一些惡意行爲者想要推行歧視性做法,但這些人畢竟是少數。

基於上述假設,那麼問題出在哪裏?有人提出,對於能控制和糾正歧視的有監督學習算法,統計學家、機器學習實踐者、數據科學家和計算機科學家並未受過相應的專業開發培訓。

那麼爲什麼會這樣?

事實上,目前相關的專業技術培訓並不存在。公平性是機器學習領域的一個新興分支。由於機器學習在過去數年中迅速融入社會的方方面面,公平性問題受到了越來越多的關注。與醫生等職業不同,計算機科學家並不一定會接受訓練,學習考慮自身行爲的道德影響。直到最近,也有人說是隨着社交媒體的出現,計算機科學家的設計和創造才體現出倫理層面上的問題。

事實上,大多數計算機科學期刊在提交論文時,並不要求一併給出道德聲明或考慮。如果論文中使用了包含數百萬真人圖像的圖像數據庫,無疑需要考慮道德方面的問題。鑑於物理距離和數據集規模之大,計算機科學家無需考慮對個體的影響,這可以被認爲是微不足道的,進而對此忽略不計。不同於此,社會學家和心理學家在對小組個體開展測試時,必須成立完整的倫理審查委員會去審查和批准實驗,以確保研究不會跨越任何倫理界限。

好的一面是,事情正在逐漸改變。越來越多的數據科學和計算機科學項目,開始要求學生參加數據倫理和批判性思維方面的課程。各學術期刊也逐漸認識到,通過機構審查委員會(Institutional Review Boards,IRB)開展倫理審查並在論文中加入倫理陳述,是同行評審過程的必要補充。隨着對機器學習公平性關注的與日俱增,上述立場正不斷加強。

機器學習的公平性

圖2 在過去幾年中,機器學習的公平性日益成爲研究熱點。圖片來源:UC Berkley開設課程“CS 294:機器學習的公平性”

正如前文所述,有監督機器學習的廣泛採用,引起了人們對算法公平性的關注。隨着算法的廣泛採用,對人們生活的控制也會日益增加,人們的擔憂也隨之加劇。機器學習社區同樣十分清楚這些挑戰。算法公平性是當前一個快速發展的機器學習子領域,Moritz Hardt、Cynthia Dwork、Solon Barocas和Michael Feldman等優秀的科研工作者已投身其中。

儘管如此,要實現真正公平的算法,仍有一些重要挑戰尚待解決。差別處理(disparate treatment)在算法中相對易於避免,即可對不同組顯式地執行差異化處理,例如從數據集中刪除對應於種族、性別等特定屬性的變量。但避免產生差別影響(disparate impact)則相對困難得多。數據中的冗餘編碼(redundant encoding)的問題,通常會導致對不同組非顯式地執行差異化處理的結果。

圖3 差別影響的圖示。圖中兩組數據在分佈上存在顯著差異,導致算法輸出上存在差異,這與分組並無明顯的相關性。圖片來源:KdNuggets

冗餘編碼根據數據中存在的與種族、性別等受保護屬性相關的特徵,給出這些屬性的信息。例如,網購化妝品等商品與性別屬性可能存在高度相關性;根據郵政編碼等屬性,算法可獲取不同種族人口的分佈特徵。

儘管算法並不會按上述思路進行判別,但對於在模式識別任務上已超越人類表現的數據驅動算法,不可避免地會處理嵌入在數據中的關聯,無論這些關聯是多麼小。此外,如果關聯是非信息性的,即不會增加算法的準確性,那麼將會被算法忽略。這意味着,受保護的屬性中的確嵌入了某些信息。這對研究人員提出了許多挑戰,例如:

  • 公平性和準確率之間是否存在本質上的權衡?是否能夠從受保護屬性(譯者注:原文是“特徵”)中抽取出關聯信息,以免產生歧視性處理?

  • 如何從統計學上測定算法中的“公平性”?

  • 如何確保政府和公司推出能保護個體公平性的算法?

  • 如何判定訓練數據中的偏差?如何降低偏差的影響?

下面,本文將展開討論。

數據中存在的問題

在上一節中提到,冗餘編碼導致特徵與受保護屬性間存在關聯性。隨着數據集規模的不斷擴大,產生關聯的可能性也相應增加。在大數據時代,這是一個大問題:能夠獲得的數據越多,可用信息中存在歧視的也就越多。歧視不一定僅限於種族或性別,也可以表現爲對粉色頭髮人的歧視,對網絡開發人員的歧視,對星巴克咖啡消費者的歧視,甚至是對各種羣組組合的歧視。本節給出幾種訓練數據和算法中存在的偏差,這些偏差導致創建公平性算法問題複雜化。

多數偏差(The Majority Bias)

算法本身並不會偏向任何特定的羣組,但在統計上的確更偏向於多數羣組。正如Moritz Hardt教授在Medium博客文章中指出,分類器通常會隨訓練數據點數量的增加而改進,因爲誤差範圍與樣本數的逆平方根相關。如下圖所示。

圖4 分類器的誤差通常隨樣本數的逆平方根下降。樣本數增加四倍,誤差率下降一半。

現實令人不安。少數羣組從定義上看通常具有較少的數據,因此模型對少數羣組的表現往往差於對多數羣組的表現。上述假設只有在多數羣組和少數羣組是從不同分佈中抽取的情況下才能成立。如果二者是從同一分佈中抽取的,那麼增加樣本規模對兩個羣組同樣有利。

一個例子就是前文介紹的乳腺癌檢測算法。在這個由麻省理工學院的研究人員開發的深度學習模型中,訓練神經網絡所用的數據集中包括6萬張乳房X光檢查圖像,只有5%是黑人女性的,這些患者死於乳腺癌的可能性高達43%。因此,使用該算法對黑人婦女等少數羣組進行測試時,性能相對較差。這可部分歸因於有色女性乳腺癌通常會在較早期表現出症狀,該現象表明差別影響是由於有色女性概率分佈的代表性不足而造成的。

這也給出了另一個重要的問題,那就是準確率(accuracy)是否能很好地表示公平性?在上面的例子中,由於對少數羣組存在不公平,人們就認爲對少數羣組的分類準確率也較低。然而,由於公平性在定義上的差別和在性質上的模糊性,很多情況下並不能確保我們的測定值很好地表示了公平性。例如,我們的算法對黑人女性和白人女性的準確率同樣可達50%。但如果對白人女性存在30%的誤報(假正),對黑人女性存在30%的漏報(假負),那麼也表明存在着差別影響問題。

就上面的例子而言,由於存在基於羣組從屬關係的差別處理,我們可以很直接地認爲存在某種形式的歧視。然而,有時這種羣組從屬關係對預測是非常有用的。例如,電子商務網站會試圖向不同用戶展示特定的內容,因此掌握每個個體的性別、年齡或社會經濟地位等信息是非常有用的。這意味着,如果簡單地從數據中刪除受保護屬性,就會降低模型的準確率,乃至其它一些性能指標。同樣,如果具有足夠的黑人女性和白人女性乳腺癌模型的相關數據,我們就可以開發一個輸入爲種族的算法。考慮到種族間在數據分佈上存在差異,新算法更有可能提高對不同種族的準確率。

因此,爲提高算法的泛化能力,最好應考慮受保護屬性;並且爲防止產生歧視,算法應受到公平性指標的約束。

該理念是Moritz Hardt和Eric Price在論文“監督學習的機會均等”(Equality of Opportunity in Supervised Learning)中提出的。機會均等相對於統計均等(Statistical Parity)和補償機率( equalized odds)等指標更具優勢。下面將對上述三種方法分別作出闡釋。

“公平性”的定義

本節將介由機器學習公平性研究人員提出的一些概念,包括統計均等,以及與統計均等存在細微差別的機會均等(equality of opportunity)和補償機率等指標。

統計均等(Statistical Parity)

統計均等是歷史最悠久、也是最簡單的強制公平性指標。在arXiv預發表論文“算法決策和公平性代價”(Algorithmic decision making and the cost of fairness)中,詳細闡釋了統計均等概念。統計均等的計算公式如圖5所示。

圖5 統計均等計算公式。簡而言之,輸出​獨立於參數p,即p不會影響輸出概率

那麼應該如何理解統計均等的輸出獨立於所屬的羣組?這意味着每個羣組的同一部分被分類爲正或負的機會是均等的。由此,統計均等也被稱爲“羣體均等”(demographic parity)。對於所有歸入p的羣組,會強制執行統計均等。

對於未使用統計均等的數據集,可使用圖6公式計算統計均等距離(statistical parity distance),給出預測偏離統計均等的程度。

圖6 統計均等距離用於定量分析預測偏離統計均等的程度。

統計均等距離提供了一種基於組羣從屬參數p衡量數據集公平性的指標。

那麼使用統計均等存在哪些權衡考慮?

首先,統計均等並不能確保公平性

大家可能已經注意到,統計均等並不反映預測的準確率。如果一個羣組預測爲正的概率高於另一個羣組,那麼兩個組在假正率和真正率上可能給出很大的差異。這本身就造成了差別影響,即偏向一個組(p=1)中的不合格個體,就可能會遺漏另一個組(p=0)中的合格個體。從這個意義上說,統計均等更類似於“結果均等”(equality of outcome)。

下圖給出很好的展示。如果有兩組人,一組有10人(稱爲“A=1”組),另一組有5人(稱爲“A=0”組),如果給定“A=1”組中有8人得分Y=1(80%),那麼無論如何“A=0”組中也必須有4人得分Y=1(80%)。

圖7 統計均等示例。圖片來源:杜克大學課程“Privacy & Fairness in Data Science”教學筆記

第二,統計均等降低了算法準確率

統計均等的第二個問題是,儘管受保護屬性可能會給出一些對預測有用的信息,但受限於統計均等的嚴格規則而無法得以利用。例如,性別對預測人們的意向購買商品非常有用,無法使用它將導致模型變弱,準確率也會受到影響。好的方法應能在不產生差別影響的情況下考慮羣組間的差異。顯然,統計均等並不符合準確率這一機器學習的根本目標。一個好的分類器可能並無法確保統計均等。

鑑於以上問題,多位機器學習公平性研究人員認爲,統計均等並不是一個可信的指標。但統計均等可作爲構建其它公平性指標的基本出發點。

還有一些與統計均等存在細微差別的指標,包括真正均等(true positive parity)、假正均等(false positive parity)和正率均等(positive rate parity)等。

真正均等(True Positive Parity,TPP)

真正均等也稱爲“機會均等”(Equality of Opportunity),僅適用於二分類預測。真正均等對TP類執行統計均等,即預測輸出1並且真正輸出也是1的情況。

圖8 機會均等類似於補償機率(equalized odds),但側重於“y=1”的情況。

真正均等確保兩組中的所有合格個體(Y=1)被分類爲合格(C=1)的比率均等。如果只關注輸出爲正是否均等,可使用真正均等。

圖9 真正均等的圖示。注意在第一組中,具有“Y=1”標籤(藍色方塊)的個體被分類爲正(C=1)。同樣,在第二組中,所有被分類爲“Y=1”的個體,也被分類爲正(C=1),但額外存在一個誤判情況(即FP)。圖片來源:杜克大學課程“Privacy & Fairness in Data Science”教學筆記

假正均等(False Positive Parity)

假正均等也僅適用於二分類預測,側重於FP類,即預測輸出爲1但真實輸出爲0的情況。它類似於真正率(true positive rate),但提供TP類輸出的均等。

正率均等(Positive Rate Parity)

正率均等也稱爲“均等機率”(Equalized Odds),它同時組合了TP類和FP類的統計均等。

圖10 假正均等(補償機率)的圖示。注意在第一個羣組中,所有具有Y=1標籤(藍色方框)被分類爲正(C=1)。同樣,在第二個羣組中,所有分類爲Y=1的,也同樣被分類爲正。此外,在A=1羣組中標籤爲Y=0的所有個體中,其中一個被分類爲C=1,因此假正率爲50%。同樣,在第二個羣組中,有兩個個體被分類爲C=1,假正率也是50%。圖片來源:杜克大學課程“Privacy & Fairness in Data Science”教學筆記

注意:對機會均等,我們放寬了在“Y=0”的情況下機率必須相等的均等機率約束。均等機率和機會均更靈活,能夠在不產生差別影響的情況下添加一些受保護變量的信息。

儘管上述指標都給出了某種可認爲是公平的解決方案,但都不是特別令人滿意。原因之一在於對公平性究竟意味着什麼存在許多相互衝突的定義,很難以算法的形式給出定義。這些方法提供了不錯的出發點,但也仍存在很大的改進空間。

增加公平性的其它方法

統計均等、均等機率和機會均等作爲公平性指標提供了很好的出發點。此外,還有其他一些確保算法的使用不會對個體產生過度歧視的方法。人機共生(human in the loop,HITL)和算法透明(Algorithmic Transparency)是目前提出的兩種主要解決方案。

人機共生

這個名字聽上去像是某種過山車,其實表示的是由人類監督算法過程的一種範式。人機共生通常適用於算法出錯風險高的情況。例如,導彈探測系統在探測到對方發射導彈後,需通知軍方以進行人工審覈並確定響應方式。如果沒有人工交互,算法就不會做出響應。想象一下使用人工智能運作核武器系統的災難性後果。一旦系統發現威脅就有權開火,那麼一個誤判就會導致整個世界毀滅。

另一個例子是判定累犯的COMPAS系統。系統並不會因爲將某人分類爲累犯就做出相應法律判決。相反,系統會由法官審覈COMPAS的評分,並以此作爲情況審覈中的考慮因素。這提出了一個新的問題,人類應該如何與算法系統交互。一些使用亞馬遜土耳其機器人(Amazon Mechanical Turk,MTurk)衆包平臺開展的研究表明,部分人會完全遵循算法的判斷,因爲他們認爲算法比人類掌握更多知識;而其他人則對算法的輸出持半信半疑的態度,還有些人甚至會完全忽略算法的輸出。人機共生研究是一個相對較新的研究方向,但隨着機器學習在社會中的不斷普及,在此方向上將會看到更多發展。

另一個重要的類似概念是人爲監督(human-on-the-loop),它類似於人機共生,只是人並非積極地參與過程,而是被動參與對算法的監督。例如,數據分析人員負責監控油氣管道的各個部分,以確保所有傳感器和流程都能正常運行,避免出現需關注信息或發生錯誤。其中,分析人員只是處於監督狀態,並不主動參與過程。“人爲監督”需要人的參與度更低,因此比“人機共生”具有更好的可擴展性。但並不適用於某些情況,例如監控核導彈。

算法透明度

在一些正式文獻中,實現公平性的主流方式是通過透明度實現算法的可理解性(interpretability)和可解釋性(explainability)。文獻提出,如果算法能夠得到公開觀察和仔細分析,則可高置信度地確保模型中不存在差別影響。雖然在許多層面上確實可實現算法透明度,但其中也存在着一些不足。

一些觀點認爲:專有算法從定義上就是不透明的

從商業角度看,透明性在很多情況下並不適用。如果企業向所有人提供了自己的算法和業務流程,那麼可能會泄露商業祕密或專有信息。想象一下,Facebook或Twitter被要求向全世界公佈他們的算法,以便接受審查確保不存在歧視問題。這樣任何人都可下載他們的代碼,然後啓動自己版本的Twitter或Facebook。完全透明只是政府(在某種程度上)、醫保、法律體系等公共服務使用的算法中需考慮的一個因素。鑑於法律體系是法律學者的主要關注點,因此有理由認爲這一點依然是目前的共識。

展望未來,對那些想對自身已投資的算法保密的私有企業而言,頒佈算法公平性相關的法規,是比實現算法透明度更可靠的解決方案。Andrew Tutt在論文“An FDA For Algorithms”中對此理念進行了探討,並提出組建類似於FDA的監管機構去規範算法。算法可以提交給監管機構,或者是第三方審計服務,進行分析以確保它們的適用性,以及不會產生差異影響。

誠然,實現透明度仍需進行大量的探討、投入大量的資金,並拓展相關的專業知識。但在我看來,透明度解決方案似乎可行。要確保算法免受差別處理和差別影響的干擾,依然有很長的路要走。隨着法規、透明度、人機共生、人爲監督,以及新提出的統計均等改進方法的綜合使用,情況正在得到改進。但公平性這一研究領域仍然處於起步階段,還有許多工作要做。該領域值得關注。

結束語

本文了詳盡闡釋了存在於訓練數據集中的多種偏差,這些偏差是由於訓練數據的收集和分析方式所導致的。進而給出了幾種降低偏差影響的方法,以確保算法不會對少數羣組和受保護階層產生歧視。

機器學習在本質上存在某種形式的統計性歧視。並且一旦將某些特權羣組置於系統性的優勢地位,而將某些非特權羣組置於系統性的不利地位,那麼這種歧視就會變得令人反感。由於存在於標籤上的偏見、欠採樣或過採樣,導致訓練數據中存在偏差,模型也會存在不爲人需的偏差。

有些人提出,決策是由人們基於部分信息做出的,而決策者所做的決策可能會受自身存在的許多隱含的和認知上的偏差的影響。而決策的自動化給出了更準確的結果,在很大程度上限制了偏差的影響。這些算法無需十分完美,只需優於以前使用的算法。歷史發展終究會曲折地走上正軌。

也有人提出,算法就是要放任不公平或數據本身固有的偏差得以系統性的體現。爲緩解這些問題,應從數據中刪除涉及受保護屬性的變量,剔除所有的相關變量或是加以限制。

上述兩種做法都是部分正確的。然而,我們不應該滿足於不公平的算法,畢竟其中存在着改進空間。同樣,我們不應該浪費已擁有的所有數據,刪除所有變量,因爲這將使導致系統表現變差,降低它們的用處。這就是說,最終還是需要算法的創建者、監管機構,以及負責收集數據的機構,盡力確保這些偏差得到適當的處理。

數據的收集和抽樣過程通常是統計教學中最枯燥的部分,並且公衆對此認知不足。在監管機構得以介入之前,需確保機器學習工程師、統計學家和數據科學家將機會均等付諸機器學習實踐中。我們必須關注數據的來源以及處理方法。謹記,前人種樹,後人乘涼。

作者介紹:

Matthew Stewart,哈佛大學數據科學博士,機器學習顧問。

原文鏈接:

https://towardsdatascience.com/programming-fairness-in-algorithms-4943a13dd9f8

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章