華爲雲與鑑黃師不得不說的那些事

相傳,在當今時代中有一個神祕的職業——鑑黃師。他們閱片無數,能聽聲辨位並精準審覈並識別出各類違規內容加以處置。但鑑黃師工作量巨大而且人力有限難免有所紕漏,那麼如何還互聯網一個清靜之地,真正實現精準、統一、全面的鑑別違規內容呢?華爲雲的內容審覈服務就可以幫助鑑黃師擺脫當下面臨的這一煩惱。

互聯網每天都在產生大量數據,對內容的審覈帶來了很大的挑戰,在萬物互聯的今天,人工審覈不僅要付出巨大的勞動力而且難免有不當之處。因此,華爲雲推出了內容審覈服務(Content Moderation),主要涵蓋了文本內容檢測、涉政敏感檢測、視頻內容審覈、圖片內容檢測、圖像反黃檢測等。當前行業中,內容審覈主要有人工審覈和智能審覈兩種方式,人工審覈需要大量勞動力全天候進行肉眼 + 機器輔助模式的內容審覈,問題在於時效性差、風險高、而且規模過大時無法匹配;而智能審覈則以 AI 技術爲基礎,人工判決爲輔助。而在當下,能夠提供智能審核技術的雲平臺並不少,這也就給各家企業技術選型造成了困擾。

那麼如何選擇適合企業而且性能卓越的雲服務呢?爲了讓開發者全面客觀的瞭解華爲雲內容審覈服務性能,華爲雲聯合 InfoQ 共同發起了一場開發者衆測活動,18 名來自不同企業的開發者給出專業的建議,下面是詳細的測試使用報告。

一、文本內容檢測測試

在去年,國家互聯網信息辦公室《互聯網羣組信息服務管理規定》明確了互聯網羣組建立者、管理者應當履行羣組管理責任,即“誰建羣誰負責”“誰管理誰負責”,對於文本內容的雲端檢測更是成爲重中之重。華爲雲在內容檢測方面的服務主要有以下幾種:涉黃、涉政、廣告、辱罵、違禁品和灌水文本內容等,還提供自定義的文本敏感內容檢測方案。

涉黃、涉政、廣告、辱罵、違禁品文本測試

原理:調用華爲雲提供的 API,可自由設置過濾內容類型,分別爲:politics(涉政)、porn(涉黃)、ad(廣告)、abuse(辱罵)、contraband(違禁品)、flood(灌水),不輸入默認爲全部篩選。根據用戶輸入內容,過濾出文本內容中的“中標詞句”,分別把語句放在涉及到的屬性下面。返回結果如下:

自定義的文本敏感內容檢測測試

原理:用戶在後臺文本內容檢測服務上面自定義配置,並勾選不指定檢測場景時啓用,可對全部過濾生效。也就是自己建一個關鍵字庫,生效規則與其他預設一致。

測試感受:

1、在涉黃、涉政、辱罵、廣告等單個測試時準確無誤,在多種組合的場景下,華爲雲也可以根據返回結果分別查看各個屬性下的不同的犯規詞語。

2、對於網絡用語的灌水文本測試正常,檢測出灌水文本反應迅速。值得一提的是,由於網絡流行與變更速度很快,而華爲雲的網絡灌水詞庫在進行實時更新,可以實現自我優化。

3、而在測試中,華爲雲最具特色的一項功能就是可以自定義詞庫,這項功能在內容檢測標準容易變化的場景下能夠更好的控制文本內容;包括政治敏感詞、網絡用語等詞庫還做到了實時更新,使得整體服務更加安全。

小結:華爲雲文本內容檢測基本滿足了常用文本檢測,支持自定義詞庫來加以補充,再加上實時更新,使得整體開發體驗更爲安全和智能。

二、反黃檢測服務測試

色情性感圖片檢測測試

原理:根據圖片或者圖片鏈接,華爲雲 API 返回三個維度對應的比例,分別是正常比例、色情比例、性感比例,返回值裏的參數 suggestion 結果爲 block,則判定爲色情圖片;性感圖片的返回值裏的參數 suggestion 結果爲 pass,在三個維度的比例中性感比例最大,則認爲該圖片是性感圖片。對於正常與色情比例接近的會返回 review,需要人工確認。

除了普通畫面的圖片外,華爲雲還支持畫中畫涉黃內容的檢測,驗證反黃檢測服務可以識別小窗口涉黃圖片。

測試感受:

針對黃色圖片檢測準確,性感圖片準確,畫中畫涉黃檢測也可以正常反饋,整體流程順利,在特殊情況下也會提供給人工進行確認,沒有發生誤判情況。

小結:反黃檢測針對各個企業都是一個重度需求,人工智能對圖片內容檢測很有必要,華爲雲在這方面做的不錯,值得用戶信賴。

三、暴恐識別服務測試

槍支刀具類測試

原理:根據圖片或者圖片鏈接,華爲雲 API 返回多個維度對應的比例,分別爲:fire、bloody、gun、knife、flag、tiananmen、crowd、dress、symbol、normal,如果符合要求就會給出結果爲block,根據各個維度的比例大小來判斷中標那個維度。這裏以槍支作爲例子,測試結果如下:

槍支:

人羣聚集測試

驗證暴恐識別服務還可以準確的識別人羣聚集類圖片,若是測試結果中的 suggestion 值若爲 block, 且 crowd 的置信度值佔比最大,則表示該圖片含有人羣聚集元素。

測試感受:

1、在測試中槍支圖片測試正確。

2、人羣聚會檢測正確,使用體驗流暢

3、現在聚會地點以天安門爲例進行了檢測,結果無誤。也可以做成自定義地點,支持國內大部分標誌性建築。

小結:槍支刀具的檢測可以稱之爲線上安檢機,華爲雲整體表現非常卓越。但這部分服務對企業來講,需求量並不夠大,非剛需內容。

四、涉政敏感檢測服務測試

原理:根據圖片或者圖片鏈接,華爲雲 API 返回的結果中給出識別出的名字,根據結果是否爲 block,判斷是否爲違規圖片。華爲雲服務,支持國家領導人、烈士與恐怖分子識別,測試結果如下:

測試感受:

1、各國國家領導人識別正確,能夠正確給出姓名;多個領導人也可以識別,識別度很高;測試中中國地市以上級別領導人以及國外名人也能識別正確。

2、烈士識別方面對知名人物識別無誤,而針對一些沒有圖片的烈士,很大一部分是後人繪畫留存,可能導致識別率降低,可以通過更新學習庫進行改進。

3、恐怖分子測試,一些臭名昭著的恐怖分子檢測準確率很高;一些較爲少見恐怖分子識別難度較高,但可以通過更新學習庫增加識別準確率。

小結:華爲雲服務在這塊中表現最好的是對國家領導人與國際高管的識別,在烈士與恐怖分子識別上處於同行業前列水準,而通過更新學習庫也可以進一步增強。

五、視頻內容審覈服務測試

原理:需要用戶上傳視頻,然後根據返回的任務 id 取查詢視頻的處理狀態。狀態有四種類型 created(已創建)、running(正在處理)、finish(已完成)、failed(處理失敗)。測試結果可以查看 suggestion 的值,當同時檢測多個場景時,suggestion 的值以最可能包含敏感信息的場景爲準。即任意場景出現了 block 則總的 suggestion 爲 block,所有場景都 pass 時 suggestion 爲 pass,這兩種情況之外則一定有場景需要 review,此時 suggestion 爲 review。

測試感受:

內容視頻測試準確,分析原因可能爲視頻資源幀相對較多,可分析圖片也多 ,因而使得測試結果更準確, 測試結果可以給出具體哪一類型問題產生結果,並且可以在色情、涉政、暴恐等各個維度分別給出可能性比例。

小結:視頻內容檢測服務容納的類型更多,反黃、暴恐、涉政都會有涉及,這個考驗了雲服務內容檢測的綜合功能。華爲雲在這一塊表現不錯,充分證明了自己的技術。

總結

在本次測試中,華爲雲在視頻、圖片、內容等各個方面的檢測中,針對現有網絡中資源較多的內容檢測準確率很高,這可以顯示出其在數據分析以及智能識別等領域的技術沉澱深厚;而在一些變數較高的內容識別檢測時,也可以通過更新學習庫以及更新檢測內容標準實現準確率的提升。在實際應用中,直播行業對於內容審覈依賴度非常高。華爲雲已經成功幫助某視頻直播業務實現整體內容審覈的智能化升級,審覈效率提升了 90%,能夠智能化檢測“色情內容”、“涉政”和“暴力”等內容,並且問題視頻可以在 3 分鐘之內快速處理掉。

整體來看,華爲雲的廣告語確實可以準確體現出其目前所處的行業地位:有技術,有未來,值得信賴!與開發者和行業夥伴攜手前行, 前方的路依然很長。

更多華爲 EI 內容審覈信息,請見:https://www.huaweicloud.com/product/imagemoderation.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章