字節跳動安全Ai挑戰賽-基於文本和多模態數據的風險識別總結

本次比賽是最近比較火熱的多模態比賽,業務和數據比較接近真實場景,任務比較有趣。我們隊伍“石碑村”,隊員有華仔、致Great,最終決賽取得第五名成績,下面主要給大家分享下我們隊伍的建模思路和方案,希望能夠對大家有所幫助。

1 初賽方案

1.1 賽題描述

抖音APP中的抖音號水印是識別視頻搬運的重要依據,很多黑灰產、搬運用戶等會給搬運的視頻進行低分辨率處理,以逃避搬運審覈。根據低分辨率圖像識別出該視頻中包含的抖音號。

例如下面圖片的抖音號爲:6xdRyPM5TS


1.2 賽題指標

準確率(acc):輸出的抖音號與真實抖音號標籤完全一致,則表示該樣本正確,否則爲不正確。(注:由於低分辨率抖音號識別的人工矯正成本很高,所以本比賽優先使用準確率作爲評估標準,而不是使用編輯距離)

1.3 解決方案與思路

我們初賽思路如下:

蒙版匹配:用opencv中傳統的蒙版匹配方法,蒙版設置爲“抖音號”三個字。根據閾值設置,將匹配比較好的幾千張用於訓練第二階段的目標檢測模型。

目標檢測:用YoloX訓練目標檢測模型,將檢測出來的框用於第三階段的OCR識別。

OCR:採用CRNN+CTC進行OCR識別。

初賽總結是我們採用常規的思路先定位後識別,由於時間太緊,其他方法沒時間嘗試
開銷太大,應該有不用定位的方法。

2 決賽方案

2.1 賽題描述

創作者爲視頻創作標題或添加文字時,基於種種目的,這些文本信息往往存在不規範的情況。因此,需要一個較爲通用的模型對不規範的文本進行文本信息還原。


賽題指標

得分爲百分制,分數越高成績越好:


2.2 解決方案與思路

數據預處理
(1) 將文本數據中的emoji替換成還有特定含義的字符串,這裏“含義”可以通過以下兩種方式獲取:
基於訓練語料,構建每個emoji的對應詞庫
基於emojiswitch將emoji轉換成中文含義

(2) 然後將emoji替換成中文明文,根據預訓練模型分詞的特點,我們採用以下的拼接方式:


模型微調
基於Bart模型進行emoji翻譯任務或者理解爲文本生成、文本糾錯任務等

後處理
基於原始數據還原被額外修改的字符,大致思路如下:��(1)判斷emoji中所在位置
(2)根據emoji位置判斷前後的字符是否被修改
(3)如果存在額外字符被修改,那麼進行還原

3 前排思路

答辯的時候看了下前排的思路,主要提分思路有:
(1)對抗學習,對embedding層添加擾動,基於fgm進行對抗學習
(2)提高模型泛化:ema,rdrop可以提升效果
(3)bart模型的超參數比較重要
(4)還有重要的一環是模型融合:生成任務的話融合方式常見有概率融合和投票融合

4 比賽總結

1.將賽題任務轉換爲文本生成任務,並且將emoji預先轉換爲明文,能夠提升模型效果;
2.後處理能夠提升效果,但是時間不足嘗試較少;另外Bart模型基本裸跑,後續提分不足

  1. 最後感謝字節跳動提供的數據與比賽任務
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章