本次比賽是最近比較火熱的多模態比賽,業務和數據比較接近真實場景,任務比較有趣。我們隊伍“石碑村”,隊員有華仔、致Great,最終決賽取得第五名成績,下面主要給大家分享下我們隊伍的建模思路和方案,希望能夠對大家有所幫助。
1 初賽方案
1.1 賽題描述
抖音APP中的抖音號水印是識別視頻搬運的重要依據,很多黑灰產、搬運用戶等會給搬運的視頻進行低分辨率處理,以逃避搬運審覈。根據低分辨率圖像識別出該視頻中包含的抖音號。
例如下面圖片的抖音號爲:6xdRyPM5TS
1.2 賽題指標
準確率(acc):輸出的抖音號與真實抖音號標籤完全一致,則表示該樣本正確,否則爲不正確。(注:由於低分辨率抖音號識別的人工矯正成本很高,所以本比賽優先使用準確率作爲評估標準,而不是使用編輯距離)
1.3 解決方案與思路
我們初賽思路如下:
蒙版匹配:用opencv中傳統的蒙版匹配方法,蒙版設置爲“抖音號”三個字。根據閾值設置,將匹配比較好的幾千張用於訓練第二階段的目標檢測模型。
目標檢測:用YoloX訓練目標檢測模型,將檢測出來的框用於第三階段的OCR識別。
OCR:採用CRNN+CTC進行OCR識別。
初賽總結是我們採用常規的思路先定位後識別,由於時間太緊,其他方法沒時間嘗試
開銷太大,應該有不用定位的方法。
2 決賽方案
2.1 賽題描述
創作者爲視頻創作標題或添加文字時,基於種種目的,這些文本信息往往存在不規範的情況。因此,需要一個較爲通用的模型對不規範的文本進行文本信息還原。
賽題指標
得分爲百分制,分數越高成績越好:
2.2 解決方案與思路
數據預處理
(1) 將文本數據中的emoji替換成還有特定含義的字符串,這裏“含義”可以通過以下兩種方式獲取:
基於訓練語料,構建每個emoji的對應詞庫
基於emojiswitch將emoji轉換成中文含義
(2) 然後將emoji替換成中文明文,根據預訓練模型分詞的特點,我們採用以下的拼接方式:
模型微調
基於Bart模型進行emoji翻譯任務或者理解爲文本生成、文本糾錯任務等
後處理
基於原始數據還原被額外修改的字符,大致思路如下:��(1)判斷emoji中所在位置
(2)根據emoji位置判斷前後的字符是否被修改
(3)如果存在額外字符被修改,那麼進行還原
3 前排思路
答辯的時候看了下前排的思路,主要提分思路有:
(1)對抗學習,對embedding層添加擾動,基於fgm進行對抗學習
(2)提高模型泛化:ema,rdrop可以提升效果
(3)bart模型的超參數比較重要
(4)還有重要的一環是模型融合:生成任務的話融合方式常見有概率融合和投票融合
4 比賽總結
1.將賽題任務轉換爲文本生成任務,並且將emoji預先轉換爲明文,能夠提升模型效果;
2.後處理能夠提升效果,但是時間不足嘗試較少;另外Bart模型基本裸跑,後續提分不足
- 最後感謝字節跳動提供的數據與比賽任務