字節跳動安全Ai挑戰賽-基於文本和多模態數據的風險識別總結

原創

致Great

2022-11-13 16:52

本次比賽是最近比較火熱的多模態比賽，業務和數據比較接近真實場景，任務比較有趣。我們隊伍“石碑村”，隊員有華仔、致Great，最終決賽取得第五名成績，下面主要給大家分享下我們隊伍的建模思路和方案，希望能夠對大家有所幫助。

1 初賽方案

1.1 賽題描述

抖音APP中的抖音號水印是識別視頻搬運的重要依據，很多黑灰產、搬運用戶等會給搬運的視頻進行低分辨率處理，以逃避搬運審覈。根據低分辨率圖像識別出該視頻中包含的抖音號。

例如下面圖片的抖音號爲：6xdRyPM5TS

1.2 賽題指標

準確率(acc):輸出的抖音號與真實抖音號標籤完全一致，則表示該樣本正確，否則爲不正確。(注：由於低分辨率抖音號識別的人工矯正成本很高，所以本比賽優先使用準確率作爲評估標準，而不是使用編輯距離)

1.3 解決方案與思路

我們初賽思路如下：

蒙版匹配：用opencv中傳統的蒙版匹配方法，蒙版設置爲“抖音號”三個字。根據閾值設置，將匹配比較好的幾千張用於訓練第二階段的目標檢測模型。

目標檢測：用YoloX訓練目標檢測模型，將檢測出來的框用於第三階段的OCR識別。

OCR：採用CRNN+CTC進行OCR識別。

初賽總結是我們採用常規的思路先定位後識別，由於時間太緊，其他方法沒時間嘗試
開銷太大，應該有不用定位的方法。

2 決賽方案

2.1 賽題描述

創作者爲視頻創作標題或添加文字時，基於種種目的，這些文本信息往往存在不規範的情況。因此，需要一個較爲通用的模型對不規範的文本進行文本信息還原。

賽題指標

得分爲百分制，分數越高成績越好：

2.2 解決方案與思路

數據預處理
(1) 將文本數據中的emoji替換成還有特定含義的字符串，這裏“含義”可以通過以下兩種方式獲取：
基於訓練語料，構建每個emoji的對應詞庫
基於emojiswitch將emoji轉換成中文含義

(2) 然後將emoji替換成中文明文，根據預訓練模型分詞的特點，我們採用以下的拼接方式：

模型微調
基於Bart模型進行emoji翻譯任務或者理解爲文本生成、文本糾錯任務等

後處理
基於原始數據還原被額外修改的字符，大致思路如下：��（1）判斷emoji中所在位置
（2）根據emoji位置判斷前後的字符是否被修改
（3）如果存在額外字符被修改，那麼進行還原

3 前排思路

答辯的時候看了下前排的思路，主要提分思路有：
（1）對抗學習，對embedding層添加擾動，基於fgm進行對抗學習
（2）提高模型泛化：ema，rdrop可以提升效果
（3）bart模型的超參數比較重要
（4）還有重要的一環是模型融合：生成任務的話融合方式常見有概率融合和投票融合

4 比賽總結

1.將賽題任務轉換爲文本生成任務，並且將emoji預先轉換爲明文，能夠提升模型效果；
2.後處理能夠提升效果，但是時間不足嘗試較少；另外Bart模型基本裸跑，後續提分不足

最後感謝字節跳動提供的數據與比賽任務

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

字節跳動安全Ai挑戰賽-基於文本和多模態數據的風險識別總結

1 初賽方案

1.1 賽題描述

1.2 賽題指標

1.3 解決方案與思路

2 決賽方案

2.1 賽題描述

賽題指標

2.2 解決方案與思路

3 前排思路

4 比賽總結

認知提升的方法

C#開源的兩款功能強大的錄屏神器

螞蟻面試：Springcloud核心組件的底層原理，你知道多少？

前端 Vue yarn.lock文件：詳解和使用指南

STI比賽任務二：【答案檢驗基線方案以及思路分享】

百度搜索首屆技術創新挑戰賽：搜索模型推理優化

文本分類微調技巧實戰2.0

Kaggle 專利匹配比賽賽後總結

【CCF2022】Web攻擊檢測與分類識別 baseline

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結