前言

全文約1800字，閱讀需3分鐘。

最近對直播比較感興趣，被問到一個問題——如何屏蔽彈幕中的不良內容？於是便有了如下的學習內容。不止是彈幕噢~

什麼是敏感詞彙？

Q：哪些詞算是敏感詞彙？

A：敏感詞可大致分爲以下幾類：政治相關和人名、迷信邪教、黃賭毒、槍支彈藥類、罵人諷刺類、時事類、廣告和非法信息、其他。（網上有很多專門的敏感詞庫，我在網盤裏上傳了一份名爲百度內部的敏感詞文件，僅供查看https://pan.baidu.com/s/1o8xtX1K。如果失效了，請關注我的公衆號亂入花間化綠葉，回覆“敏感詞”）

Q：哪些地方容易出現敏感詞？

A：所有傳播的信息都需要，發送這些垃圾信息的人或者團隊被稱爲“垃圾蟲”。

敏感詞不僅出現在社區論壇、IM聊天、影音娛樂等的評論或上傳信息區域，還隱藏在頭像、暱稱和簽名這種地方，需要全面鑑別。

Q：哪些地方需要屏蔽？

A：平常我們主要做的屏蔽是廣告過濾、黃賭毒、暴力恐怖、謠言排查等幾種。不同的場合屏蔽的級別不同，而且基於傳播時效性的不同，屏蔽方式分爲同步過濾和異步召回。

比如彈幕的鼻祖——B站，爲了保持彈幕的質量，它還需要屏蔽一些刷屏的、內容尷尬的彈幕，這些內容不算敏感，只是讓人不喜歡。更有甚者，用戶可以根據顏色、字體大小、展示方式甚至自定義的文本來進行屏蔽，同時，在視頻右邊還有專門的彈幕欄，也就是說，我可以彈幕內容當做評論一條條地看而不受其干擾。如圖所示：

怎麼屏蔽不良信息？

Q：目前的技術怎麼進行屏蔽？

A：綜合說來，技術屏蔽手段主要通過特徵庫、語義分析、機器學習等方法來展開。網易易盾對此分了三類：垃圾發現、垃圾識別、垃圾處理。（以下綜合易盾和joylnwang的博客整理而成。）

Q：垃圾發現和垃圾識別有什麼區別？

A：不窮的新垃圾（需要學習），垃圾識別是根據原有的垃圾庫來識別（需要更新）。

Q：垃圾發現（針對新垃圾）的技術實現是怎樣的？

A：①用戶舉報：主要是指用戶在使用產品過程中遇到不良信息，於是進行投訴。

爲了保證投訴的效果，我們需要在舉報的便捷性、顯眼展示和獎勵機制上花一些功夫去做，同時還需要建立科學的舉報分類，不僅方便用戶選擇，還能極大地幫助反垃圾訓練特徵樣本，綜合來做纔能有更好的效果。

②內容聚合：主要是通過判斷內容的相似性，從而確定是否爲垃圾信息。

就文本來說，相似度分爲兩個層面，第一是基於編輯距離的文本相似度計算，這種算法是根據一段文字如何經過增刪、移動而轉化爲另一段文字的操作步數，來計算兩段文字的相似程度，運算的時間和空間複雜度都很高，對於評論，標題這樣的短文本往往能獲得不錯的效果，缺點是對長文本不太適用，且沒有考慮文本中意羣的重要性。

第二個層面涉及到自然語言處理的相關知識，需要在原始文本中切分出有意義的Term，然後對於兩篇文章的Term集合，運算得出文本的相似程度。複雜性上要高於前者，但在處理長文本的方面有優勢，而且更有可能從意義的角度識別出相似的文本族。（來源http://blog.csdn.net/joylnwang/article/details/6831565）

③蜜罐系統：主要是針對專業的垃圾蟲團體。

通常垃圾蟲都有特定的工具協助，而這些工具大多會分析頁面元素並進行調用。

如果在頁面中埋伏一些“蜜罐”，正常的用戶無法看到這些入口，但是程序會直接調用這些入口進行垃圾信息發送。比如某一些隱藏的評論主題，只有程序纔會去抓取這些主題並對它們發送垃圾信息。那麼進了這些“蜜罐”裏的人，都可以被判斷爲非正常的用戶。

Q：垃圾識別是指什麼？

A：①特徵匹配：主要是基於已有垃圾特徵進行匹配。

對文本來說，建立敏感詞庫就可以直接屏蔽相關詞句，同時，對於文字的變種比如簡轉繁、加空格、形近字、音近字，都可以有效識別。

對圖片來說，主要是MD5、魯棒哈希、Sift特徵識別等手段。對於音頻和視頻也支持MD5匹配。（原諒我實在不能理清後面幾種手段的具體技術實現，不能展開講，有興趣的可以百度。）

總之，這幾種手段可以支持人像識別、動漫識別、相似匹配、圖片旋轉裁剪、改變亮度色調、水印識別等，基本囊括了所有的不良圖片。

②模型匹配：主要是基於機器學習，可以在沒有具體特徵樣本庫的情況下識別內容的分類。

音頻文件也通過大量語料學習能把語音轉換成文本，然後進入文本匹配過程。

視頻則通過截圖的方式轉換成爲圖片識別。

③規則匹配：也叫模式匹配，分爲正則表達式、多模式匹配算法、基於元數據的定製等。

百度裏的定義是：模式匹配是數據結構中字符串的一種基本運算，給定一個子串，要求在某個字符串中找出與該子串相同的所有子串。比如自定義規則：同IP下5分鐘內發送內容相似度超80%的封禁1小時。

Q：垃圾操作是怎麼操作？

A：①基礎處理：刪除內容，封禁內容，封禁用戶，刪除用戶，封禁IP，封禁設備等常規手段。

②隱蔽操作：普通的屏蔽操作容易被垃圾蟲感知，當他們發現被屏蔽時，會想辦法來“破解”反垃圾，故需要進行隱形屏蔽。

比較常見的做法有：垃圾發送接口返回成功，但實際僅用戶自己可見。例如直播中的彈幕，進行虛擬展示，僅用戶自己可見，其他人都看不到。

③後續操作：每天把刪除的垃圾內容彙總到內部分揀平臺，由專業人員進行分析和對數據的分揀標記，完成各種模型以及規則的升級。

敏感詞屏蔽

前言

什麼是敏感詞彙？

怎麼屏蔽不良信息？

python gdal 安裝使用（Windows， python 3.6.8）

NLP各種詞庫

敏感詞屏蔽

大規模圖搜索和實時計算在阿里反作弊系統中的應用

基於 Google 搜索的半自動推薦

awk 手冊

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結