大數據垃圾短信自動化識別系統的研發與應用

申報單位：

中移（蘇州）軟件技術有限公司
中國移動信息安全管理與運營中心

第一部分項目背景及挑戰

一、企業簡介

中國移動通信集團公司信息安全管理與運行中心（以下簡稱“中移信安中心”）成立於2011年11月，在集團公司原信息安全管理部的基礎上，結合實際情況，增加生產職能，歸口中國移動全集團信息安全管理與不良信息治理。

中移信安中心自成立以來，堅持“預防爲主、綜合防範”的總體思路，在行業內開創了不良信息集中治理新模式，創造性實現了全國“一盤棋”的信息安全工作格局，治理對象涉及垃圾短彩信、詐騙電話、手機惡意軟件、“僞基站”、手機淫穢色情等多個方面，工作範圍覆蓋內容安全、基礎安全、業務安全、客戶信息安全、終端安全等多個領域。

經過長期探索與實踐，中移信安中心打造了一支超百人的信息安全精英團隊，全面實現了“安全規劃有體系，安全運營有落實，安全支撐有手段，安全保障有團隊，安全工作有成效”的信息安全系統化工作目標，相關工作始終保持行業領先，得到了中央、上級單位與集團公司領導的充分肯定與高度評價。

中移（蘇州）軟件技術有限公司（以下簡稱“中移蘇研”），是中國移動通信集團公司於2014年3月注資31.72億元成立的全資子公司，是中國移動推動戰略轉型、實現向移動互聯網業務和信息消費拓展的重要佈局。公司繼承了中國移動研究院在雲計算與大數據領域多年的技術積累，目前從事雲計算、大數據以及IT支撐系統的研發與集成服務，圍繞三大產品線自主研發了一系列核心產品。同時，初步構建了以產品爲中心的自主研發運營體系，促進自主研發產品的商用轉化。2016年公司實現營業收入5.2億元。

中國移動“十三五規劃”提出將全面實施“萬物互聯”的大連接戰略，實現數字化服務戰略轉型，將進一步加大在雲計算、大數據、人工智能、物聯網等前沿領域的超前佈局和資源投入。中移蘇研承擔了中國移動IT領域能力內化責任，也是中國移動十三五規劃提出的“大連接戰略”、“數字化服務”轉型的關鍵力量，中國移動在雲計算、大數據平臺、人工智能、物聯網等領域將進一步加大投入、超前佈局。

中移蘇研基於自主創新，從技術研究、平臺研發、到構建統一應用平臺、技術規範和標準化產業推動，實現了自主創新技術實現產業化，爲中國移動乃至國家佔領雲計算、大數據新興領域做出了重要探索。並且，堅持自主研究和產業生態打造相結合，推動自主產品在中國移動乃至全國範圍內的應用和推廣。主要客戶是中國移動各子公司以及外部政務、金融、醫療、交通等行業等政企客戶。

二、面臨問題和挑戰

中國移動常年以來，秉着”客戶爲根，服務爲本”的理念，堅定不移地維護客戶利益，嚴格依法合規經營，竭力治理垃圾短信。但是，總存在一些非法投機分子藉助各種“機會”，利用短信對手機用戶實施勒索、詐騙，傳播不實消息和謠言等，這給運營商社會形象造成了很大的困擾。制定出一套完善高效的垃圾短信治理方案，全力對抗非法短信侵襲，一直以來都是中國移動持續探索、努力實踐的長久課題。

基於上述背景，中移信安中心聯合中移蘇研，開展對垃圾短信自動識別技術的研發與實踐。如何藉助人工智能領域新興技術，實現垃圾短信的自動化識別，提高垃圾短信識別率和判斷效率，是本項目要重點介紹和探討的難題與挑戰。

第二部分技術方案

一、算法選型

該項目始於2013年初，延續至今。將垃圾短信自動化識別系統成功應用到現網中，關鍵在於保障接入識別算法的準確率與查全率。

1、垃圾短信自動化識別技術難點

垃圾短信文本的識別，主要涉及三大挑戰：

（1）表示稀疏問題：單條短信內容短小，傳統的BOW模型無法獲取足夠的特徵信息，用來區分垃圾短信和非垃圾短信。
（2）數據噪音問題：存在大量的非正規語言的使用現象，傳統的基於詞彙的文檔表示模型無法處理該問題。
（3）動態演化問題：短信內容和語言使用隨時間高速演化，固定的特徵集合和分類模型無法應對該問題。

鑑於此挑戰，以算法準確率與查全率爲核心參考指標，我們重點考慮準確率極高的“基於短信內容精確匹配的識別算法”與“基於指紋技術的大數據識別算法”，以及在垃圾郵件處理上已成功獲得廣泛應用的“基於貝葉斯學習的大數據識別算法”。

2、三種算法的原理對比及實驗對比

基於短信內容精確匹配的識別算法：本方法對歷史樣本進行剔重存儲，建立歷史樣本庫。識別時，由待識別短信與歷史樣本進行精確匹配，若匹配成功，則按照原審覈結果判定。

基於指紋技術的大數據識別算法：基於開源的Simhash算法，創新研發信息指紋大數據算法進行短文本識別。先將海量歷史樣本轉化爲指紋編碼，建立歷史指紋庫。識別時，由待識別短信與指紋庫進行模糊匹配，得到具體識別結果。

基於貝葉斯學習的大數據識別算法：貝葉斯算法是一種經典的機器學習方法，常用於文本分類。先通過將海量歷史短信轉化爲特徵，建立模型。識別時，待識別短信的特徵通過已建立的模型計算分數，實現分類。

比較三種算法原理可知，理論上基於指紋技術的大數據識別算法，相對較優。

我們使用2016年4月的數據，共計2836萬條樣本，對三個方案的核心算法進行模擬測試，效果對比如下：

實驗發現，方案一的查全率僅爲11.5%，方案三的識別準確率僅爲93%，與系統引入算法要求指標差別大。方案二的指紋算法同時具有較好的查全率（35%以上）和識別準確率（99%以上），與原理比對結果一致。項目最終將系統算法鎖定爲基於指紋技術的大數據識別算法。

二、詳細技術方案

“基於指紋技術的大數據自動識別方法”方案，可進一步細化爲應用方案涉及、指紋算法研發、數據庫搭建、系統架構設計、測試驗證。經過反覆對比實驗測試，得到方案結果如下：

1、大數據應用設計

在二次過濾模塊中央平臺中，引入垃圾短信自動化識別系統，用以提升垃圾短信識別率。具體垃圾短信大數據識別應用方案，如下圖：

利用中移信安中心前期積累的海量短信樣本對人工智能分類器和指紋數據庫進行初始化；
將系統與現有垃圾短信治理模塊對接，接收監測模塊發來的全量疑似短信，並進行自動識別；
得到識別結果的短信，直接送至處置模塊實時處置；未識別的短信按照原有流程進行處理；

2、指紋算法研發

短信樣本主要包括正常短信和垃圾短信兩類，相應地，我們提出基於統一指紋庫識別和基於多指紋庫識別兩種算法研發方案。

基於統一指紋庫識別方案：不論垃圾短信還是正常短信指紋，都只能按照相同的標準入庫。

基於多指紋庫識別方案：垃圾短信和正常短信分別對應各自指紋庫，因此可以採用不同的入庫標準，區分管理。

經過多組實驗測試表明，基於多指紋庫識別方案的查全率更佳，因此選擇此方案開展後續對策實施。

3、數據庫搭建——動態數據庫

指紋的存儲可以在靜態數據庫和動態數據庫兩種方案中選擇。靜態指紋庫，指紋只進不出；動態指紋庫，強調指紋有進有出，保持動態指紋量的恆定。

靜態數據庫與動態數據庫兩種方案，各自的優劣如上表。基於系統可擴展性和持續運營成本的考慮，此項目中我們決定選用動態數據庫。

4、系統架構設計

系統架構設計，涉及到單機多核、分佈式多機多核單機兩種方案的選擇。單機多核具有節約資源、維護簡單的優點；分佈式多機多核速率高、更穩定。通過30天的模擬測試，單機多核平均速率爲7045條/秒，無法滿足《中國移動垃圾短信集中管控系統總體技術要求》1.28萬條/秒以上速率的要求。

因此，系統架構設計選擇分佈式多機多核對策，擬通過引入分佈式架構，多服務器並行處理，達到更高速率。

5、驗證測試

按照上述方案，實施構建大數據垃圾短信識別系統。將該系統試點到某一現網系統中，觀察其運行情況，系統迭代優化。

三、部署實施方案

根據上述大數據詳細技術方案，對應的具體實施方案，分別如下：

1、大數據識別應用

大數據自動識別方法引入後的業務應用方案，如下：

① 建立大數據指紋識別系統，利用前期積累的海量短信樣本對指紋數據庫進行初始化；
② 大數據指紋識別系統與垃圾短信系統對接，接收監測模塊發來的全量疑似短信，並進行自動識別；
③ 得到識別結果的短信，直接送至處置模塊實時處置；未識別的短信按照原有流程進行處理。

2、基於多指紋庫的識別

基於多指紋庫識別方案，實施涉及三個參數的選定，均對系統的查全率與準確率有一定的影響：正常短信入庫頻次、垃圾短信入庫頻次、Simhash碼漢明距離。

通過制定因素位級表、運用正交試驗法，找出最優的系統參數組合，最後通過測試對參數調整效果進行驗證。

3、動態數據庫

相比於靜態數據庫只進不出而言，動態數據庫設置有進有出。理論上，靜態數據庫會有更好的查全率。小組反覆實驗表明：出庫的指紋中，在庫中從未被使用過的概率佔99.4%以上；所以，出庫設置是合理的。
對引入動態數據庫後的識別算法進行測試，並將其自動識別率、準確率指標與引入前的相關指標進行比對。結果發現，引入動態數據庫後，準確率和自動識別率雖有影響，但依然達標。從系統的穩定性及長遠發展來看，我們此次採用動態數據庫來實施本方案。

4、分佈式多機多核系統架構

分佈式多機多核系統架構，使用並行計算技術來實現批量的併發指紋處理，實現系統多核處理。通過對待測短信數據的均勻分發，完成短信分佈式識別處理的負載均衡，從而實現分佈式處理。該設計旨在滿足處理速率的要求。

對策實施後，短信處理速率大幅提高，可以保障系統處理速率大於1.28萬條/秒，達到階段目標。

5、系統應用試點

爲了保證系統測試的順利進行，QC小組成員使用了PDPC法分析測試過程中可能出現的各種問題及結果，做出預測，並相應地提出多種應變計劃，保障目標的實現。系統接入現網進行應用試點，試點期間，系統運行穩定無宕機，自動識別率和識別準確率均滿足應用要求，階段目標達成。

四、方案技術架構

此大數據垃圾短信自動化識別系統，目前接入現網系統的算法爲“基於指紋技術的大數據自動識別算法”。長遠來看，爲提升該系統的查全率與準確率，在此算法基礎上，會引入語義識別算法模型（此項目中暫不考慮）。故設置現有技術架構，如下圖所示：

垃圾短信算法系統，將各模塊服務化；通過kafka（一種能顧達到每秒百萬級的高吞吐量的分佈式發佈訂閱消息系統）作爲串聯各個服務的中間件，實現不同系統結構之間的解耦。從而解決了單機算法的性能瓶頸，使用分佈式算法服務滿足了現網的秒級16000條短信的運行需求。

該技術方案架構特點，可以歸納爲以下幾點：

配置靈活：可以針對現網垃圾短信情況進行參數配置。系統參數包括：算法生效參數、人工智能算法訓練週期、指紋匹配漢明距離、指紋庫容量等。通過以上參數，可以系統有更加靈活的配置，應對更多場景。

實時更新：相比原有垃圾短信治理方法，該算法模型更新迭代更快。在面對垃圾短信突然爆發等情景下，可以及時學習到最新垃圾短信特徵，並進行攔截處置，從而減少垃圾短信傳播，爲移動用戶提供可靠保障。

實時反饋：相對原先垃圾短信識別算法，該算法模型對於識別錯誤的短信能夠通過kafka消息的模式進行實時反饋，實時的對現有指紋算法的指紋庫進行維護，爲該算法的識別準確性提供更有效的保障。

五、應用成果

該系統於2016年9月23日完成現網上線，經過4個月試運行後，該系統於2017年1月18號正式割接上線，接入全國31省，平均日短信處理量約50萬條。

公司領導對系統應用效果高度肯定，尚冰董事長做出批示：成績值得祝賀，建議向工信部、國資委報送有關成果；李躍總裁批示：熱烈祝賀中移信安中心與蘇研聯合創新取得巨大成功！希望此成果能爲企業各方面發展作出更大貢獻；李正茂副總裁批示：此技術達到了國內領先水平，取得了非常好的效果，請進一步產品化，向行業推廣。

第三部分經驗總結

一、社會效益

垃圾短信自動判定平均耗時僅爲0.07毫秒，相比原來處理方式（處理時長6分鐘），違規號碼的關停及時性大大提高。在效果檢驗期內，月均識別違規號碼14.4萬個，通過估算，可月均減少不法分子發送的垃圾短信約8500萬條，有效的保障了廣大用戶的通信權益。

二、項目創新點

（一）技術創新

創新點1：

爲了改善訓練數據中的噪聲的問題，本系統在指紋入庫時增加了預備庫，實現了二次入庫的改造。指紋在進入實際對比庫之前會利用預備庫對指紋進行過濾，從而減少噪聲對實際比對庫的影響。

創新點2：

爲了降低不同類型指紋之間的影響的問題，專爲指紋算法設計多庫識別的技術，將不同類型的指紋分裝進不同類型的指紋庫，旨在減少訓練數據噪聲的影響。若同一條指紋進入了多個不同類型的指紋庫，可以進一步的降低噪聲導致的指紋誤識別問題。

創新點3：

設計一種動態指紋庫的方法來解決指紋庫膨脹問題，還實現了相關反饋方法來完成指紋庫的維護與更新來進一步的提升識別準確率。

創新點4：

在系統中引入多種算法，實現算法融合。通過算法模型的實時更新，能夠及時識別現網中的新型垃圾短信。其創新點主要體現在針對短信特點，有針對性的利用多種算法優點，令識別系統對垃圾短信的識別更準更全。目前有一種語義算法已在實施中，因爲未正式上線，此處不多提及。

（二）應用模式創新

由實際生產需求驅動創新研發，並最終實現了研發成果的應用落地，並用機器識別替代，顛覆了傳統治理模式。

四、項目負責人點評

錢嶺博士

中移（蘇州）軟件技術有限公司大數據產品部總經理

個人簡介

引進人才錢嶺，高級工程師，中國敏捷開發十大貢獻者之一。現任中國移動蘇州研發中心大數據產品部總經理一職，中國移動技術諮詢委員會IT專家組成員之一。同時，兼任工信部數據中心聯盟大數據促進委員會副主任委員，中國計算機學會大數據專家委員會通信委員，蘇州大數據產業副主任委員。

2001年1月畢業於清華大學計算機科學與技術系，獲得工學博士學位，主修軟件工程方向。畢業後加入貝爾實驗室基礎科學研究院，參與並負責包括軟件質量改進、IPV6路由器、可編程交換機、語音短信、即時通信系統、Adhoc網絡平臺、移動終端應用、位置業務平臺等很多項目研發和管理工作。2007年加入中國移動通信研究院，移動廣告平臺、受衆監測等項目研究。後加入中國移動“大雲”項目組，負責海量數據存儲管理產品的研發和應用,擔任中國移動通信研究院雲計算首席技術架構師、雲計算系統部總經理助理。2014年加入中國移動蘇州研發中心歷任產品部總經理、大數據產品部總經理、公司級性能管理組組長。現主要從事大數據領域、人工智能領域工作。

在雲計算總體架構、海量數據管理技術、軟件工程方法、基於CMMI和敏捷開發方法的過程改進、軟件質量管理、軟件度量等領域有較多的研究和實踐工作。

項目點評

該項目屬於完全自主研發，此大數據垃圾短信自動化識別系統無論是從準確率、查全率，還是處理速率上，都達到了立項及上線要求。期間，產生髮明專利4項，制定2份相關規範，獲得尚冰董事長、李躍總裁、李正茂副總裁的一致好評。自割接上線以來，運行穩定，預期2017年全年可攔截垃圾短信約10億條。

第四部分專家推薦語

孫少陵
中移（蘇州）軟件技術有限公司副總經理

該應用案例，針對我國移動信息通信領域對垃圾短信治理的迫切需求，在行業領域內率先創建了一套藉助大數據技術架構實現垃圾短信自動化識別的系統，取得了一系列突破性的重大創新成果。

項目成果具有很強的創新性，實現了具有完全自主知識產權的關鍵技術突破。此案例成功將指紋識別算法應用與該系統中，在實施過程中配合使用多種細節性創新方案；如引入預備庫、多指紋識別方案、動態庫方案設計等，都給該系統的查全率與準確率做出來不少貢獻。同時，該系統在技術上也具備一定的先進性，它將各模塊服務化；通過kafka作爲串聯各個服務的中間件，實現不同系統結構之間的解耦，滿足了現網的秒級16000條短信的運行需求。

經與業界領先互聯網公司算法進行測試比對，其研發算法查全率與其基本持平，但識別準確率（99.8%）遠高於對方（93.7%），處於領先水平。由實際生產需求驅動創新研發，並最終實現了研發成果的應用落地，並用機器識別替代傳統治理模式。

根據統計數據可知，目前月均可減少不法分子發送的垃圾短信約8500萬條，有效的保障了廣大用戶的通信權益，創造了巨大的社會效益。
該案例中應用的技術水平已處於國際先進、國內領先地位。爲我國自動化識別技術在垃圾短信治理中應用，創新探索出了一條切實可行的道路，推動我國大數據技術和產業步入了國際先進行列。

故推薦該項目爲2017年度TOP10大數據應用最佳實踐案例。

更多大數據稿件收集請投稿至郵箱：[email protected]

大數據垃圾短信自動化識別系統的研發與應用

第一部分項目背景及挑戰

第二部分技術方案

第三部分經驗總結

第四部分專家推薦語

如何使用 JS 判斷用戶是否處於活躍狀態

Mono 支持LoongArch架構

lightdb秒級增加列和刪除列（not null帶默認值）

lightdb數據庫超時相關控制參數

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

lightdb mysql 8.0兼容之不可見主鍵

使用 JS 實現在瀏覽器控制檯打印圖片 console.image()

基於Ubuntu-22.04安裝K8s-v1.28.2實驗（四）使用域名訪問網站應用

易立：從實踐積累到需求沉澱，容器技術必將引領主流

大數據垃圾短信自動化識別系統的研發與應用

甲骨文推出企業級區塊鏈雲服務

對話淘寶內容搜索、評價歸納的幕後英雄

Thomas Kurian詮釋甲骨文的雲創新

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

大數據垃圾短信自動化識別系統的研發與應用

第一部分 項目背景及挑戰

第二部分 技術方案

第三部分 經驗總結

第四部分 專家推薦語

第一部分項目背景及挑戰

第二部分技術方案

第三部分經驗總結

第四部分專家推薦語