大数据垃圾短信自动化识别系统的研发与应用

申报单位：

中移（苏州）软件技术有限公司
中国移动信息安全管理与运营中心

第一部分项目背景及挑战

一、企业简介

中国移动通信集团公司信息安全管理与运行中心（以下简称“中移信安中心”）成立于2011年11月，在集团公司原信息安全管理部的基础上，结合实际情况，增加生产职能，归口中国移动全集团信息安全管理与不良信息治理。

中移信安中心自成立以来，坚持“预防为主、综合防范”的总体思路，在行业内开创了不良信息集中治理新模式，创造性实现了全国“一盘棋”的信息安全工作格局，治理对象涉及垃圾短彩信、诈骗电话、手机恶意软件、“伪基站”、手机淫秽色情等多个方面，工作范围覆盖内容安全、基础安全、业务安全、客户信息安全、终端安全等多个领域。

经过长期探索与实践，中移信安中心打造了一支超百人的信息安全精英团队，全面实现了“安全规划有体系，安全运营有落实，安全支撑有手段，安全保障有团队，安全工作有成效”的信息安全系统化工作目标，相关工作始终保持行业领先，得到了中央、上级单位与集团公司领导的充分肯定与高度评价。

中移（苏州）软件技术有限公司（以下简称“中移苏研”），是中国移动通信集团公司于2014年3月注资31.72亿元成立的全资子公司，是中国移动推动战略转型、实现向移动互联网业务和信息消费拓展的重要布局。公司继承了中国移动研究院在云计算与大数据领域多年的技术积累，目前从事云计算、大数据以及IT支撑系统的研发与集成服务，围绕三大产品线自主研发了一系列核心产品。同时，初步构建了以产品为中心的自主研发运营体系，促进自主研发产品的商用转化。2016年公司实现营业收入5.2亿元。

中国移动“十三五规划”提出将全面实施“万物互联”的大连接战略，实现数字化服务战略转型，将进一步加大在云计算、大数据、人工智能、物联网等前沿领域的超前布局和资源投入。中移苏研承担了中国移动IT领域能力内化责任，也是中国移动十三五规划提出的“大连接战略”、“数字化服务”转型的关键力量，中国移动在云计算、大数据平台、人工智能、物联网等领域将进一步加大投入、超前布局。

中移苏研基于自主创新，从技术研究、平台研发、到构建统一应用平台、技术规范和标准化产业推动，实现了自主创新技术实现产业化，为中国移动乃至国家占领云计算、大数据新兴领域做出了重要探索。并且，坚持自主研究和产业生态打造相结合，推动自主产品在中国移动乃至全国范围内的应用和推广。主要客户是中国移动各子公司以及外部政务、金融、医疗、交通等行业等政企客户。

二、面临问题和挑战

中国移动常年以来，秉着”客户为根，服务为本”的理念，坚定不移地维护客户利益，严格依法合规经营，竭力治理垃圾短信。但是，总存在一些非法投机分子借助各种“机会”，利用短信对手机用户实施勒索、诈骗，传播不实消息和谣言等，这给运营商社会形象造成了很大的困扰。制定出一套完善高效的垃圾短信治理方案，全力对抗非法短信侵袭，一直以来都是中国移动持续探索、努力实践的长久课题。

基于上述背景，中移信安中心联合中移苏研，开展对垃圾短信自动识别技术的研发与实践。如何借助人工智能领域新兴技术，实现垃圾短信的自动化识别，提高垃圾短信识别率和判断效率，是本项目要重点介绍和探讨的难题与挑战。

第二部分技术方案

一、算法选型

该项目始于2013年初，延续至今。将垃圾短信自动化识别系统成功应用到现网中，关键在于保障接入识别算法的准确率与查全率。

1、垃圾短信自动化识别技术难点

垃圾短信文本的识别，主要涉及三大挑战：

（1）表示稀疏问题：单条短信内容短小，传统的BOW模型无法获取足够的特征信息，用来区分垃圾短信和非垃圾短信。
（2）数据噪音问题：存在大量的非正规语言的使用现象，传统的基于词汇的文档表示模型无法处理该问题。
（3）动态演化问题：短信内容和语言使用随时间高速演化，固定的特征集合和分类模型无法应对该问题。

鉴于此挑战，以算法准确率与查全率为核心参考指标，我们重点考虑准确率极高的“基于短信内容精确匹配的识别算法”与“基于指纹技术的大数据识别算法”，以及在垃圾邮件处理上已成功获得广泛应用的“基于贝叶斯学习的大数据识别算法”。

2、三种算法的原理对比及实验对比

基于短信内容精确匹配的识别算法：本方法对历史样本进行剔重存储，建立历史样本库。识别时，由待识别短信与历史样本进行精确匹配，若匹配成功，则按照原审核结果判定。

基于指纹技术的大数据识别算法：基于开源的Simhash算法，创新研发信息指纹大数据算法进行短文本识别。先将海量历史样本转化为指纹编码，建立历史指纹库。识别时，由待识别短信与指纹库进行模糊匹配，得到具体识别结果。

基于贝叶斯学习的大数据识别算法：贝叶斯算法是一种经典的机器学习方法，常用于文本分类。先通过将海量历史短信转化为特征，建立模型。识别时，待识别短信的特征通过已建立的模型计算分数，实现分类。

比较三种算法原理可知，理论上基于指纹技术的大数据识别算法，相对较优。

我们使用2016年4月的数据，共计2836万条样本，对三个方案的核心算法进行模拟测试，效果对比如下：

实验发现，方案一的查全率仅为11.5%，方案三的识别准确率仅为93%，与系统引入算法要求指标差别大。方案二的指纹算法同时具有较好的查全率（35%以上）和识别准确率（99%以上），与原理比对结果一致。项目最终将系统算法锁定为基于指纹技术的大数据识别算法。

二、详细技术方案

“基于指纹技术的大数据自动识别方法”方案，可进一步细化为应用方案涉及、指纹算法研发、数据库搭建、系统架构设计、测试验证。经过反复对比实验测试，得到方案结果如下：

1、大数据应用设计

在二次过滤模块中央平台中，引入垃圾短信自动化识别系统，用以提升垃圾短信识别率。具体垃圾短信大数据识别应用方案，如下图：

利用中移信安中心前期积累的海量短信样本对人工智能分类器和指纹数据库进行初始化；
将系统与现有垃圾短信治理模块对接，接收监测模块发来的全量疑似短信，并进行自动识别；
得到识别结果的短信，直接送至处置模块实时处置；未识别的短信按照原有流程进行处理；

2、指纹算法研发

短信样本主要包括正常短信和垃圾短信两类，相应地，我们提出基于统一指纹库识别和基于多指纹库识别两种算法研发方案。

基于统一指纹库识别方案：不论垃圾短信还是正常短信指纹，都只能按照相同的标准入库。

基于多指纹库识别方案：垃圾短信和正常短信分别对应各自指纹库，因此可以采用不同的入库标准，区分管理。

经过多组实验测试表明，基于多指纹库识别方案的查全率更佳，因此选择此方案开展后续对策实施。

3、数据库搭建——动态数据库

指纹的存储可以在静态数据库和动态数据库两种方案中选择。静态指纹库，指纹只进不出；动态指纹库，强调指纹有进有出，保持动态指纹量的恒定。

静态数据库与动态数据库两种方案，各自的优劣如上表。基于系统可扩展性和持续运营成本的考虑，此项目中我们决定选用动态数据库。

4、系统架构设计

系统架构设计，涉及到单机多核、分布式多机多核单机两种方案的选择。单机多核具有节约资源、维护简单的优点；分布式多机多核速率高、更稳定。通过30天的模拟测试，单机多核平均速率为7045条/秒，无法满足《中国移动垃圾短信集中管控系统总体技术要求》1.28万条/秒以上速率的要求。

因此，系统架构设计选择分布式多机多核对策，拟通过引入分布式架构，多服务器并行处理，达到更高速率。

5、验证测试

按照上述方案，实施构建大数据垃圾短信识别系统。将该系统试点到某一现网系统中，观察其运行情况，系统迭代优化。

三、部署实施方案

根据上述大数据详细技术方案，对应的具体实施方案，分别如下：

1、大数据识别应用

大数据自动识别方法引入后的业务应用方案，如下：

① 建立大数据指纹识别系统，利用前期积累的海量短信样本对指纹数据库进行初始化；
② 大数据指纹识别系统与垃圾短信系统对接，接收监测模块发来的全量疑似短信，并进行自动识别；
③ 得到识别结果的短信，直接送至处置模块实时处置；未识别的短信按照原有流程进行处理。

2、基于多指纹库的识别

基于多指纹库识别方案，实施涉及三个参数的选定，均对系统的查全率与准确率有一定的影响：正常短信入库频次、垃圾短信入库频次、Simhash码汉明距离。

通过制定因素位级表、运用正交试验法，找出最优的系统参数组合，最后通过测试对参数调整效果进行验证。

3、动态数据库

相比于静态数据库只进不出而言，动态数据库设置有进有出。理论上，静态数据库会有更好的查全率。小组反复实验表明：出库的指纹中，在库中从未被使用过的概率占99.4%以上；所以，出库设置是合理的。
对引入动态数据库后的识别算法进行测试，并将其自动识别率、准确率指标与引入前的相关指标进行比对。结果发现，引入动态数据库后，准确率和自动识别率虽有影响，但依然达标。从系统的稳定性及长远发展来看，我们此次采用动态数据库来实施本方案。

4、分布式多机多核系统架构

分布式多机多核系统架构，使用并行计算技术来实现批量的并发指纹处理，实现系统多核处理。通过对待测短信数据的均匀分发，完成短信分布式识别处理的负载均衡，从而实现分布式处理。该设计旨在满足处理速率的要求。

对策实施后，短信处理速率大幅提高，可以保障系统处理速率大于1.28万条/秒，达到阶段目标。

5、系统应用试点

为了保证系统测试的顺利进行，QC小组成员使用了PDPC法分析测试过程中可能出现的各种问题及结果，做出预测，并相应地提出多种应变计划，保障目标的实现。系统接入现网进行应用试点，试点期间，系统运行稳定无宕机，自动识别率和识别准确率均满足应用要求，阶段目标达成。

四、方案技术架构

此大数据垃圾短信自动化识别系统，目前接入现网系统的算法为“基于指纹技术的大数据自动识别算法”。长远来看，为提升该系统的查全率与准确率，在此算法基础上，会引入语义识别算法模型（此项目中暂不考虑）。故设置现有技术架构，如下图所示：

垃圾短信算法系统，将各模块服务化；通过kafka（一种能顾达到每秒百万级的高吞吐量的分布式发布订阅消息系统）作为串联各个服务的中间件，实现不同系统结构之间的解耦。从而解决了单机算法的性能瓶颈，使用分布式算法服务满足了现网的秒级16000条短信的运行需求。

该技术方案架构特点，可以归纳为以下几点：

配置灵活：可以针对现网垃圾短信情况进行参数配置。系统参数包括：算法生效参数、人工智能算法训练周期、指纹匹配汉明距离、指纹库容量等。通过以上参数，可以系统有更加灵活的配置，应对更多场景。

实时更新：相比原有垃圾短信治理方法，该算法模型更新迭代更快。在面对垃圾短信突然爆发等情景下，可以及时学习到最新垃圾短信特征，并进行拦截处置，从而减少垃圾短信传播，为移动用户提供可靠保障。

实时反馈：相对原先垃圾短信识别算法，该算法模型对于识别错误的短信能够通过kafka消息的模式进行实时反馈，实时的对现有指纹算法的指纹库进行维护，为该算法的识别准确性提供更有效的保障。

五、应用成果

该系统于2016年9月23日完成现网上线，经过4个月试运行后，该系统于2017年1月18号正式割接上线，接入全国31省，平均日短信处理量约50万条。

公司领导对系统应用效果高度肯定，尚冰董事长做出批示：成绩值得祝贺，建议向工信部、国资委报送有关成果；李跃总裁批示：热烈祝贺中移信安中心与苏研联合创新取得巨大成功！希望此成果能为企业各方面发展作出更大贡献；李正茂副总裁批示：此技术达到了国内领先水平，取得了非常好的效果，请进一步产品化，向行业推广。

第三部分经验总结

一、社会效益

垃圾短信自动判定平均耗时仅为0.07毫秒，相比原来处理方式（处理时长6分钟），违规号码的关停及时性大大提高。在效果检验期内，月均识别违规号码14.4万个，通过估算，可月均减少不法分子发送的垃圾短信约8500万条，有效的保障了广大用户的通信权益。

二、项目创新点

（一）技术创新

创新点1：

为了改善训练数据中的噪声的问题，本系统在指纹入库时增加了预备库，实现了二次入库的改造。指纹在进入实际对比库之前会利用预备库对指纹进行过滤，从而减少噪声对实际比对库的影响。

创新点2：

为了降低不同类型指纹之间的影响的问题，专为指纹算法设计多库识别的技术，将不同类型的指纹分装进不同类型的指纹库，旨在减少训练数据噪声的影响。若同一条指纹进入了多个不同类型的指纹库，可以进一步的降低噪声导致的指纹误识别问题。

创新点3：

设计一种动态指纹库的方法来解决指纹库膨胀问题，还实现了相关反馈方法来完成指纹库的维护与更新来进一步的提升识别准确率。

创新点4：

在系统中引入多种算法，实现算法融合。通过算法模型的实时更新，能够及时识别现网中的新型垃圾短信。其创新点主要体现在针对短信特点，有针对性的利用多种算法优点，令识别系统对垃圾短信的识别更准更全。目前有一种语义算法已在实施中，因为未正式上线，此处不多提及。

（二）应用模式创新

由实际生产需求驱动创新研发，并最终实现了研发成果的应用落地，并用机器识别替代，颠覆了传统治理模式。

四、项目负责人点评

钱岭博士

中移（苏州）软件技术有限公司大数据产品部总经理

个人简介

引进人才钱岭，高级工程师，中国敏捷开发十大贡献者之一。现任中国移动苏州研发中心大数据产品部总经理一职，中国移动技术咨询委员会IT专家组成员之一。同时，兼任工信部数据中心联盟大数据促进委员会副主任委员，中国计算机学会大数据专家委员会通信委员，苏州大数据产业副主任委员。

2001年1月毕业于清华大学计算机科学与技术系，获得工学博士学位，主修软件工程方向。毕业后加入贝尔实验室基础科学研究院，参与并负责包括软件质量改进、IPV6路由器、可编程交换机、语音短信、即时通信系统、Adhoc网络平台、移动终端应用、位置业务平台等很多项目研发和管理工作。2007年加入中国移动通信研究院，移动广告平台、受众监测等项目研究。后加入中国移动“大云”项目组，负责海量数据存储管理产品的研发和应用,担任中国移动通信研究院云计算首席技术架构师、云计算系统部总经理助理。2014年加入中国移动苏州研发中心历任产品部总经理、大数据产品部总经理、公司级性能管理组组长。现主要从事大数据领域、人工智能领域工作。

在云计算总体架构、海量数据管理技术、软件工程方法、基于CMMI和敏捷开发方法的过程改进、软件质量管理、软件度量等领域有较多的研究和实践工作。

项目点评

该项目属于完全自主研发，此大数据垃圾短信自动化识别系统无论是从准确率、查全率，还是处理速率上，都达到了立项及上线要求。期间，产生发明专利4项，制定2份相关规范，获得尚冰董事长、李跃总裁、李正茂副总裁的一致好评。自割接上线以来，运行稳定，预期2017年全年可拦截垃圾短信约10亿条。

第四部分专家推荐语

孙少陵
中移（苏州）软件技术有限公司副总经理

该应用案例，针对我国移动信息通信领域对垃圾短信治理的迫切需求，在行业领域内率先创建了一套借助大数据技术架构实现垃圾短信自动化识别的系统，取得了一系列突破性的重大创新成果。

项目成果具有很强的创新性，实现了具有完全自主知识产权的关键技术突破。此案例成功将指纹识别算法应用与该系统中，在实施过程中配合使用多种细节性创新方案；如引入预备库、多指纹识别方案、动态库方案设计等，都给该系统的查全率与准确率做出来不少贡献。同时，该系统在技术上也具备一定的先进性，它将各模块服务化；通过kafka作为串联各个服务的中间件，实现不同系统结构之间的解耦，满足了现网的秒级16000条短信的运行需求。

经与业界领先互联网公司算法进行测试比对，其研发算法查全率与其基本持平，但识别准确率（99.8%）远高于对方（93.7%），处于领先水平。由实际生产需求驱动创新研发，并最终实现了研发成果的应用落地，并用机器识别替代传统治理模式。

根据统计数据可知，目前月均可减少不法分子发送的垃圾短信约8500万条，有效的保障了广大用户的通信权益，创造了巨大的社会效益。
该案例中应用的技术水平已处于国际先进、国内领先地位。为我国自动化识别技术在垃圾短信治理中应用，创新探索出了一条切实可行的道路，推动我国大数据技术和产业步入了国际先进行列。

故推荐该项目为2017年度TOP10大数据应用最佳实践案例。

更多大数据稿件收集请投稿至邮箱：[email protected]

大数据垃圾短信自动化识别系统的研发与应用

第一部分项目背景及挑战

第二部分技术方案

第三部分经验总结

第四部分专家推荐语

易立：從實踐積累到需求沉澱，容器技術必將引領主流

大數據垃圾短信自動化識別系統的研發與應用

甲骨文推出企業級區塊鏈雲服務

對話淘寶內容搜索、評價歸納的幕後英雄

Thomas Kurian詮釋甲骨文的雲創新

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

大数据垃圾短信自动化识别系统的研发与应用

第一部分 项目背景及挑战

第二部分 技术方案

第三部分 经验总结

第四部分 专家推荐语

第一部分项目背景及挑战

第二部分技术方案

第三部分经验总结

第四部分专家推荐语