基于ALBERT的文本相似度解决方案

原創

华宇法律科技

2020-08-25 09:38

{"type":"doc","content":[{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"一、引言"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 公司很多项目都有这么一个需求：新的一份文本需要到历史库中，看是否存在类是的文本。在自然语言处理中这类问题属于文本相似度计算的范畴，简单而言：就是给一个被计较的文本a，和一个可能存在相似文本的集合C，找出集合C中所有和文本a相似的文本。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"二、思路探索"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 整体思路大体可以分为两种：一是，文本间直接进行相似度；二是，针对文本提取特征，对文本特征间进行相似度计算。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"2.1 文本之间进行相似度计算"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"2.1.1算法有吗？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 答案是肯定。例如BERT、ALBERT包括词向量(下文称之为：word2vec)等等，很多算法都是可以支持的。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"2.1.2 方案优点"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 不用对文本进行\"深加工\""}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 调用算法运算成本低(后面详解)"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"2.1.3 方案缺点"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 文本中有很多\"无意义\"的描述,对这些描述进行相似度计算浪费计算资源的同时还会影响最终结果。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 文本可能过长，导致模型的输入不能一次接受，需要拆分成多次，这就比较复杂了。比如：下图中有两个文本T1和T2，他们都是在描述A、B、C三件事，但是描述的字数和顺序可能不尽相同。假设总共都有1000个字，以ALBERT为例，他只能输入最多500的字，那么只能对T1，T2拆分成4块，每块250个字，就会出现T1的某一块都是描述A，而T2描述A和B的一部分，这就会给模型的识别造成不必要的困扰。["},{"type":"text","marks":[{"type":"strong"}],"text":"注：这种情况下只会进行4*4=16次相似度计算"},{"type":"text","text":"]"}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/16/16e00abd22d69e4cfddf80031c434a69.png","alt":null,"title":"文本间直接比较示意图","style":[{"key":"width","value":"100%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 虽然词向量可以解决输入长度的问题，但是文本中所有词的词向量之后再如何进行相似度计算呢？而且词向量对一词多义的词语无法处理，不能很好的结合语义特征。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"2.2 文本特征间进行相似度计算"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"2.2.1算法有吗？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 文本间相似度计算的算法，都是可以被挪用到特征间相似度计算。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"2.2.2 方案优点"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 不用考虑文本拆分不好造成的不利影响"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 数据标注简单"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"2.2.3 方案缺点"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 调用算法成本高"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 还是上面那个例子，可以对T1和T2文本进行关键词的提取，比如说T1提取了40个关键词，T2提取了30个关键词，那么就需要调用1200次相似度算法进行计算，而文本间只需要调用16次。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"2.3 最终选择"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 虽然上述两者方案都有各自的优缺点，但是考虑到相似文本数据少，如果采用文本间相似度计算，标注数据会比较困难，而且中文博大精深，一个字的不同都会导致句子的含义不同；而采用特征间相似度计算，只需要对特征（比如：关键词）进行相似词语进行标记就可以了，虽然会耗费计算资源，可以多部署几套进行解决，因此，最终采用文本间特征相似度计算。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"三、关键词相似度计算"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 文本的特征有多种多样，综合多方面考虑选择\"关键词\"作为文本的特征进行相似度计算（考虑：文本相似度计算，在进入人工智能算法计算相似度之前，会对文本的主体包括人名、地址、机构、职级等一些结构化信息先进行判断，对送入算法的本文其实只需要考虑文本间\"关键词\"的相似与否即可，不必要对上篇的文本在进行逐一地判别）。"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"3.1 关键词提取算法"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 关键词提取算法有很多，都各有优劣，下面只介绍常用其中的几种："}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"3.1.1 TF-IDF关键词提取办法"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" TF-IDF，即：词频-逆文件频率。是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 示例："}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/a4/a49047b0b17eb7138ea8512e95a37d4c.png","alt":null,"title":"TF-IDF提取示例","style":[{"key":"width","value":"100%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以\"词频\"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"3.1.2 TextRank算法"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "},{"type":"link","attrs":{"href":"http://web.eecs.umich.edu/~mihalcea/papers/mihalcea.emnlp04.pdf","title":""},"content":[{"type":"text","text":"TextRank "}]},{"type":"text","text":"算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的 "},{"type":"link","attrs":{"href":"http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf","title":""},"content":[{"type":"text","text":"PageRank"}]},{"type":"text","text":"算法, 通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E 组成, E 是V ×V的子集。图中任两点 Vi , Vj 之间边的权重为 wji , 对于一个给定的点 Vi, In(Vi) 为指向该点的点集合 , Out(Vi) 为点 Vi 指向的点集合。点 Vi 的得分定义如下:"}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/d3/d39008c6fb221d5af8d8128f94d71855.png","alt":null,"title":"TextRank得分定义","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 其中, d 为阻尼系数, 取值范围为 0 到 1, 代表从图中某一特定点指向其他任意点的概率, 一般取值为 0.85。使用TextRank 算法计算图中各点的得分时, 需要给图中的点指定任意的初值, 并递归计算直到收敛, 即图中任意一点的误差率小于给定的极限值时就可以达到收敛, 一般该极限值取 0.0001。"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"3.1.3 词向量聚类"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 词向量就是用向量来代表词，常见的词向量算法有：Word2Vec、GloVe、ELMo等。该种方法就是首先利用词向量算法训练语料获取词向量特征，在通过K-mens算法进行聚类，再根据聚类中心获取K个离聚类中心最近的词作为关键词。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 优点："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"\t\t速度快、提取的结果准确性高"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"\t缺点："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 词向量很难包括特定任务下的所有关键词"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"\t\t关键词需要人工添加，较为麻烦"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"\t\t只提取K个关键词，其他的词语被默认舍去，极有可能提取不全"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"\t\t词向量训练虽然简单，但是他们往往过大，第一次加载速度很慢"}]},{"type":"heading","attrs":{"align":null,"level":3},"content":[{"type":"text","text":"3.1.4 BERT或ALBERT利用NER方式提取关键词"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" BERT和ALBERT是最近两年来广受好评的模型，NER即命名实体识别。在\"智慧法医\"项目中曾利用BERT和ALBERT做过NER，主要去识别伤情语句中的伤情部位、大小、类型；因此将关键词抽象成需要被提取的一个实体，这样做的好处在于：针对不同任务，可以自定义\"关键词\"，比如说\"智慧法医\"中认为\"伤情部位\"是关键词，\"案由提取\"中将案由作为\"关键词\"，这样一来模型的复用性极大提高，他不再是解决某一个问题，还是在解决某一类问题；模型泛化能力强，上面提到的几个关键词提取的方法都有一个共同的缺点，就是需要进行中文分词，分词的结果将极大影响关键词提取结果，而BERT和ALBERT算法可以基于\"字\"去训练模型，不再受到\"词\"的约束，因此使得模型的泛化能力更强。缺点在于：标注数据以及计算时间受到文本长度的影响，但是都能够在3s内返回。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "},{"type":"text","marks":[{"type":"italic"},{"type":"strong"}],"text":"综合上面多种关键词提取算法的对比，最终采用ALBERT + BILSTM + CRF 的关键词提取算法。"},{"type":"text","text":"（BILSTM：双向长短时记忆网络，CRF：条件随机场）"}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"3.2 相似度计算算法"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 由于在之前的\"关键词提取\"上采用ALBERT+BILSTM+CRF，因此在相似计算的算法上也采用ALBERT。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" "},{"type":"text","marks":[{"type":"strong"}],"text":" 为什么使用ALBERT而不使用BERT？"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" ALBERT是BERT的改进，主要通过\"因式分解\"以及\"参数共享\"机制对BERT进行改造，但整体的模型结构、输入输出都没有发生任何变化，但是ALBERT的收敛速度更快，预测时间更短(约为BERT的十分之一)，模型更小(ALBERT_tiny只有10几M)，而且ALBERT的精度和BERT相当。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 算法结构("},{"type":"text","marks":[{"type":"strong"}],"text":"图中的BERT，在实际中被替换成了ALBERT"},{"type":"text","text":")："}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/f7/f7aef4cd9bde7c8139b07f66dbf6f0aa.png","alt":null,"title":"模型结构图","style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 在实际使用中，关键词1之前会用CLS标识，关键词2之前用SEP进行标识；在输出部分只取C，即句子向量的输出，之后会把输出接上一个全连接层，做一个2分类(1:相似，0：不相似)。至此，就完成了对相似度计算模型的搭建。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"四、实践实例："}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 目前整个一套文本相似度算法，在项目中使用的流程图如下："}]},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/c6/c6338bd653fc4bf213d6c9b729f7c0c4.png","alt":null,"title":"实践实例流程图","style":[{"key":"width","value":"100%"},{"key":"bordertype","value":"none"}],"href":"","fromPaste":false,"pastePass":false}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong"}],"text":" 注：最终的输出是ALBERT相似计算结果，以及文本结构化信息的加权结果。"}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"五、总结"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":" 整个文本相似度计算算法复用性强，对关键词提取准确，相似度计算结果较好；但是它依旧存在着一个缺陷，如果单次需要被比较的关键词数量很多，时间会有点长，不过目前的实时性还是不错的，目前针对1200对关键词计算相似度时间在3s左右；如果对实时性还有更高的要求可以多部署几套，并且目前的计算时间还在进一步优化中。"}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

探索未知：风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過

2024-05-15 21:26:01

为程序员和新手准备的 8 大 Python 工具

Python 是一種開源編程語言，用於 Web 編程、數據科學、人工智能和許多科學應用。學習 Python 使程序員能夠專注於解決問題，而不是專注於語法，其豐富的庫賦予它完成偉大任務所需的力量。 1) IDLE 安裝 Python 時

2024-05-14 01:06:43

我宣布，这是我找到的史上AI最全论文体系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

探索未知：风靡硅谷开发者的 Unstructured Data Meetup 即将登陆中国l

“最硅谷”的 Unstructured Data Meetup 即將來襲！衆所周知，AI 三要素包括：算力、算法和數據。數據的價值愈發凸顯，而其中非結構化數據更是備受關注。IDC 預測，到 2025 年，全球數據總量中將有超過 80% 的

2024-05-13 21:25:35

攻击者正在利用AI，对保险公司发起大规模欺诈

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

理论+实践，带你了解分布式训练

本文分享自華爲雲社區《大模型LLM之分佈式訓練》，作者：碼上開花_Lancer。隨着語言模型參數量和所需訓練數據量的急速增長，單個機器上有限的資源已無法滿足大語言模型訓練的要求。需要設計分佈式訓練（Distributed Trainin

2024-05-08 22:38:41

2024年DataOps趋势预测：AI不会取代数据工程师

APM digest收集了多位行業專家對DataOps在2024的發展形勢及對IT和業務的影響的預測，這些技術最高管理者，包括Confluent技術戰略負責人Andrew Sellers的深刻洞見可能與你的感覺一致嗎？快來探討一下。數據可

2024-04-30 11:49:29

数字化转型新篇章：企业通往智能化的新范式

早在十多年前，一些具有前瞻視野的企業以實現“數字化”爲目標啓動轉型實踐。但時至今日，可以說尚無幾家企業能夠在真正意義上實現“數字化”。在實現“數字化”的征途上，人們發現，努力愈進，彷彿終點愈遠。究其原因，還在於轉型一直落後於技術邊界的拓展

2024-04-29 21:22:20

Stable Diffusion中的embedding

Stable Diffusion中的embedding 嵌入，也稱爲文本反轉，是在 Stable Diffusion 中控制圖像樣式的另一種方法。在這篇文章中，我們將學習什麼是嵌入，在哪裏可以找到它們，以及如何使用它們。什麼是嵌入embe

2024-04-25 21:31:13

AI从入门到入门之手写数字识别模型java方式Dense全连接神经网络实现

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

Pinecone: 大模型时代的智能索引与搜索解决方案

隨着人工智能技術的飛速發展，大模型（Large Models）已成爲衆多領域的重要工具。無論是自然語言處理、圖像識別還是其他複雜任務，大模型都展現出了強大的性能。然而，隨着模型規模的不斷擴大，數據量的激增，如何有效地管理、索引和搜索這些模型

2024-04-19 11:29:43

软件测试从自动化到智能化，大模型开始加入

隨着科技的飛速發展，軟件行業也在不斷地演進和創新。作爲軟件行業的關鍵環節之一，軟件測試行業也在經歷着前所未有的變革。從最初的手動測試，到自動化測試，再到如今的智能化測試，軟件測試行業正在經歷一場深刻的技術革命。在這場革命中，Testin雲測

2024-04-19 00:53:25

裁员了！别错过2024年大数据工程师必备的10项技能

在當今快速發展的世界中，數據被視爲新的石油。隨着對數據驅動洞察的日益依賴，大數據工程師的角色比以往任何時候都更爲關鍵。這些專業人員在管理和優化組織內的數據操作中扮演着至關重要的角色。在本文中，我們將探索2024年大數據工程師必須具備的十

2024-04-16 11:00:53

DevOps已死？2024年的DevOps将如何发展

隨着我們進入2024年，DevOps也隨之發生變化。新興的技術、變化的需求和發展的方法正在重新定義有效實施DevOps實踐。 IDC預測顯示，未來五年，支持DevOps實踐的產品市場繼續保持健康且快速增長，2022年-2027年的複合年增長

2024-04-08 12:51:44

从模型到部署，教你如何用Python构建机器学习API服务

本文分享自華爲雲社區《Python構建機器學習API服務從模型到部署的完整指南》，作者：檸檬味擁抱。在當今數據驅動的世界中，機器學習模型在解決各種問題中扮演着重要角色。然而，將這些模型應用到實際問題中並與其他系統集成，往往需要構建API

2024-04-08 10:33:17

24小時熱門文章

最新文章

最新評論文章