丘比特之箭——知乎多场景内容匹配项目:实现各种不同类型的文本之间的准确匹配 |百万人学AI评选

2020 无疑是特殊的一年,而 AI 在开年的这场”战疫“中表现出了惊人的力量。站在“新十年”的起点上,CSDN【百万人学AI】评选活动正式启动。本届评选活动在前两届的基础上再度升级,设立了「AI优秀案例奖Top 30」、「AI新锐公司奖Top 10」、「AI开源贡献奖Top 5」三大奖项。我们相信,榜样的力量将成为促进AI行业不断发展的重要基石,而CSDN将与这些榜样一起,助力AI时代的”新基建“。

活动官网:https://bss.csdn.net/m/topic/ai_selection/index

申报地址:http://csdnprogrammer.mikecrm.com/WpA03hJ

一、公司简介

知乎,中文互联网综合性内容平台,以「让每个人高效获得可信赖的解答」为品牌使命和北极星。自 2010  年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台,构建起了以广告和会员为主的商业模式。截至 2019 年 1 月,知乎已拥有超过 2.2 亿用户,共产出 1.3 亿个回答。目前,知乎已经覆盖「问答」社区、全新会员服务体系「盐选会员」、机构号、热榜等一系列产品和服务,并建立了包括音频、视频在内的多元媒介形式。

 

二、案例详情

产品详情

多场景匹配项目是知乎 AI 团队研发的一整套技术解决方案,旨在实现各种不同类型的文本之间的准确匹配。该项目包括两个主要模块:

  1. 可配置多路召回。包括词的索引召回、自定义 Boolean 召回、分类领域召回、多标签召回、embedding 召回等。召回阶段还可配置预排序策略和截断策略,准确召回的同时大大减少计算量。
  2. 通用匹配算法。通过抽象出通用的匹配算法,针对不同的场景:长文本匹配长文本、短文本匹配短文本、长文本匹配短文本,稍作适配即可立即应用。

技术创新

  1. 抽象简化匹配问题。使用可配置的多路召回策略,简化了匹配复杂度,让模型更容易获得关键信息。
  2. 提出迭代式训练方案。抽取适量上一轮产出的高分负样本,与正样本混合进行训练,使算法可以学习到较为困难的部分。

该项目在知乎得到广泛应用,大幅提升了运营人效、用户体验,有效解决用户的需求并创造价值。

技术投入

  1. 研发通用匹配算法。基于 RoBERTa 中文预训练模型,设计神经网络模型的结构:embedding 表示层、transformer、映射层、softmax 输出层。 该项目支持微服务云部署。
  2. 构建可配置多路召回。基于 Rucene 构建通用的词索引、标签索引等,基于 Faiss 构建高效 embedding 索引。

 

三、典型应用场景

1、「会员问答融合」:根据知乎的会员内容,匹配出准确的、可回答的问题,提高运营效率,进而提高会员内容曝光和转化。

2、「客服 FAQ 自动回复」:在客服系统中,及时、有效地解答用户的 FAQ,提高用户体验,减少客服压力。

3、「圈子项目」:通过算法给新圈子尽快找到合适的问题作为进入的入口,能很好的促进圈子的活跃和发展。算法上线后,从回答页进入圈子点击量提升 17.5%。

4、「商业广告支持」:为客户创作的商业内容,推荐相关的站内问题,为商业内容带来流量的同时,有效解决用户的实际问题。

5、「社区内容去重」:知乎每天新增大量问题、视频、电子书,通过该算法可快速匹配站内已有相似问题和重复问题,有效减少重复性内容引入,如热榜去重、提问去重、相似推荐等。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章