论文浅尝 | PAKDD2020 - 利用支持集中匹配信息的 few shot 事件分类方法

原創

开放知识图谱

2020-06-14 14:52

论文笔记整理：申时荣，东南大学博士生。

来源：PAKDD 2020

链接：https://arxiv.xilesou.top/pdf/2002.05295.pdf

1.介绍：

事件分类是一个重要的信息抽取任务，其目的是根据事件的提及实例对事件类别进行分类。目前事件分类的主要方法是基于监督学习的方法。包括依据语义语法特征的分类和依据深度神经网络编码实例特征的分类。

监督学习中的训练数据包括预定义的有限事件类型，以及对应的实例集合，这种方法存在明显的弊端。当事件类型固定后模型就不可扩展，无法处理训练数据中未出现的事件类型。而如果需要针对新的事件类型进行预测，就要重新标记数据并重新训练模型。

事件数据的标记需要很大的成本，事实上，当前的事件抽取更类似于few-shot任务。每个实例依据少量的支撑数据作为证据进行分类，这种方法也更接近人类的思维模式。Few-shot的具体做法就是依据带有类别标记的支撑集作为预测依据，典型的通过生成原型特征向量和基于度量的分类方法对每个query选择最合适类别进行预测。目前在事件分类领域还没有使用few-shot方法训练模型的先例。

但是目前的few-shot方法在训练过程中只考虑到使用支撑集和查询集之间的匹配关系进行训练，这种方法是低效的。由于本身样本的稀少这种方法不能很好的利用支撑集的信息。同时由于支撑集内部的每个实例之间存在差异，之前的方法并没有很好的利用这些信息。

于是本文将事件分类抽象为few-shot任务，并且在传统的训练方法上增加了支撑集内部的交互来提升训练过程中支撑集数据的利用效率。并且在两个典型的时间抽取数据集上都取得了提升。

2.方法：

首先，本文将事件分类定义为few-shot任务：

其中数据格式如下：

K表示了每个类对应的shot数（训练实例数），t表示了对应的类别标记，a表示了每个实例中trigger 的位置，s是实例序列（句子）。

本文的模型包括三个模块：实例编码模块、原型模块和分类模块。

实例编码模块包括嵌入（预训练的词嵌入和位置嵌入）和编码器两个部分组成。其中本位为了对比不同编码器的影响，使用了CNN和Transformer两种编码器。

原型模块主要是通过支撑集中某一类所有的句子向量来计算当前类的原型向量。目前有两种主流的原型向量计算方法，一种是简单平均所有句向量：

另一种是通过注意机制方法：

最后是分类模型，分类模型通过metric得到实例特征和原型的得分来预测其属于哪个类别：

对应的损失函数是：

本文使用而来三种度量学习方法进行比较，分别是余弦距离，欧式距离和CNN生成距离。

此外，为了充分利用支持集，在训练过程中，除了上述的损失之外，额外的支撑集为辅助支撑集和辅助查询集，并且按照之前的模式计算损失，保证使用部分支撑集预测剩余支撑集中的样本的正确性，对应损失为：

3.实验：

作者在ACE2005和TAC KBP两个数据集上进行了实验，结果如下

可以看出,增加支撑集内部的交互对实验结果有绝对提升。

OpenKG

开放知识图谱（简称 OpenKG）旨在促进中文知识图谱数据的开放与互联，促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文，进入 OpenKG 博客。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Dokcer部署Kafka集群

docker網絡規劃 docker network create kafka-net --subnet 172.20.0.0/16 docker network ls zookeeper1（172.20.0.11 2184:2181

2024-05-16 14:31:24

「Pygors跨平台GUI」2：安装MinGW-w64、MSYS2还是WSL2

「Pygors系列」一句話導讀： MinGW-w64只有編譯器，MSYS2帶着更新環境，WSL2實用性比較高歷史與淵源 Windows平臺 Linux平臺二進制兼容 WSL2：運行Linux程序 Wine：運行Wi

2024-05-16 14:29:14

「Pygors跨平台GUI」1：Pygors跨平台GUI应用研究

「Pygors系列」一句話導讀： Python、Go、Rust、C程序跨平臺GUI框架研究。一、問題 Pygors是什麼？ Pygors是我自己創造的一個詞，就是Python、Go、Rust、C四種語言的合體。目的是爲了跨平臺GUI應

2024-05-16 14:29:14

【Linux命令学习】lsof查看打开的文件

lsof： list open files 作用1：可查端口號被哪個進程佔用比如我們跑自動化，經常會遇到端口號被佔用，無法啓動driver lsof -i :8081 lsof 輸出的結果含義： fd：文件描述符的數字，通常是一個

金大鑫要堅持

2024-05-16 14:27:04

MacOS添加，查看，删除用户

1. 添加用戶在macOS中，可以通過命令行使用dscl（Directory Service command line utility）工具來添加用戶。以下是使用dscl添加用戶的步驟：打開終端：可以通過在Spotlight搜索中輸

金大鑫要堅持

2024-05-16 14:27:04

Flink执行图

Flink的代碼編寫流程爲env->source->transform->sink，基本所有的代碼都是大致按照圖1的流程進行代碼編寫，當然中間也會有一些封裝之類的。 Flink代碼寫好後，它的任務調度執行圖按照生成順序分爲:邏輯流圖(

人不瘋狂枉一生

2024-05-16 14:23:03

Garnet：微软官方基于.NET开源的高性能分布式缓存存储数据库

前言前不久Redis宣佈從 Redis 7.4 開始，將原先比較寬鬆的 BSD 源碼使用協議修改爲 RSALv2 和 SSPLv1 協議，該協議變化意味着Redis不再開源。今天給大家分享一款完全開源（MIT協議）、免費的Redis替代性

2024-05-16 14:22:03

nodejs学习07——API

接口一、簡介 1.1 接口是什麼接口是前後端通信的橋樑簡單理解：一個接口就是服務中的一個路由規則，根據請求響應結果接口的英文單詞是 API (Application Program Interface)，所以有時也稱之爲 AP

2024-05-16 14:21:53

nodejs学习06——小案例

2024-05-16 14:21:53

🔥 Java Solon v2.7.6 发布

Java Solon 是什麼框架？ Java “新的”應用開發框架。開放原子開源基金會，孵化項目。從零開始構建（非 java-ee 架構），有靈活的接口規範與開放生態。追求：更快、更小、更簡單提倡：剋制、簡潔、高效、開放、生態

2024-05-16 14:21:13

Puppeteer！

什麼是Puppeteer Puppeteer 是一個由 Google 開發的 Node.js 庫，它提供了一組用於控制 Headless Chrome 的 API。 Headless Chrome 是 Chrome 瀏覽器的無界面版本，可以

2024-05-16 14:17:02

openstack虚拟机用keep alive添加的VIP，其它机器无法访问

neutron port-list |grep ipneutron port-update a7fbxxf6cc2 --allowed_address_pairs type=dict list=true ip_address=vipne

2024-05-16 14:13:52

apisix~authz-keycloak插件介绍

參考：https://apisix.apache.org/docs/apisix/plugins/authz-keycloak/ kc插件源碼梳理及原理說明如果只是進行keycloak頒發的token進行校驗（簽名校驗和有效期校驗），

2024-05-16 14:12:42

Dynamic-Datasource动态数据源

1、添加請求對應的數據源標籤 DynamicDataSourceContextHolder.push(ds); 2、添加數據源 3、動態添加數據源 private DynamicRoutingDataSource dataSo

2024-05-16 14:12:02

NETCore中实现一个轻量无负担的极简任务调度ScheduleTask

至於任務調度這個基礎功能,重要性不言而喻,大多數業務系統都會用到,世面上有很多成熟的三方庫比如Quartz,Hangfire,Coravel 這裏我們不討論三方的庫如何使用而是從0開始自己製作一個簡易的任務調度,如果只是到分鐘級別的粒度基

2024-05-16 14:04:41

24小時熱門文章

最新文章

最新評論文章