ArgMiner:一個用於對論點挖掘數據集進行處理、增強、訓練和推理的 PyTorch 的包

論點挖掘(Argument Mining)是一項從文本中提取論點成分的任務,通常作爲自動寫作評估系統的一部分。這是自然語言處理中一個非常熱門的領域。一個好的 AM 模型可以將一段原始將一段原始文本的序列標記爲它們所屬的論點內容。雖然歷史上這一問題被視爲一個語義分割問題,最先進的(SOTA) AM技術把它作爲一個命名實體識別(NER)問題的長序列的文本。

儘管有這個領域的歷史,關於NER AM數據集的文獻相對較少,自2014年以來的唯一貢獻是Christian Stab和Iryna Gurevych的Argument Annotated Essays。最近(截至2022年3月),隨着PERSUADE(在Kaggle競賽Feedback Prize中使用)和ARG2020數據集(在GitHub發佈),這種情況雖然得到了改善,但很少有關於AM模型的跨數據集性能測試。因此也沒有研究對抗性訓練如何提高AM模型的跨數據集性能。對AM模型對抗實例的魯棒性研究也較少。

由於每個數據集都以不同的格式存儲,使上述挑戰變得更加複雜,這使得在實驗中對數據進行標準化處理變得困難(Feedback Prize比賽就可以確認這一點,因爲大部分代碼都是用於處理數據的)。

本文介紹的ArgMiner是一個用於使用基於Transformer的模型對SOTA論點挖掘數據集進行標準化的數據處理、數據增強、訓練和推斷的pytorch的包。本文從包特性介紹開始,然後是SOTA數據集的介紹,並詳細描述了ArgMiner的處理和擴展特性。最後對論點挖掘模型的推理和評估(通過Web應用程序)進行了簡要的討論。

ArgMiner簡介

ArgMiner 的主要特點總結如下:

  • 處理SOTA 數據集,而無需編寫任何額外的代碼行
  • 可以在單詞和子標記級別生成以下標記方法 {io, bio, bioo, bixo},無需額外的代碼
  • 可以在不更改數據處理管道的情況下進行自定義增強
  • 提供一個 用於使用任何 HuggingFace TokenClassification 模型進行論點挖掘微調的PyTorch數據集類
  • 提供高效的訓練和推理流程

下圖顯示了 ArgMiner 的端到端工作:

完整文章

https://avoid.overfit.cn/post/8bed8579a0c6485fab8c414dbf6eff90

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章