AI實戰：文本自動摘要簡述

原創

2020-06-27 20:55

文本自動摘要

兩大分類

抽取式摘要
生成式摘要

1、抽取式摘要

分爲無監督和有監督。

無監督方法：
（1）基於統計特徵的tfidf
（2）文本聚類
（3）基於圖特徵的TextRank、LexRank
（4）MMR，全稱爲Maximal Marginal Relevance，它的核心思想同時考慮了內容相關性和多樣性
（5）submodular（次模）函數
有監督方法：
（1）SummaRuNNer：基於RNN，詞級別做RNN編碼，句子級別做RNN編碼，最後判斷每個句子是否屬於摘要句子。
論文地址：SummaRuNNer: A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents

2、生成式摘要

大部分都是基於的seq2seq框架

常見問題：
（1）OOV問題
（2）摘要的可讀性
（3）摘要的重複性
（4）長文本摘要生成難度大
（5）模型的訓練目標與最終的評測指標不太一致
模型：
- Pointer-network
  - 主要針對問題1,2,3
  - 論文地址：Get To The Point: Summarization with Pointer-Generator Networks
- Neural Headline Generation with Minimum Risk Training
  - 主要針對問題5
  - 論文地址：Neural Headline Generation with Minimum Risk Training
- Attention Model
- Attention-Based Summarization(ABS)
- ABS+
- Recurrent Attentive Summarizer
- big-words-lvt2k-1sent
- words-lvt2k-2sent-hieratt
- feats-lvt2k-2sent-ptr
- COPYNET
- 基於預訓練語言模型BERT/XLNET/GPT等的方法
  如：基於預訓練自然語言生成的文本摘要方法
模型介紹參考：https://www.jianshu.com/p/2baeaf249a9a

中文語料庫

Large Scale Chinese Short Text Summarization Dataset（LCSTS）
這是一箇中文短文本摘要數據集，數據採集自新浪微博。

測評方法

Edmundson
Edmundson評價方法比較簡單，是通過比較自動文摘與目標文摘的句子重合率的高低來對系統摘要進行評價。
ROUGE
ROUGE是由ISI的Lin和Hovy提出的一種自動摘要評價方法，是主流測評方法。

ROUGE-N系列，其實就是以n-gram爲基本單元，計算兩個句子之間的n-gram重合率。每個ROUGE系列的計算結果又可以細分爲precision，recall和f-beta分數。

ROUGE-L是針對是最長公共子序列的重合率計算。

ROGUE-W與ROUGE-L類似，不同的是考慮了連續最長公共子序列應該擁有更大的權重。

ROUGE-S，基於的是skip-gram。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

攻擊者正在利用AI，對保險公司發起大規模欺詐

保險欺詐一直是保險行業面臨的重要挑戰之一，尤其隨着技術的進步，欺詐者也在不斷更新其手段，利用AI技術，包括生成式模型、機器學習和數據分析工具等欺騙保險公司，而AI技術的應用正成爲他們的新工具，使其犯罪行爲更加隱蔽和複雜，挑戰保險行業的防欺詐

2024-05-10 00:55:17

我宣佈，這是我找到的史上AI最全論文體系！

在碎片化閱讀充斥眼球的時代，越來越少的人會去關注每篇論文背後的探索和思考。搞AI，不少人都進入一個誤區，那就是隻鑽研自己的代碼是否精進，而沒有注意提升自己的閱讀能力。實際上，一個專業的學術研究員或者AI研究員可能需要花費幾百個小

2024-05-13 21:33:50

LoRA微調語言大模型的實用技巧與實踐

隨着人工智能技術的不斷髮展，大型語言模型在各個領域的應用越來越廣泛。然而，大型語言模型的訓練成本高昂，且難以適應不同領域的具體需求。爲了解決這個問題，LoRA微調技術應運而生。本文將介紹LoRA微調語言大模型的實用技巧，幫助讀者更好地應用這

2024-05-09 12:48:45

舌尖上的AI：人工智能技術正在被“端上”餐桌

來源 | 人民數字FINTECH 責編 | 晉兆雨頭圖 | CSDN 下載自視覺中國 #人工智能技術正在被“端上”餐桌四方食事，不過一碗人間煙火。人工智能作爲一門新的技術科學，正在被人間煙火氣“端”上餐桌。人工智能“洗手”

2024-05-13 21:17:25

大模型微調方法總結：LoRA, Adapter, Prefix-tuning, P-tuning, Prompt-tuning

隨着自然語言處理（NLP）技術的不斷髮展，大模型微調（finetune）方法成爲了提高模型性能的關鍵手段。本文將對LoRA、Adapter、Prefix-tuning、P-tuning和Prompt-tuning等主流微調方法進行總結，幫助

2024-05-09 12:48:44

網絡爬蟲安全：90後小夥，用軟件非法搬運他人原創視頻被判刑

央視《今日說法》欄目近日報道了一名程序員開發非法視頻搬運軟件獲利超700多萬，最終獲刑的案例。國內某知名短視頻平臺報警稱，有人在網絡上售賣一款視頻搬運軟件，使用軟件的人可以繞過平臺的審覈機制，一鍵“搬運”竊取他人作品非法轉載投稿。警方調查

2024-05-16 00:19:26

探索大語言模型：理解Self Attention| 京東物流技術團隊

一、背景知識在ChatGPT引發全球關注之後，學習和運用大型語言模型迅速成爲了熱門趨勢。作爲程序員，我們不僅要理解其表象，更要探究其背後的原理。究竟是什麼使得ChatGPT能夠實現如此卓越的問答性能？自注意力機制的巧妙融入無疑是關鍵因素

2024-05-14 23:57:26

GPU 硬件指標說明

流處理器：也叫渲染管、着色器。畫面都是由一個又一個像素點組成的，而流處理器就負責這些像素點的渲染工作； RT核心：光追核心，用作於光線追蹤效果； CUDA 核心和Tensor 核心：CUDA Core和Tensor Core，爲G

2024-05-13 22:35:43

AIGC在京東廣告創意的技術應用

一、前言電商廣告圖片不僅能夠抓住消費者的眼球，還可以傳遞品牌核心價值和故事，建立起與消費者之間的情感聯繫。然而現有的廣告圖片大多依賴人工製作，存在效率和成本的限制。儘管最近AIGC技術取得了卓越的進展，但其在廣告圖片的應

京東雲開發者

2024-05-08 23:24:18

白鯨開源CEO郭煒在2024 DataOps發展大會上獲聘專家

2024年5月15日，白鯨開源CEO郭煒在2024 DataOps發展大會上被正式聘任爲DataOps專家，並獲得了榮譽證書。本次大會由中國通信標準化協會主辦，中關村科學城管委會提供支持，大數據技術標準推進委員會（CCSATC601）承辦，

2024-05-16 11:28:50

共創數字經濟新生態，華爲雲生態領航者·AI先遣隊圓滿落幕

5月9-11日，華爲雲生態“領航者·AI先遣隊”課程班在杭州成功舉辦，本次課程聚焦於AI前沿探索與實踐的高端研修，匯聚了來自華爲雲生態夥伴企業的高層決策者，共同開啓了一場關於智慧升級與生態共建的深度對話。華爲雲生態領航者·AI先

2024-05-16 10:58:48

2024數據標註公司20強排行榜（附榜單）

近日，德本諮詢發佈“2024數據標註公司排行”。數據標註行業作爲人工智能領域的重要組成部分，其需求正在不斷增長。近年來，數據標註行業發展迅速，規模實現了顯著增長。以2023年爲例，該行業的規模已經達到了60.8億元，同比增長了約19.69

2024-05-16 02:09:44

Kimi大模型，加入微信了

哈哈哈，喜大普奔！前段時間發現微信公衆號被開通留言，最近又發現 Kimi大模型現在可以接入微信公衆號了！這意味着我們能夠更加便捷地享受到Kimi智能助手的服務，還代表着我們有了一個免費且好用且穩定且無需翻牆的 AI助

2024-05-13 23:51:55

內嵌專業接口的RISC-V架構MCU，誰家有？

前一陣，蘋果推出了M1處理器，相比關注具體指標，業內其實更關心M1推出後會引領產業往哪個方向發展，不少人的結論是RISC-V會成爲未來芯片發展的熱點，因爲RISC-V有很多巧妙的方法可以提高性能。計算機界泰斗David Patterso

2024-05-13 23:26:39

免費報名|Zabbix受邀出席上海開源技術沙龍，探討開源軟件賦能新質生產力

大家好！5月25日我們將舉辦今年第三期上海開源技術沙龍活動。本次的主題是——開源軟件賦能新質生產力。在上海開源信息技術協會 (SHOpen) 的指導下，隨着活動的持續開展，上海開源技術沙龍獲得了越來越多開發者的關注與

2024-05-13 22:34:43

24小時熱門文章

最新文章

最新評論文章