【分享】Wikipedia Keyphraseness

原創

狗熊不偷白菜

2020-07-07 09:30

This dataset contains a collection of keyphraseness values for phrases extracted from Wikipedia articles. The keyphraseness value Q(s) of a phrase s is the probability that the phrase appears in a Wikipedia article as being anchor text. In total, 4,342,732 phrases are extracted from the English Wikipedia dump created on January 30, 2010. In this release, we remove the 184,979 phrases containing non-English characters. Among the remaining 4,157,753 phrases, about 1.9 million phrases have non-zero keyphraseness values. This dataset contains one text file and a readme file in zip format (about 45MB in size). Each line is a mapping: [phrase],[keyphraseness value] (e.g., jackie_chan, 0.9509918319719953).

This dataset has been used in the following 3 papers. Please refer to the papers for more details about the dataset and how the keyphraseness values can be used in various tasks (All papers can be downloaded freely from ACM digital library using the links below). This dataset is released solely for research purposes.

Please cite at least one of the following 3 papers if you use this dataset in your research.

·Chenliang Li, Aixin Sun, Jianshu Weng, Qi He. Exploiting hybrid contexts for Tweet segmentation. SIGIR 2013

·Chenliang Li, Aixin Sun, Anwitaman Datta. Twevent: segment-based event detection from tweets. CIKM 2012

·Chenliang Li, Jianshu Weng, Qi He, Yuxia Yao, Anwitaman Datta, Aixin Sun, Bu-Sung Lee. TwiNER: named entity recognition in targeted twitter stream SIGIR 2012.

數據下載：http://www.datatang.com/data/45421

數據堂-數據共享服務平臺

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【分享】體育領域的文本分類數據

本數據集是從中國Web信息博物館（Infomall）保存的歷史網頁中，摘選了1992-2011年間的新聞而成（已去除重複新聞）。整個數據集共有超過1400萬篇歷史新聞，包括新聞發佈時間、網址、標題和內容幾個屬性。該數據集首次應用在天網搜索

狗熊不偷白菜

2020-07-07 09:30:10

【分享】列車運行控制系統人工駕駛數據

北京亦莊地鐵線列車運行控制系統人工駕駛數據數據採集時間：2011年3月運行區間：榮京東－萬源街 10次人工駕駛數據數據維度：10維輸入：限速，實際速度，坡度，剩餘距離，剩餘時間，下一限速變化距離，下一限速變化大小，下

狗熊不偷白菜

2020-07-07 09:30:09

12-Shell腳本_練習

變量 : 使用變量時, 必須在變量名前加$ 用戶自定義變量 : 沒有數據類型和存儲類型直接定義使用, 在定義時必須賦值在 = 的左右兩端不要出現空格符如果值出現空格, 需要使用” “ echo $var : 不關心

2020-07-08 05:44:35

Android數據保存之SQLiteDatabase

閒話少聊，這篇文章主要參考了Google的官方文檔轉載請註明出處 [我的博客]http://www.lostbug.com 首先要創建SQLiteDatabase 這段代碼段定義了單個表格的表格名稱和列名稱 publ

2020-07-08 05:36:00

oracle統計分析函數技術詳

本文章已收錄於：一、Oracle分析函數入門分析函數是什麼？分析函數是Oracle專門用於解決複雜報表統計需求的功能強大的函數，它可以在數據中進行分組然後計算基於組的某種統計值，並且每一組的每一行都可

不习惯打伞的鱼

2020-07-08 04:18:34

業務人員OR領導，到底誰更需要豌豆BI

豌豆BI是一款自助式數據分析工具，它簡單易用，非技術人員也能用它完成數據分析和報告製作；它自由靈活，不受固定模板限制，任意數據內容都可進行拖拽分析。那麼誰更需要這個工具呢？列舉了幾個使用豌豆BI的場景：場景一：大型企業的管理者

哎呀听我说

2020-07-07 20:03:28

億信BI支撐華爲神農統一運維平臺打造企業運維“千里眼”

“由於公安的行業特殊性，我們對產品的選擇非常重視，對產品的性能、安全性、可靠性要求很嚴格。因此，在選擇產品的過程中我們進行了非常詳細的測試。在測試選型時，IMOC的可視化模塊讓我們眼前一亮，最終讓我們下定決心選用該平臺。從目前使用狀況來

哎呀听我说

2020-07-07 20:03:28

從T+1到T+0，淺談PetaBase的實時流式處理

隨着互聯網+的進一步發展，各行業對大數據技術的應用日趨成熟，企業的信息化範圍正在高速擴展。我們發現，越來越多的企業大數據分析已不再侷限於傳統的T+1場景，對數據的實時性分析和處理要求很高。例如網站流量監測、安全告警、用戶推薦等等，傳統的

哎呀听我说

2020-07-07 20:03:28

python數據結構學習筆記-2016-11-20-01-直方圖ADT

11.6 直方圖(histograms) 11.6.1 直方圖ADT 直方圖ADT所包含的方法如下： Histogram(catSeq)：創建直方圖，catSeq爲指定的分類，每一個分類的

2020-07-07 14:43:12

python對json的相關操作以及json模塊的簡要分析

JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式。易於人閱讀和編寫。同時也易於機器解析和生成。 JSON有兩種結構：第一種就是“名稱/值”對的集合。在python中相當於字典類型，在其他

2020-07-07 11:49:31

【嵌入式】C語言高級編程-長度爲0的數組(05)

00. 目錄文章目錄00. 目錄01. 什麼是零長度數組02. 零長度數組應用03. 內核中的零長度數組04. 指針可以代替零長度數組?05. 附錄 01. 什麼是零長度數組零長度數組就是長度爲0的數組。 ANSI C 標準規

沧海一笑-dj

2020-07-07 11:03:10

【Java基礎】面向對象特性

面向對象的特徵面向對象的主要特徵包括：抽象，繼承，封裝，多態 1. 抽象：忽略主題中與當前目標無關的方面，值注意與目標有關的方面(抓住主要矛盾或者主要特徵)，包括數據抽象和過程抽象 2. 繼承：用於表述類的共性，是一種聯結類

流动的城市

2020-07-07 10:11:57

Mysql 如果數據存在則更新，不存在則插入

類似oracle merge into 首選設置DUPLICATE KEY 聯合主鍵 ALTER TABLE tb_acl_statistics ADD UNIQUE (aclid,trojan_name); 插入語句後加入 ON DU

2020-07-07 10:03:18

去中心化存儲或重構邊緣存儲技術

Crust 實現了去中心化存儲的激勵層協議，適配包括 IPFS 在內的多種存儲層協議，並對應用層提供支持。同時 Crust 的架構也有能力對去中心化計算層提供支持，構建分佈式雲生態。隨着物聯網技術與 5G 網絡的快速發展，

Crust分布式云

2020-07-07 06:14:06

論文畫圖+MATLAB保存高精度圖片

print('-djpeg','-r1000','bon') 上面是直接保存。也可以藉助Visio保存，PPT是不行，PPT另存爲後dpi很低，只有150. 而Visio可以自己設置，Visio導出jpg文件，設置爲1000，然後再

2020-07-07 05:19:47

24小時熱門文章

最新文章

最新評論文章