文本圖像數據集合、打標工具

集大家之所長彙集於此,希望對有需要的你能有所幫助。

一、打標籤工具

(1)labelimg/labelme

這兩款工具簡便易行,前者主要用於對目標進行大致的標定,用於常見的框選標定,後者主要用於較爲細緻的輪廓標定,多用於mask rcnn等。安裝也是很方便的,直接在終端下用pip install labelimg即可(至於labelme,需要先安裝pyqt,所以先pip install python-qt5,然後再pip install labelme)。其使用界面如下:

(2)NLP標註工具BRAT

BRAT是一個基於web的文本標註工具,主要用於對文本的結構化標註,用BRAT生成的標註結果能夠把無結構化的原始文本結構化,供計算機處理。利用該工具可以方便的獲得各項NLP任務需要的標註語料。其使用教程可參考https://blog.csdn.net/tcx1992/article/details/80580089。標註結果示例如下:

(3)視頻標註工具

CDVA(compact descriptor for video analysis),主要是基於CDVS中的緊湊視覺描述子來做視頻分析,之前是緊湊視覺描述子主要應用在圖像檢索領域。需要製作新的數據集,對視頻幀進行標註,所以根據網上一個博主的標註工具進行了一定的修改,實現的功能是在每一幀中將需要標註的區域用鼠標選取4個點,順序是順時針。因爲四邊形的範圍更廣,之前的一些人直接標註了矩形,但是在一些仿射變換中,往往矩形的定位效果不好,矩形定位應該比較適合於人臉定位和行人定位之中。其參考教程:

http://www.cnblogs.com/louyihang-loves-baiyan/p/4457462.html

Vatic源自MIT的一個研究項目(Video Annotation Tool from Irvine, California)。輸入一段視頻,支持自動抽取成粒度合適的標註任務並在流程上支持接入亞馬遜的衆包平臺Mechanical Turk。除此之外,其還有很多實用的特性: 
1.簡潔使用的GUI界面,支持多種快捷鍵操作 
2.基於opencv的tracking,這樣就可以抽樣的標註,減少工作量 
具體使用時,可以設定要標註的物體label,比如:水果,人,車,等等。然後指派任務給到衆包平臺(也可是自己的數據工程師)。現階段支持的標註樣式是框(box)。一個示例,下圖標註了NBA直播比賽中的運動員 .

參考鏈接:http://web.mit.edu/vondrick/vatic/

(4)其他標註工具

現在隨着大家不斷的湧入機器學習這塊,標籤工具的開發層出不窮,大家可以慢慢探索,像yolo_mark、BBox-Label-Tool等工具

在這裏就不一一展開了。當然如果你的數據量夠大,你還可以嘗試一下衆包,國內外有專門做這種標註業務的公司或網站,例如敲寶網、小魚兒網、數據堂等。

 

二、常見的數據集

一部分來源:深度學習視覺領域常用數據集彙總

1、LSUN:用於場景理解和多任務輔助(房間佈局估計,顯着性預測等)。

有:Bedroom
地址:http://lsun.cs.princeton.edu/2016/

2、行人檢測DataSets
(1).基於背景建模:利用背景建模方法,提取出前景運動的目標,在目標區域內進行特徵提取,然後利用分類器進行分類,判斷是否包含行人; 
(2).基於統計學習的方法:這也是目前行人檢測最常用的方法,根據大量的樣本構建行人檢測分類器。提取的特徵主要有目標的灰度、邊緣、紋理、顏色、梯度直方圖等信息。分類器主要包括神經網絡、SVM、adaboost以及現在被計算機視覺視爲寵兒的深度學習。

Caltech行人數據庫:http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

該數據庫是目前規模較大的行人數據庫,採用車載攝像頭拍攝,約10個小時左右,視頻的分辨率爲640×480,30幀/秒。標註了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關係及其遮擋的情況進行標註。數據集分爲set00~set10,其中set00~set05爲訓練集,set06~set10爲測試集(標註信息尚未公開)。性能評估方法有以下三種:(1)用外部數據進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調整參數,最後給出訓練集上的性能;(3)用set00~set05訓練,set06~set10做測試。由於測試集的標註信息沒有公開,需要提交給Pitor Dollar。結果提交方法爲每30幀做一個測試,將結果保存在txt文檔中(文件的命名方式爲I00029.txt I00059.txt ……),每個txt文件中的每行表示檢測到一個行人,格式爲“[left, top,width, height, score]”。如果沒有檢測到任何行人,則txt文檔爲空。該數據庫還提供了相應的Matlab工具包,包括視頻標註信息的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

其他數據集可參考:行人檢測:http://www.52ml.net/17004.html

3、人臉數據庫UMDFaces等
(1)UMDFaces 
http://www.umdfaces.io/ 
不僅有人臉的目標檢測數據,還有關鍵點的數據,非常適合做訓練。 
就是比較大,總共有三個文件,一共8000+個類別,總共36W張人臉圖片,全都是經過標註的樣本,標註信息保存在csv文件中,除了人臉的box,還有人臉特徵點的方位信息,強力推薦!

(2)人臉識別數據庫 
1. 李子青組的 CASIA-WebFace(50萬,1萬個人). 需申請.Center for Biometrics and Security Research 
2. 華盛頓大學百萬人臉MegaFace數據集. 郵件申請, 是一個60G的壓縮文件. MegaFace 
3. 南洋理工 WLFDB. (70萬+,6,025). 需申請. WLFDB : Weakly Labeled Faces Database 
4. 微軟的MSRA-CFW ( 202792 張, 1583人). 可以直接通過OneDrive下載.MSRA-CFW: Data Set of Celebrity Faces on the Web 
5. 湯曉歐實驗室的CelebA(20萬+), 標註信息豐富. 現在可以直接從百度網盤下載 Large-scale CelebFaces Attributes (CelebA) Dataset 
6. FaceScrub. 提供圖片下載鏈接(100,100張,530人). vintage – resources

鏈接:https://www.zhihu.com/question/33505655/answer/67492825 
 

4、搜狗實驗室數據集:
http://www.sogou.com/labs/dl/p.html

互聯網圖片庫來自sogou圖片搜索所索引的部分數據。其中收集了包括人物、動物、建築、機械、風景、運動等類別,總數高達2,836,535張圖片。對於每張圖片,數據集中給出了圖片的原圖、縮略圖、所在網頁以及所在網頁中的相關文本。200多G

格式說明:
共包括三個文件:Meta_Data,Original_Pic,Evaluation_Data。其中Meta_Data存儲圖片的相關元數據;Original_Pic中存儲圖片的原圖;Evaluation_Data是識圖搜索結果的人工標註集合。
Meta_Data文件包含所有圖片的相關元數據,格式如下:
<PIC>
<PIC_URL>圖片在互聯網中的URL地址</PIC_URL>
<PAGE_URL>圖片所在網頁的URL地址</PAGE_URL>
<ALT_TEXT>圖片的替換文字</ALT_TEXT>
<ANCHOR_TEXT>以圖片爲目標的超鏈接的顯示文本</ANCHOR_TEXT>
<SUR_TEXT1>頁面中提取的圖片上方的文本</SUR_TEXT1>
<SUR_TEXT2>頁面中提取的圖片下方的文本</SUR_TEXT2>
<PAGE_TITLE>圖片所在網頁的標題</PAGE_TITLE>
<CONTENT_TITLE>圖片所在網頁的正文標題</ CONTENT_TITLE>
<WIDTH>圖片的寬度</WIDTH>
<HEIGHT>圖片的高度</HEIGHT>
<ORIGINAL_PIC_NAME>圖片在Original_Pic下的文件名</ ORIGINAL_PIC_NAME>
</PIC>
圖片原圖存儲在Original_Pic文件中,每個圖片二進制數據保存成一個單獨文件,文件名在Meta_Data的元信息中指明。
 
Evaluation_Data文件包含所有圖片的相關元數據,格式如下:
<PIC>
<QUERY_URL>查詢圖片在互聯網中的URL地址</QUERY_URL>
<RESULT_URL>搜索結果的 PIC_URL,多個分號隔開</RESULT_URL>
</PIC>


5、Imagenet數據集

業界標杆 
Imagenet數據集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標註和圖像中物體位置的標註,具體信息如下:

1)Total number of non-empty synsets: 21841

2)Total number of images: 14,197,122

3)Number of images with bounding box annotations: 1,034,908

4)Number of synsets with SIFT features: 1000

5)Number of images with SIFT features: 1.2 million

Imagenet數據集是目前深度學習圖像領域應用得非常多的一個領域,關於圖像分類、定位、檢測等研究工作大多基於此數據集展開。Imagenet數據集文檔詳細,有專門的團隊維護,使用非常方便,在計算機視覺領域研究論文中應用非常廣,幾乎成爲了目前深度學習圖像領域算法性能檢驗的“標準”數據集。

與Imagenet數據集對應的有一個享譽全球的“ImageNet國際計算機視覺挑戰賽(ILSVRC)”,以往一般是google、MSRA等大公司奪得冠軍,今年(2016)ILSVRC2016中國團隊包攬全部項目的冠軍。

Imagenet數據集是一個非常優秀的數據集,但是標註難免會有錯誤,幾乎每年都會對錯誤的數據進行修正或是刪除,建議下載最新數據集並關注數據集更新。

數據集大小:~1TB(ILSVRC2016比賽全部數據)

下載地址: http://www.image-net.org/about-stats

6、COCO數據集
COCO數據集由微軟贊助,其對於圖像的標註信息不僅有類別、位置信息,還有對圖像的語義文本描述,COCO數據集的開源使得近兩三年來圖像分割語義理解取得了巨大的進展,也幾乎成爲了圖像語義理解算法性能評價的“標準”數據集。

Google開源的開源了圖說生成模型show and tell就是在此數據集上測試的,想玩的可以下下來試試哈。

數據集大小:~40GB

下載地址:http://mscoco.org/

COCO(Common Objects in Context)是一個新的圖像識別、分割和圖像語義數據集,它有如下特點:

1)Object segmentation

2)Recognition in Context

3)Multiple objects per image

4)More than 300,000 images

5)More than 2 Million instances

6)80 object categories

7)5 captions per image

8)Keypoints on 100,000 people

7、PASCAL VOC
PASCAL VOC挑戰賽是視覺對象的分類識別和檢測的一個基準測試,提供了檢測算法和學習性能的標準圖像註釋數據集和標準的評估系統。PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便不再舉辦,但其數據集圖像質量好,標註完備,非常適合用來測試算法性能。

數據集大小:~2GB

下載地址:  http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

8、Open Image
過去幾年機器學習的發展使得計算機視覺有了快速的進步,系統能夠自動描述圖片,對共享的圖片創造自然語言迴應。其中大部分的進展都可歸因於 ImageNet 、COCO這樣的數據集的公開使用。谷歌作爲一家偉大的公司,自然也要做出些表示,於是乎就有了Open Image。

Open Image是一個包含~900萬張圖像URL的數據集,裏面的圖片通過標籤註釋被分爲6000多類。該數據集中的標籤要比ImageNet(1000類)包含更真實生活的實體存在,它足夠讓我們從頭開始訓練深度神經網絡。

谷歌出品,必屬精品!唯一不足的可能就是它只是提供圖片URL,使用起來可能不如直接提供圖片方便。

此數據集,筆者也未使用過,不過google出的東西質量應該還是有保障的。

數據集大小:~1.5GB(不包括圖片)

下載地址:

https://github.com/openimages/dataset

9、Youtube-8M
Youtube-8M爲谷歌開源的視頻數據集,視頻來自youtube,共計8百萬個視頻,總時長50萬小時,4800類。爲了保證標籤視頻數據庫的穩定性和質量,谷歌只採用瀏覽量超過1000的公共視頻資源。爲了讓受計算機資源所限的研究者和學生也可以用上這一數據庫,谷歌對視頻進行了預處理,並提取了幀級別的特徵,提取的特徵被壓縮到可以放到一個硬盤中(小於1.5T)。

此數據集的下載提供下載腳本,由於國內網絡的特殊原因,下載此數據經常斷掉,不過還好下載腳本有續傳功能,過一會兒重新連接就能再連上。可以寫一個腳本檢測到下載中斷後就sleep一段時間然後再重新請求下載,這樣就不用一直守着了。(截至發文,斷斷續續的下載,筆者表示還沒下完呢……)

數據集大小:~1.5TB

下載地址:https://research.google.com/youtube8m/

10、深度學習數據集收集網站
http://deeplearning.net/datasets/**

收集大量的各深度學習相關的數據集,但並不是所有開源的數據集都能在上面找到相關信息。

11、CoPhIR
http://cophir.isti.cnr.it/whatis.html

雅虎發佈的超大Flickr數據集,包含1億多張圖片。

12、MirFlickr1M
http://press.liacs.nl/mirflickr/

Flickr數據集中挑選出的100萬圖像集。

13、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/

Flickr的一個子集,包含100萬的圖像集。

14、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htm

Flickr中的27萬的圖像集。

15、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/

包含100萬的圖像,23000視頻;微軟亞洲研究院出品,質量應該有保障。 
.

16、多物體+關係數據庫:HICO & HICO-DET
HICO has images containing multiple objects and these objects have been tagged along with their relationships. The proposed problem is for algorithms to be able to dig out objects in an image and relationship between them after being trained on this dataset. I expect multiple papers to come out of this dataset in future. 

.這裏寫圖片描述

17、QA型圖像數據庫:CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning
CLEVR is an attempt by Fei-Fei Li’s group, the same scientist who developed the revolutionary ImageNet dataset. It has objects and questions asked about those objects along with their answers specified by humans. The aim of the project is to develop machines with common sense about what they see. So for example, the machine should be able to find “an odd one out” in an image automatically. You can download the dataset here. 
 
.這裏寫圖片描述

18、Driver Speed Dataset
A 200 Gb huge dataset, which is aimed to calculate speed of moving vehicles. Can be downloaded here. 

這裏寫圖片描述
.

19、新加坡國立大學LV實驗室發佈多人圖像解析數據集與模型
爲了進一步推進人物解析研究,作者首創多人解析(MHP)數據集,每張圖像均包含現實世界場景中的多個人物。 具體而言,MHP數據集的每張圖片包含2-16個人物不等,每個人物按照18個語義類別(背景除外)進行像素級別的標註。此外,MHP圖像中的人物有多種姿態、不同程度的遮擋以及多樣化的交互。爲了解決所提出的多人解析這一難題,作者提出了一個新型的多人解析器 (MH-Parser)模型,在針對每個人物進行端到端解析的過程中,同時考慮全局信息與局部信息。實驗結果表明,這一模型遠優於簡單的“檢測+解析”方法,使得其作爲一個穩定的基準,助推未來在真實場景中人物解析的相關研究。 


.這裏寫圖片描述

20、300k動作標註視頻數據集
DeepMind 最新發布30萬 YouTube 視頻剪輯的 Kinetics 數據集,包含400類人類動作註釋,有助於視頻理解機器學習。 
Kinetics 是一個大規模、高質量的 YouTube 視頻URL數據集,包含了各種各樣的人類動作標記。我們發佈 Kinetics 數據集的目的是助力機器學習社區推進視頻理解模型的研究。

Kinetics 數據集包含大約30萬個視頻剪輯,涵蓋400類人類動作,每類動作至少有400個視頻剪輯。每個剪輯時長約10秒,並被標記一個動作類別。所有剪輯都經過多輪人工註釋,每個剪輯都來自一個單獨的 YouTube 視頻。這些動作包含了廣泛的人類-物體交互的動作,例如演奏樂器,以及人類-人類交互的動作,例如握手和擁抱。

Kinetics 是 ActivityNet 組織的國際人類動作分類競賽(international human action classification competition)的基礎數據集。

官網鏈接:https://deepmind.com/research/open-source/open-source-datasets/kinetics/ 

這裏寫圖片描述
.

21、MIT 新發布大型數據集 ADE20K:用於場景感知、語義理解等多種任務
每個文件夾包含通過場景範疇進行分類的圖像。對於每一張圖像,目標和部件分割被存儲爲兩種不同的 png 文件。所有的圖像和部件示例都被分別註釋。 
官方網址:OVERVIEW 
Full Dataset,Full-sized images and segmentations

來源機器之心公衆號:資源 | MIT 新發布大型數據集 ADE20K:用於場景感知、語義理解等多種任務

22、免費數據集收集網站 
各領域公開數據集下載

譬如:

圖像數據
綜合圖像 
Visual Genome 圖像數據 
Visual7w 圖像數據 
COCO 圖像數據 
SUFR 圖像數據 
ILSVRC 2014 訓練數據(ImageNet的一部分) 
PASCAL Visual Object Classes 2012 圖像數據 
PASCAL Visual Object Classes 2011 圖像數據 
PASCAL Visual Object Classes 2010 圖像數據 
80 Million Tiny Image 圖像數據【數據太大僅有介紹】 
ImageNet【數據太大僅有介紹】 
Google Open Images【數據太大僅有介紹】

場景圖像
Street Scences 圖像數據 
Places2 場景圖像數據 
UCF Google Street View 圖像數據 
SUN 場景圖像數據 
The Celebrity in Places 圖像數據

22.交通標誌識別
鏈接:http://benchmark.ini.rub.de/?section=gtsrb&subsection=dataset

有兩個數據集可用:德國交通標誌識別基準(GTSRB)(大型的多類別分類基準)和德國交通標誌檢測基準(GTSDB)。第一個在2011年IJCNN的比賽中使用。有關詳細信息,請參閱“ GTSRB ”部分。後者將在2013年2月的競賽中展出。該競賽已針對2013年IJCNN提出。請參閱“ GTSDB ”部分以獲取更多詳細信息。

23.搜索推薦
這裏介紹一個做服裝搜索推薦的公開數據庫deep fashion,一般淘寶等電商都很喜歡的推薦的推薦算法數據集,DeepFashion 包含80W張圖片,具體包含50種類別,1000個屬性,4-8個關鍵點,同一種衣服的配對屬性。有興趣的可以去玩玩,具體鏈接如下,http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion/LandmarkDetection.html

三、一些著名研究實驗室
1、生物識別與安全技術研究中心

CASIA行爲分析數據庫共有1446條視頻數據,是由室外環境下分佈在三個不同視角的攝像機拍攝而成,爲行爲分析提供實驗數據。數據分爲單人行爲和多人交互行爲,單人行爲包括走、跑、彎腰走、跳、下蹲、暈倒、徘徊和砸車,每類行爲有24人蔘與拍攝,每人4次左右。多人交互行爲有搶劫、打鬥、尾隨、趕上、碰頭、會合和超越,每兩人1次或2次。


1
來源:http://www.cbsr.ia.ac.cn/china/Action%20Databases%20CH.asp

該實驗室擁有的數據庫:虹膜數據庫,步態數據庫,人臉數據庫,指紋數據庫,掌紋數據庫,筆跡數據庫,行爲分析數據庫 
該實驗室研究成果: 
近紅外的人臉身份識別技術和系統, 中遠距離人臉識別系統, 人臉檢測與跟蹤, 多目標遮擋跟蹤, 目標檢測、跟蹤與分類, 異常動作檢測, 人異常行爲檢測與報警, 交通車輛計數演示, 主從攝像機跟蹤, 
多攝像機數據融合(全景監控地圖), 交通擁堵檢測與報警, 車輛異常行爲檢測與報警, 夜間跟蹤演示, 動態場景下的主動跟蹤, 視頻圖像序列拼接, 人數統計, 視頻濃縮

2、中文語言資源聯盟 
中文語言資源聯盟,英文譯名Chinese Linguistic Data Consortium,縮寫爲CLDC。 CLDC是由中國中文信息學會語言資源建設和管理工作委員會發起,由中文語言(包括文本、語音、文字等)資源建設和管理領域的科技工作者自願組成的學術性、公益性、非盈利性的社會團體,其宗旨是團結中文語言資源建設領域的廣大科技工作者,建成代表中文信息處理國際水平的、通用的中文語言語音資源庫。 
 這裏寫圖片描述
當然,裏面的內容都是收費的,而且不便宜,不過畢竟是好東西~

3、中科院自動化研究所 模式識別國家重點實驗室 

這裏寫圖片描述
4、北郵模式識別實驗室 
http://www.pris.net.cn/

圖像識別方向的技術有: 
高清車牌及車標識別技術、不良圖片過濾、圖片檢索技術

5、中國科學技術大學,圖像處理實驗室 
http://image.ustc.edu.cn/project.html 
國家自然基金重點項目:高分辨率SAR圖像目標認知模型及高效算法 
國家自然科學基金項目:星上原始超光譜圖像稀疏編碼壓縮技術研究 
973課題:稀疏微波成像數據壓縮及特徵理解 
果然有錢!!

6、國內高校開源鏡像站友情鏈接 
清華大學開源鏡像站 
http://mirror.tuna.tsinghua.edu.cn/ 
中國科學技術大學開源鏡像站 
http://mirrors.ustc.edu.cn 
北京交通大學開源鏡像站 
http://mirror.bjtu.edu.cn/cn/ 
蘭州大學開源鏡像站 
http://mirror.lzu.edu.cn/ 
廈門大學開源鏡像站 
http://mirrors.xmu.edu.cn/ 
上海交通大學開源鏡像站 
http://ftp.sjtu.edu.cn/ 
東軟信息學院開源鏡像站 
http://mirrors.neusoft.edu.cn/

7、網頁版呈現各類模型的實現
https://github.com/hwalsuklee/awesome-deep-vision-web-demo 

.這裏寫圖片描述

四、中文文本語料庫
可參考:【語料庫】語料庫資源彙總 
NLP常用信息資源:https://github.com/memect/hao/blob/master/awesome/nlp.md 
FudanNLP (FNLP)(FNLP主要是爲中文自然語言處理而開發的工具包,也包含爲實現這些任務的機器學習算法和數據集。 ):https://github.com/FudanNLP/fnlp

(一) 國家語委

1國家語委現代漢語語料庫http://www.cncorpus.org/

現代漢語通用平衡語料庫現在重新開放網絡查詢了。重開後的在線檢索速度更快,功能更強,同時提供檢索結果下載。現代漢語語料庫在線提供免費檢索的語料約2000萬字,爲分詞和詞性標註語料。

2古代漢語語料庫http://www.cncorpus.org/login.aspx

網站現在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。同時,還提供了分詞、詞性標註軟件、詞頻統計、字頻統計軟件,基於國家語委語料庫的字頻詞頻統計結果和發佈的詞表等,以供學習研究語言文字的老師同學使用。

(二) 北京大學計算語言學研究所

1《人民日報》標註語料庫http://www.icl.pku.edu.cn/icl_res/

《人民日報》標註語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報》新聞信息中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在互聯網上公佈,供自由下載。

(三) 北京語言大學

漢語國際教育技術研發中心:HSK動態作文語料庫http://202.112.195.192:8060/hsk/login.asp

語言研究所:北京口語語料查詢系統(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp

還有很多,可參考:【語料庫】語料庫資源彙總

百度開源的中文問答語料:
WebQA: A Chinese Open-Domain Factoid Question Answering Dataset 
發佈的文件有267MB,但對於我們來說,裏邊的東西貌似有點過多了,因爲裏邊包含了分詞結果、序列標註結果、詞向量結果,貌似是內部研究小組直接用來做的實驗。對於我們來說,顯然只需要純粹的問答語料就行了。 
相關介紹可見: 百度的中文問答數據集WebQA

微博終結者爬蟲
 

這個項目致力於對抗微博的反爬蟲機制,集合衆人的力量把微博成千上萬的微博評論語料爬取下來並製作成一個開源的高質量中文對話語料,推動中文對話系統的研發。 
github:https://github.com/jinfagang/weibo_terminater

原文出處:鏈接

 

參考鏈接:

https://blog.csdn.net/Dlyldxwl/article/details/76272707

http://www.cbdio.com/BigData/2016-10/28/content_5361410.htm

https://blog.csdn.net/tcx1992/article/details/80580089
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章