GitHub出現一個大型中文NLP資源,宣稱要放出億級語料庫

  中文信息很多,但要找到合適的中文語料很難。

  有人看不下去了,在GitHub上開了一個項目,專門貢獻中文語料資源。

  他說,要爲解決中文語料難找貢獻一份力量。

  什麼樣的資源?

  目前,這個項目中一共有3種json版資源:

  包含104萬個詞條的維基百科資源,包含250萬篇新聞的新聞語料,以及包含150萬個問答的百科類問答資源。

  一般來說,這些資源可以作爲通用的中文語料,用於預訓練或者構建詞向量等等。

  不同的資源,用處也有不同,比如維基百科和問答百科,可以用來構建知識問答等等。

  新聞語料資源,囊括了標題、關鍵詞、描述和正文,也可以用來訓練標題生成模型、關鍵詞生成模型等等。

  此外,在對數據集劃分過的新聞語料和百科類問答資源中,只提供訓練集和驗證集,不提供測試集數據的下載。

  是因爲——

  希望更多人蔘與

  資源的貢獻者表示,希望大家報告模型在驗證集上的準確率,並提供模型信息、方法描述、運行方式,以及可運行的源代碼(可選)。

  這些信息都有的話,資源貢獻者會在測試集上測試模型,並給出準確率。

  他表示,項目中的語料庫將會不斷擴充,號召大家多多貢獻資源,並給出了相應的目標:

  到2019年5月1日,放出10個百萬級中文語料&3個千萬級中文語料。

  到2019年12月31日,放出30個百萬級中文語料 & 10個千萬級中文語料 & 1個億級中文語料。

  從目前已經有的資源來看,一個語料可以是一個問答,也可以是一個詞條等等。

  這份資源的貢獻者,名爲徐亮,杭州實在智能的算法專家,主要關注文本分類、意圖識別、問答和麪向任務的對話。

  此外,量子位之前也介紹過幾份中文NLP資源,也一併附於此:

  —完—

  加入社羣

  量子位現開放「AI+行業」社羣,面向AI行業相關從業者,技術、產品等人員,根據所在行業可選擇相應行業社羣,在量子位公衆號(QbitAI)對話界面回覆關鍵詞“行業羣”,獲取入羣方式。行業羣會有審覈,敬請諒解。

  此外,量子位AI社羣正在招募,歡迎對AI感興趣的同學,在量子位公衆號(QbitAI)對話界面回覆關鍵字“交流羣”,獲取入羣方式。

  誠摯招聘

  量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公衆號(QbitAI)對話界面,回覆“招聘”兩個字。 鄭州不孕不育醫院:http://jbk.39.net/yiyuanzaixian/zztjyy/同濟不孕不育研究院:http://jbk.39.net/yiyuanzaixian/zztjyy/鄭州治療不孕不育×××:http://jbk.39.net/yiyuanzaixian/zztjyy/鄭州哪家不孕不育醫院好:http://jbk.39.net/yiyuanzaixian/zztjyy/


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章