優質中文NLP資源集合

整理 | Jane出品 | AI科技大本營(公衆號id:rgznai100)

今天要給大家在推薦 Github 上一個優質的中文 NLP 工具和資源集合項目——funNLP,已經獲得了 5.3k Stars,1k+ Forks。

項目作者 楊洋,一枚水博&互聯網民工,目前主要從事文本分類,信息抽取等自然語言處理研發工作;興趣包括:語言資源構建、信息抽取與知識圖譜、輿情分析等。喜歡分享一些小知識,設有知乎專欄《機器學習小知識》

作者把自己使用的一些資源或工具包整理成這個集合項目,並且會不斷更新。項目已經裏面不乏很多有用和有趣的內容,包含 50 多個資源或工具,比如很多有用的詞庫:中英文敏感詞、暴恐詞表、文人名庫、中文縮寫庫、停用詞、公司名字大全、成語詞庫、地名詞庫百度中文問答數據集......非常值得學習研究 NLP 項目的同學們收藏!

除了幾十個的優質資源彙總外,作者的另一箇中文 NLP 工具包——coco NLP,也很實用,目前應用在尋找失蹤人口項目中。通過這個工具包,大家可以直接從文本信息中抽取一些基本信息,比如手機號、郵箱、手機歸屬地、時間點、地址和一些詞組信息。

0.先給大家 coco NLP 工具的地址:

https://github.com/fighting41love/cocoNLP

因爲這個工具裏也包含了第一個項目中提到的一些資源,下面我們所列的其他資源,就不再列出重複資源的地址了,比如:phone 中國手機歸屬地查詢、抽取email的正則表達式、抽取phone_number的正則表達式、人名語料庫、時間抽取等。

營長列出了其他一些主要資源的地址,大家還可以從文章最後給出的項目地址中訪問更多。也感謝開源這些資源的作者,如果下面有提到你的項目,歡迎給我們留言,讓營長髮現可愛的你們~

1. textfilter: 中英文敏感詞過濾

https://github.com/observerss/textfilter

2. langid:97種語言檢測

https://github.com/saffsd/langid.py

3. langdetect:檢測另一種語言

https://code.google.com/archive/p/language-detection/

4. phone國際手機、電話歸屬地查詢:

https://github.com/AfterShip/phone

6. ngender:根據名字判斷性別,基於樸素貝葉斯計算的概率

https://github.com/observerss/ngender

7.抽取身份證號的正則表達式

IDCards_pattern = r'^([1-9]d{5}[12]d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])d{3}[0-9xX])$'IDs = re.findall(IDCards_pattern, text, flags=0)

8.中文縮寫庫

https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt

9.漢語拆字詞典

https://github.com/kfcd/chaizi

10.詞彙情感值

https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result

11.中文詞庫、停用詞、敏感詞,此 package 的敏感詞庫分類更細,包含反動詞庫, 敏感詞庫表統計, 暴恐詞庫, 民生詞庫, 色情詞庫

https://github.com/fighting41love/Chinese_from_dongxiexidian

12.漢字轉拼音

https://github.com/mozillazg/python-pinyin

13.同義詞庫、反義詞庫、否定詞庫

https://github.com/guotong1988/chinese_dictionary

14.無空格英文串分割、抽取單詞

https://github.com/keredson/wordninja

15.THU整理的詞庫,包含 IT詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫

http://thuocl.thunlp.org/sendMessage

16.百度中文問答數據集

鏈接:https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A提取碼: 2dva

17.Bert 資源

(1)文本分類實踐

https://github.com/NLPScott/bert-Chinese-classification-task

(2)Bert Tutorial 文本分類教程

https://github.com/Socialbird-AILab/BERT-Classification-Tutorial

(3)Bert pytorch實現

https://github.com/huggingface/pytorch-pretrained-BERT

(4)Bert用於中文命名實體識別,tensorflow版本

https://github.com/macanv/BERT-BiLSTM-CRF-NER

(5)Bert 基於 Keras 的封裝分類標註框架 Kashgari,幾分鐘即可搭建一個分類或者序列標註模型

https://github.com/BrikerMan/Kashgari

(6)Bert、ELMO的圖解

https://jalammar.github.io/illustrated-bert/

(7)BERT: Pre-trained models and downstream applications

https://github.com/asyml/texar/tree/master/examples/bert

更多優質資源可訪問:

https://github.com/fighting41love/funNLP
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章