整理 | Jane出品 | AI科技大本營(公衆號id:rgznai100)
今天要給大家在推薦 Github 上一個優質的中文 NLP 工具和資源集合項目——funNLP,已經獲得了 5.3k Stars,1k+ Forks。
項目作者 楊洋,一枚水博&互聯網民工,目前主要從事文本分類,信息抽取等自然語言處理研發工作;興趣包括:語言資源構建、信息抽取與知識圖譜、輿情分析等。喜歡分享一些小知識,設有知乎專欄《機器學習小知識》
作者把自己使用的一些資源或工具包整理成這個集合項目,並且會不斷更新。項目已經裏面不乏很多有用和有趣的內容,包含 50 多個資源或工具,比如很多有用的詞庫:中英文敏感詞、暴恐詞表、文人名庫、中文縮寫庫、停用詞、公司名字大全、成語詞庫、地名詞庫百度中文問答數據集......非常值得學習研究 NLP 項目的同學們收藏!
除了幾十個的優質資源彙總外,作者的另一箇中文 NLP 工具包——coco NLP,也很實用,目前應用在尋找失蹤人口項目中。通過這個工具包,大家可以直接從文本信息中抽取一些基本信息,比如手機號、郵箱、手機歸屬地、時間點、地址和一些詞組信息。
0.先給大家 coco NLP 工具的地址:
https://github.com/fighting41love/cocoNLP
因爲這個工具裏也包含了第一個項目中提到的一些資源,下面我們所列的其他資源,就不再列出重複資源的地址了,比如:phone 中國手機歸屬地查詢、抽取email的正則表達式、抽取phone_number的正則表達式、人名語料庫、時間抽取等。
營長列出了其他一些主要資源的地址,大家還可以從文章最後給出的項目地址中訪問更多。也感謝開源這些資源的作者,如果下面有提到你的項目,歡迎給我們留言,讓營長髮現可愛的你們~
1. textfilter: 中英文敏感詞過濾
https://github.com/observerss/textfilter
2. langid:97種語言檢測
https://github.com/saffsd/langid.py
3. langdetect:檢測另一種語言
https://code.google.com/archive/p/language-detection/
4. phone國際手機、電話歸屬地查詢:
https://github.com/AfterShip/phone
6. ngender:根據名字判斷性別,基於樸素貝葉斯計算的概率
https://github.com/observerss/ngender
7.抽取身份證號的正則表達式
IDCards_pattern = r'^([1-9]d{5}[12]d{3}(0[1-9]|1[012])(0[1-9]|[12][0-9]|3[01])d{3}[0-9xX])$'IDs = re.findall(IDCards_pattern, text, flags=0)
8.中文縮寫庫
https://github.com/zhangyics/Chinese-abbreviation-dataset/blob/master/dev_set.txt
9.漢語拆字詞典
https://github.com/kfcd/chaizi
10.詞彙情感值
https://github.com/rainarch/SentiBridge/blob/master/Entity_Emotion_Express/CCF_data/pair_mine_result
11.中文詞庫、停用詞、敏感詞,此 package 的敏感詞庫分類更細,包含反動詞庫, 敏感詞庫表統計, 暴恐詞庫, 民生詞庫, 色情詞庫
https://github.com/fighting41love/Chinese_from_dongxiexidian
12.漢字轉拼音
https://github.com/mozillazg/python-pinyin
13.同義詞庫、反義詞庫、否定詞庫
https://github.com/guotong1988/chinese_dictionary
14.無空格英文串分割、抽取單詞
https://github.com/keredson/wordninja
15.THU整理的詞庫,包含 IT詞庫、財經詞庫、成語詞庫、地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫
http://thuocl.thunlp.org/sendMessage
16.百度中文問答數據集
鏈接:https://pan.baidu.com/s/1QUsKcFWZ7Tg1dk_AbldZ1A提取碼: 2dva
17.Bert 資源
(1)文本分類實踐
https://github.com/NLPScott/bert-Chinese-classification-task
(2)Bert Tutorial 文本分類教程
https://github.com/Socialbird-AILab/BERT-Classification-Tutorial
(3)Bert pytorch實現
https://github.com/huggingface/pytorch-pretrained-BERT
(4)Bert用於中文命名實體識別,tensorflow版本
https://github.com/macanv/BERT-BiLSTM-CRF-NER
(5)Bert 基於 Keras 的封裝分類標註框架 Kashgari,幾分鐘即可搭建一個分類或者序列標註模型
https://github.com/BrikerMan/Kashgari
(6)Bert、ELMO的圖解
https://jalammar.github.io/illustrated-bert/
(7)BERT: Pre-trained models and downstream applications
https://github.com/asyml/texar/tree/master/examples/bert
更多優質資源可訪問:
https://github.com/fighting41love/funNLP