資源 | 中文NLP資源庫

乾明 編輯整理 量子位 出品 | 公衆號 QbitAI

最近,在GitHub上,有人收羅了一份資源,彙集了40個關於中文NLP詞庫,涵蓋了各個方面。

中英文敏感詞、語言檢測、中外手機/電話歸屬地/運營商查詢、名字推斷性別、手機號抽取、身份證抽取、郵箱抽取、中日文人名庫、中文縮寫庫、拆字詞典。

詞彙情感值、停用詞、反動詞表、暴恐詞表、繁簡體轉換、英文模擬中文發音、汪峯歌詞生成器、職業名稱詞庫、同義詞庫、反義詞庫。

否定詞庫、汽車品牌詞庫、汽車零件詞庫、連續英文切割、各種中文詞向量、公司名字大全、古詩詞庫、IT詞庫、財經詞庫、成語詞庫。

地名詞庫、歷史名人詞庫、詩詞詞庫、醫學詞庫、飲食詞庫、法律詞庫、汽車詞庫、動物詞庫、中文聊天語料、中文謠言數據。

目前,這份資源在GitHub上已經超過了700星。

收羅這份資源的人,在GitHub上暱稱爲“Yang”,備註信息中顯示,他是北航的博士。在知乎上也開設了一個專欄,專門介紹關於機器學習的小知識。

在Yang給出的這份資源中,他並不只是簡簡單單地提供一些詞庫了事,還給出了32個詞庫的用法。

比如,中英文敏感詞過濾:

>>> f = DFAFilter()
 >>> f.add("sexy")
 >>> f.filter("hello sexy baby")
 hello **** baby

有時,還會針對一些詞庫給出提示,針對這個詞庫他就提示道:

敏感詞包括政治、髒話等話題詞彙。其原理主要是基於詞典的查找(項目中的keyword文件),內容很勁爆。。。

再來一個根據名字判斷性別的例子:

pip install ngender # 基於樸素貝葉斯計算的概率

>>> import ngender
>>> ngender.guess('趙本山')
('male', 0.9836229687547046)
>>> ngender.guess('宋丹丹')
('female', 0.9759486128949907)

此處省略了其他30個……如果有興趣,可以去看看,收藏下來,以備不時之需。

傳送門:(點擊閱讀原文即可訪問) https://github.com/fighting41love/funNLP

作者知乎專欄地址: https://zhuanlan.zhihu.com/yangyangfuture


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章