2022年必須要瞭解的20個開源NLP 庫

在本文中,我列出了當今最常用的 NLP 庫,並對其進行簡要說明。它們在不同的用例中都有特定的優勢和劣勢,因此它們都可以作爲專門從事 NLP 的優秀數據科學家備選方案。每個庫的描述都是從它們的 GitHub 中提取的。

NLP庫

以下是頂級庫的列表,排序方式是在GitHub上的星數倒序。

1、Hugging Face Transformers

57.1k GitHub stars.

Transformers 提供了數千個預訓練模型來執行不同形式的任務,例如文本、視覺和音頻。這些模型可應用於文本(文本分類、信息提取、問答、摘要、翻譯、文本生成,支持超過 100 種語言)、圖像(圖像分類、對象檢測和分割)和音頻(語音識別和音頻分類 )。Transformer 模型還可以結合多種模式執行任務,例如表格問答、OCR、從掃描文檔中提取信息、視頻分類和視覺問答。

2、spaCy

22.2k GitHub stars.spaCy是 Python 和 Cython 中用於自然語言處理的免費開源庫。它從一開始就設計用於生產環境。spaCy 帶有預訓練的管道,目前支持 60 多種語言的標記化和訓練。它具有最先進的神經網絡模型,可以用於標記、解析、命名實體識別、文本分類、並且使用 BERT 等預訓練Transformers進行多任務學習,可以對模型進行 打包、部署和工作,方便生產環境的部署。spaCy 是商業開源軟件,在 MIT 許可下發布。

完整文章:

https://www.overfit.cn/post/a95c29726cba4e3aa969066fb7c80ad5

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章