【NLP】文本語種檢測

原創

chichu261

2020-07-02 22:02

langid

github源碼：https://github.com/saffsd/langid.py

特點

支持97中語言
濾過速度快
準確率高
不支持中文繁體(香港)，中文繁體（臺灣）

檢測接口 classify rank

>>> import langid
# classify 輸出最可能的語言
>>> langid.classify("I do not speak english")
('en', 0.57133487679900674)
>>> langid.set_languages(['de','fr','it'])
>>> langid.classify("I do not speak english")
('it', 0.99999835791478453)
>>> langid.set_languages(['en','it'])
>>> langid.classify("I do not speak english")
('en', 0.99176190378750373)

# rank 輸出最可能的幾種語言
>>> langid.rank("I do not speak english")
[('en', -49.99176190378750373), ('pl', -48.99176190378750373), ...)

fasttext

TODO

langdetect

Java包language-detection (03/03/2014版) 的Python接口
Github源碼 https://github.com/Mimino666/langdetect

特點

支持55種語言
可識別簡體繁體
個人測試效率和準確率不及langid

檢測接口 detect detect_langs

# detect 輸出最可能的語種

>>> from langdetect import detect
>>> detect("War doesn't show who's right, just who's left.")
'en'
>>> detect("Ein, zwei, drei, vier")
'de'

# detect_langs 輸出最可能的幾種語言
>>> from langdetect import detect_langs
>>> detect_langs("Otec matka syn.")
[sk:0.572770823327, pl:0.292872522702, cs:0.134356653968]

sklearn實現的語種檢測

csdn看到的基於sklearn模型訓練實現的語種檢測，未做測試
多語種檢測

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

【NLP】文本語種檢測

langid

特點

檢測接口 classify rank

fasttext

langdetect

特點

檢測接口 detect detect_langs

sklearn實現的語種檢測

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

Python 安裝庫指令大全

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

基於 Milvus + LlamaIndex 實現高級 RAG

【2024-05-21】以茶會友

Python實現九九乘法口訣表及一點擴展以文本相似度遍歷爲例

【NLP】文本語種檢測

【PyYaml】yml教程 pyyaml庫介紹及yml寫 yml讀取

【示例-多任務】Python多線程threading模塊

【問題解決】Ubuntu中Python3升級高版本後 Err returned non-zero status 1 或者status 2問題解決

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結