一、中文:
1、Pycorrector:https://github.com/shibing624/pycorrector
當前主流的中文糾錯框架,支持規則和端到端模型
2、FASPell:https://github.com/iqiyi/FASPell/blob/master
論文:https://www.aclweb.org/anthology/D19-5522.pdf
使用bert進行預訓練+微調,再經過CSD過濾器得到最終結果。支持簡體中文文本; 繁體中文文本; 人類論文; OCR結果等
3、YoungCorrector:https://github.com/hiyoung123/YoungCorrector
基於Pycorrector改造,實現基於純規則的糾錯系統。整個系統框架比較詳細。與Pycorrector準確度差不多,耗時短(歸功於前向最大匹配替代了直接索引混淆詞典)
4、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
對論文Soft-Masked Bert 的復現:https://arxiv.org/pdf/2005.07421.pdf
使用判別模型BiGRU+糾錯模型BERT,實現端到端的糾錯。
5、bert_chinese:https://github.com/JohanyCheung/bert_chinese/tree/master/corrector
直接預訓練的bert模型實現中文的文本糾錯,可參照學習bert如何做糾錯任務
二、英文:
1、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert
更改訓練集和測試集,即可應用於其他語言拼寫糾錯
2、xfspell:https://github.com/mhagiwara/xfspell
基於Transformer的拼寫糾錯。原理類似於機器翻譯,解決了糾錯時輸入和輸出必須保持一致的問題。通過交換輸入數據和輸出數據,生成大量包含錯別字的文本數據。
3、spelling-correction:https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction
基於bert預訓練模型的拼寫糾錯(需指定錯誤位置)
4、spellcorrect:https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py
基於編輯距離的英文拼寫糾錯