中英文拼寫糾錯開源框架梳理

一、中文:

1、Pycorrector:https://github.com/shibing624/pycorrector

當前主流的中文糾錯框架,支持規則和端到端模型
在這裏插入圖片描述

2、FASPell:https://github.com/iqiyi/FASPell/blob/master

論文:https://www.aclweb.org/anthology/D19-5522.pdf
使用bert進行預訓練+微調,再經過CSD過濾器得到最終結果。支持簡體中文文本; 繁體中文文本; 人類論文; OCR結果等
在這裏插入圖片描述

3、YoungCorrector:https://github.com/hiyoung123/YoungCorrector

基於Pycorrector改造,實現基於純規則的糾錯系統。整個系統框架比較詳細。與Pycorrector準確度差不多,耗時短(歸功於前向最大匹配替代了直接索引混淆詞典)

4、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert

對論文Soft-Masked Bert 的復現:https://arxiv.org/pdf/2005.07421.pdf
使用判別模型BiGRU+糾錯模型BERT,實現端到端的糾錯。
在這裏插入圖片描述

5、bert_chinese:https://github.com/JohanyCheung/bert_chinese/tree/master/corrector

直接預訓練的bert模型實現中文的文本糾錯,可參照學習bert如何做糾錯任務

二、英文:

1、SoftMaskedBert:https://github.com/hiyoung123/SoftMaskedBert

更改訓練集和測試集,即可應用於其他語言拼寫糾錯

2、xfspell:https://github.com/mhagiwara/xfspell

基於Transformer的拼寫糾錯。原理類似於機器翻譯,解決了糾錯時輸入和輸出必須保持一致的問題。通過交換輸入數據和輸出數據,生成大量包含錯別字的文本數據。
在這裏插入圖片描述

3、spelling-correction:https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction

基於bert預訓練模型的拼寫糾錯(需指定錯誤位置)

4、spellcorrect:https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py

基於編輯距離的英文拼寫糾錯

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章