中英文拼寫糾錯開源框架梳理

原創

马苏比拉米G

2020-07-05 00:28

一、中文：

1、Pycorrector：https://github.com/shibing624/pycorrector

當前主流的中文糾錯框架，支持規則和端到端模型

2、FASPell：https://github.com/iqiyi/FASPell/blob/master

論文：https://www.aclweb.org/anthology/D19-5522.pdf
使用bert進行預訓練+微調，再經過CSD過濾器得到最終結果。支持簡體中文文本；繁體中文文本；人類論文； OCR結果等

3、YoungCorrector：https://github.com/hiyoung123/YoungCorrector

基於Pycorrector改造，實現基於純規則的糾錯系統。整個系統框架比較詳細。與Pycorrector準確度差不多，耗時短（歸功於前向最大匹配替代了直接索引混淆詞典）

4、SoftMaskedBert：https://github.com/hiyoung123/SoftMaskedBert

對論文Soft-Masked Bert 的復現：https://arxiv.org/pdf/2005.07421.pdf
使用判別模型BiGRU+糾錯模型BERT，實現端到端的糾錯。

5、bert_chinese：https://github.com/JohanyCheung/bert_chinese/tree/master/corrector

直接預訓練的bert模型實現中文的文本糾錯，可參照學習bert如何做糾錯任務

二、英文：

1、SoftMaskedBert：https://github.com/hiyoung123/SoftMaskedBert

更改訓練集和測試集，即可應用於其他語言拼寫糾錯

2、xfspell：https://github.com/mhagiwara/xfspell

基於Transformer的拼寫糾錯。原理類似於機器翻譯，解決了糾錯時輸入和輸出必須保持一致的問題。通過交換輸入數據和輸出數據，生成大量包含錯別字的文本數據。

3、spelling-correction：https://github.com/huseinzol05/NLP-Models-Tensorflow/tree/master/spelling-correction

基於bert預訓練模型的拼寫糾錯（需指定錯誤位置）

4、spellcorrect：https://github.com/cbaziotis/ekphrasis/blob/master/ekphrasis/classes/spellcorrect.py

基於編輯距離的英文拼寫糾錯

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

什麼時候需要創建server

只有兩種情況：共享服務。比如許多個應用調用這個服務，這個服務不能停，需要用server的形式一直運行着。延時響應。比如需要獨立於UI進行長時間計算，這時候不能因爲UI關閉而導致服務崩潰，所以需要建立獨立的server，相當於

2020-07-08 03:33:33

DCGAN生成二次元頭像（Pytorch）

任務：基於Pytorch搭建DCGAN網絡進行訓練自動生成二次元頭像的模型文章目錄簡介網絡介紹代碼詳解實驗結果參考簡介好久沒發Blog了，發個Pytorch的入門項目一起happy下~ 數據集：網盤地址有大佬在知乎專欄提供

Brielleqqqqqqjie

2020-07-08 00:47:21

基於qt5.2的銀行管理系統--之前版本的改進

　　　前人都說，溫故而能知新，可以爲師矣。過了一段時間了，我又將之前寫的銀行管理系統拿出來改善一下，感悟一下當時寫的感受，再對比一下，這次寫了又有什麼改變，有了什麼收穫。　　與之前寫的那個版本相比，我又幾個方面進行了改進。　　1、之前

2020-07-07 16:03:09

小白初學jenkins，記錄操作過程

1、點擊“新建Item”，創建項目 2、選擇 freestyle project 3、構建觸發器-選擇Build periodically -H 10 * * * 4、構建 ubuntu選擇 Execute shell 5、命令行 /us

2020-07-07 15:23:48

QT學習之路八（qt實戰--銀行管理系統）

　　之前幾篇博文提到過，這幾天我一直在做一個銀行管理系統，算是對c++只是的一個鞏固吧，再加上我是用qt做的，從頭到尾還是重新開始學qt的模塊。這次的成果還是挺讓我滿意的，最主要的是這是我第一次接觸界面的製作，感覺挺新奇的。上一篇說到我做

2020-07-07 15:23:12

java爬蟲--利用java爬取網頁數據的方法與思路，以爬取“食品許可公示的數據”爲例

項目背景先說下背景，前幾天老哥讓幫忙從網上抓點數據，因爲他是做食品添加劑的推廣工作的，所以需要知道有哪些工廠或者廠家可能需要食品添加劑，然後他給了我一個網址----某食品藥品許可公示平臺。既然是公示平臺，數據應該就是公開的

qq_BeBetterCoder

2020-07-07 10:47:25

第一個QT項目 QT的初次見面，你好，一步一步構建項目，新手上路，請多指教

粉絲不過W 下載地址：https://www.qt.io/download-open-source 打開 Qt Creator 界面選擇 New Project 或者選擇菜單欄【文件】 -【新建文件或項目】菜單項

2020-07-07 08:09:58

一個簡單的音樂網站項目

最近閒來無事，就用IDEA編寫了一個簡單的音樂網站，此網站具有音樂的試聽，下載，收藏功能，並且點擊收藏時，可以根據用戶收藏的音樂信息，進行判定，推薦相類似的歌曲，而且，網站還進行了用戶請求過濾，未登錄時，僅可進行音樂試聽操作，非管理員登錄

2020-07-07 04:03:01

【項目】Android 預置第三方應用可卸載功能的實現

原生Android 的狀況是：手機會預置一些第三方APP ，用戶不可刪除。現在實現用戶可刪除的預置應用的功能 1.修改預置應用安裝路徑： 1.1 /system 下創建/third_app 文件夾 1.把預留應用放在sy

2020-07-06 22:38:03

【項目】auot-start

1.Qaulcomm 有自己的auto_start 權限： 1.AppOpsManager 中添加 OP_AUTO_START 權限項 2.AMS 中添加 isAutoStartAllowed 函數：調用AppOpsServic

2020-07-06 21:57:03

心率檢測實現報告（一）

目的心率測試可以檢測用戶的心率，即一分鐘心跳次數。原理每次心跳都會使血液裏的氧含量增加，身體消耗掉之後，血液的氧含量又會降低，所以，血液顏色由於氧含量的變化會產生週期性改變，軟件就是通過記錄手指放在攝像頭上之後透過的光的顏色改變來記

2020-07-06 21:11:00

心率檢測實現報告（三）

運行截圖心率測試開始界面心率測試執行界面心率測試結束界面

2020-07-06 21:11:00

小項目實戰：51單片機控制的DS18B20溫度測量報警系統(可設置範圍) 硬件,接線圖，源代碼

最近南方天天下大雨，下的人心情都鬱悶了，最近應一個粉絲的留言，說畢業設計課題是一個單片機的溫度自動測量報警裝置。希望我可以幫幫他, 我就用常見的DS18B20做了一個報警系統，供大家學習和參考。需要的功能及作用單片機DS18B

从零开始学单片机设计

2020-07-06 19:32:29

發佈一個emacs擴展：Hexview巨文件16進制查看模式

title: 發佈一個emacs擴展：Hexview巨型文件16進制查看模式 Emacs(http://www.gnu.org/software/emacs/)是個神奇的工具，她能讓使用者的編輯效率永無止境地提升。今天區區的一個Week

2020-07-06 18:05:24

Solr實現站內搜索

solr常用命令： solr start 啓動solr單機版 solr start -p 8984 指定端口啓動 solr restart 重啓 solr create/create_collection -c coreN

2020-07-06 15:53:21

24小時熱門文章

最新文章

最新評論文章