用Python模糊匹配處理人工數據的匹配

生物信息處理一些經過人工輸入的數據,往往有少量的錯誤。但是這些元數據往往要與結果數據統一分析,且非常之重要。數據量小,那就一個一個改吧,如果太多了,杯具了, 怎麼辦?

工作需要寫了一個python小函數,用fuzzywuzzy模糊匹配技巧解決人工數據和標準數據的匹配問題。基本原理是先精確匹配,如果沒有,採用模糊匹配遍歷目標空間,選取打分最大的提交用戶檢查,最後輸出結果。

分享給大家,也許有用。

fuzzywuzzy: fuzzywuzzy 0.16.0

這裏用了fuzzy.ratio,大家也可以根據需要選其它的,參看文檔。
在這裏插入圖片描述在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章