生物信息處理一些經過人工輸入的數據,往往有少量的錯誤。但是這些元數據往往要與結果數據統一分析,且非常之重要。數據量小,那就一個一個改吧,如果太多了,杯具了, 怎麼辦?
工作需要寫了一個python小函數,用fuzzywuzzy模糊匹配技巧解決人工數據和標準數據的匹配問題。基本原理是先精確匹配,如果沒有,採用模糊匹配遍歷目標空間,選取打分最大的提交用戶檢查,最後輸出結果。
分享給大家,也許有用。
fuzzywuzzy: fuzzywuzzy 0.16.0
這裏用了fuzzy.ratio,大家也可以根據需要選其它的,參看文檔。