一句話系列：姓名模糊匹配算法

原創

2018-11-20 12:10

一句話系列：姓名模糊匹配算法

關鍵點：使用相同字符做切片，根據切片結果，進行匹配（split）
功效：

對中文姓名進行模糊匹配

import re
list_ = [("趙紫斌", "趙*斌"), ("李方雪", "李**"), ("羅進", "羅*"), ("何林波", "何**"), ("周星", "周**"),
         ("凌超", "凌**"),("吳俊傑", "*國平"), ("蔡業浩", "*浩"), ("王立軍", "*立*"), ("倪欽欽", "倪**"),
         ("黃旭官", "**官"), ("李小燕", "xx燕"), ("賀長", "xx長"), ("瞿宏平", "瞿xx"), ("吳俊", "x俊"),      
         ("魏賢剛", "x賢**"), ("程文昌", "**昌"), ("藺剛龍", "藺剛龍"), ("王保林", "王保林"), 
         ("伍賢軍", "伍賢軍"), ("陳孝順", "陳孝順"), ("趙丹", "趙丹"), ("石義才", "石才"), 
         ("劉海良", "傅海良"), ("希鋒", "伊希"), ("陳碧婷", "彭百凌"), ("郝華麗", "楊勇"), 
         ("楊雪", "*雪*"), ("戴森傑", "*戴**"), ("趙紫斌", "趙斌*"), ("王志剛", "*志*"), 
         ("鄧君", "**"), ("劉學智", "")]

def judge_name(data, judge_data):
    """
    0--無法匹配；
    1--匹配一致；
    2--匹配不一致；
    3--模糊匹配一致
    """
    pat = u"([\u4e00-\u9fff]+)"
    if not data or data == u'運營商未透露' or not judge_data:
        return 0
    # if len(data) != len(judge_data):
    #     return 2
    pattern = re.compile(pat)
    results = pattern.findall(data)
    if not results:
        return 0
    ret = [len(list(filter(None, data.split(i)))) == len(list(
        filter(None, judge_data.split(i)))) for i in results if (i in judge_data)]
    if not ret or False in ret:
        return 2
    if '*' in data or 'x' in data:
        return 3
    return 1

judge_name(u"吳**俊*傑",u"吳俊傑")

for i in list_:
    print(i[1],i[0])
    print(judge_name(i[1], i[0]))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

一句話系列：姓名模糊匹配算法

一句話系列：姓名模糊匹配算法

Markdown 常用語法速查

高性價比辦公筆記本推薦（202003）

Hexo & Github 建站日誌（二）

Python string 去掉標點符號最佳實踐

命運從不缺席(美文節選)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結