在上一篇中我們採集了國家統計局2018年的全國地名數據。接下來,我們將會用這個數據進行匹配,提取相關的地級市與省份。
之前我們採集的全國地名數據分爲了兩種數據結構分別保存,在這裏我們使用第一種結構的數據。
接下來我們要寫一個進行提取的函數。輸入是公司名稱的字符串,公司所屬省份,與省份對應相應的地名數據。
接下來就進入重點了,開始對前兩個詞的地名數據進行匹配。首先對第一個詞進行匹配。
若第一個詞未返回數據 對第二個詞進行匹配
到此我們的地名提取基本上結束了。我們隨便拿兩個數據測試下
首先加載數據,這個就是我們之間採集的地名數據
province_data = open('./China_place_data.json', encoding="utf-8").read()
province_data = json.loads(procince_data)
然後提取所屬地級市
place = extract_place('韓城市城市投資(集團)有限公司', procince_data['陝西省'], '陝西')
"維吾爾自治區", ""))
可以看到 最終提取到“韓城市城市投資(集團)有限公司”所屬的地級市爲渭南市。
github:https://github.com/sph116/Company_Place_name_extraction
基於國家統計局的地名提取項目就到此結束啦,後續我還會繼續發佈一些機器學習,爬蟲相關的實戰項目,歡迎交流哦!
歡迎掃碼關注: