基於國家統計局城鄉規劃數據的地名提取(2)

在上一篇中我們採集了國家統計局2018年的全國地名數據。接下來,我們將會用這個數據進行匹配,提取相關的地級市與省份。

在這裏插入圖片描述
之前我們採集的全國地名數據分爲了兩種數據結構分別保存,在這裏我們使用第一種結構的數據。
在這裏插入圖片描述
接下來我們要寫一個進行提取的函數。輸入是公司名稱的字符串,公司所屬省份,與省份對應相應的地名數據。
在這裏插入圖片描述
接下來就進入重點了,開始對前兩個詞的地名數據進行匹配。首先對第一個詞進行匹配。

在這裏插入圖片描述
若第一個詞未返回數據 對第二個詞進行匹配

在這裏插入圖片描述

到此我們的地名提取基本上結束了。我們隨便拿兩個數據測試下

首先加載數據,這個就是我們之間採集的地名數據

province_data = open('./China_place_data.json', encoding="utf-8").read()
province_data = json.loads(procince_data)

然後提取所屬地級市

place = extract_place('韓城市城市投資(集團)有限公司', procince_data['陝西省'], '陝西')
"維吾爾自治區", ""))

在這裏插入圖片描述

可以看到 最終提取到“韓城市城市投資(集團)有限公司”所屬的地級市爲渭南市

github:https://github.com/sph116/Company_Place_name_extraction

基於國家統計局的地名提取項目就到此結束啦,後續我還會繼續發佈一些機器學習,爬蟲相關的實戰項目,歡迎交流哦!

在這裏插入圖片描述

歡迎掃碼關注:

在這裏插入圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章