IP地址定位技術之一:基礎數據採集

IP地理位置定位技術,包含基礎數據採集、硬件系統搭建、應用場景劃分和定位系統研發四項關鍵技術。

基礎數據採集爲IP地理位置定位技術的研究提供基礎數據支撐,是IP地址定位的基礎性工作和關鍵技術。首先,按照不同的數據採集規則,針對不同數據源的數據格式,研究並實現一套自動化的智能化的數據採集技術;其次,對採集到的數據進行篩選、清洗和挖掘,形成基礎數據庫,爲系統提供基礎數據支撐。

基礎數據採集的研究內容包含確定數據源(如Whois開放數據等)、分析數據採集的方法(如網絡爬蟲、數據交換、地面採集等)、各種數據採集方法的可行性分析及實現方案、確定採集數據的屬性值(如地理位置、經緯度、所屬運營商等)、數據的清洗辦法、數據的正確性驗證步驟、基礎數據的迭代更新流程等。

爲了保證數據質量和數據豐富性,針對不同的數據源,系統通過三種方式獲取基礎數據,分別是數據挖掘、數據採購、地面採集。數據挖掘是指通過網絡爬蟲,從特定網頁如APNIC網站、BGP網站、地圖類網站中獲取IP及地理位置信息;數據採購是指從可以提供基礎數據的公司進行數據採購,例如某本地服務網站、某網絡打車網站等;地面採集是指利用自主研發的數據採集軟件,進行人工實地數據採集。

數據採集技術已存在多個開源的第三方框架,例如Scrapy、Nutch、Crawler4j、WebMagic等;數據挖掘算法,例如支持向量機SVM、K-Means等,都已得到廣泛應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章