獨家 | 處理非結構化數據的7個實例（附鏈接）

作者: PALAK11

翻譯：王闖 (Chuck)

校對：陳丹

本文約1700字，建議閱讀5分鐘

本文作者根據個人過往工作經驗，整理出了處理非結構化數據的7個實例，希望能對讀者處理相關實際問題有所啓發。

本文是作爲數據科學博客松的一部分發表的。

介紹

我敢肯定，從事數據工作的人，不管數據量大小與否，都遇到過如下問題：數據不好，數據不一致，數據不乾淨，諸如此類。幫工作中鮮與數據打交道的人科普一下，根據《福布斯》的報告，數據專家60％的時間都花費在清理和整理非結構化數據上。是的，這花費了很多時間，但我認爲這是得出結論的基礎。

報告

https://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/?sh=4b394cc86f63

這裏根據我近三年來處理非結構化數據的個人經驗整理了7個實例。希望能爲相關讀者帶來些許收穫。

1.缺少唯一標識符

要聯接兩個或多個表，通常要有一個可用於聯接表的共有的列，變量，參數等。在這裏，我面臨着缺少唯一標識符的問題，或者我們可以說缺少主鍵和外鍵。那麼問題來了，尤其是在跨表報告參數時。

爲了解決該問題，我們通過連接某些列中的值來創建鍵，從而構建了一個包含相關列在內的表。聽起來很混亂？確實; 得到你想要的結果了嗎？也得到了。

2.不同的命名法

在使用非結構化地理數據時，我遇到了同一個地理轄區不同拼寫的問題。例如，Chhattisgarh（印度的一個邦）被拼寫爲Chattisgarh，Chhatisgarh和Chhattisgarh。這又帶來了麻煩。

爲了解決該問題，我們創建一個臨時的映射層，將代碼分配給字符串值，從而通過主數據上的代碼從主表中獲取正確的拼寫以進行操作。

儘管在我看來，構建系統會限制用戶選擇拼寫地理名稱的方式，而不是向他們提供預先填充的下拉列表，那樣問題就徹底解決了。

3.整理來自不同文件格式的數據

圖片來自約翰斯頓高中

在我處理數據的整個生涯中，我幾乎一半的時間都會遇到這個問題。我不得不處理不同格式的表的數據。例如，一個是SQL文件，另一個是xlsx文件。

這裏沒有什麼可做的，但是可以確定的是，不要錯過整體的所有部分，即整理細分數據。

我們無法控制一切，有時需要尋找替代方案。

4.語言障礙

這是一個有趣的例子，印度次大陸的語言和方言多樣性直接影響數據的一致性。例如，喀拉拉邦的錫魯萬納塔普拉姆（Thiruvananthapuram）也被稱爲Tiruvanantapuram，每當遇到這，會使我的日子比平時更加焦慮。在處理城區和市區的城鎮級別以及鄉村的鄉村級別的地理管轄數據時，尤其是在調和數據方面提出了很大的挑戰。

解決問題的方式不只一種，模糊邏輯拼寫檢查器是我們尋找的一塊墊腳石，我們試圖維持一個評分系統，以協調所提出的正確拼寫的數據，它解決了近60%的問題。剩下的40%交給人工解決。

5.最常見的-數據缺失

根據我最近的經驗，我在各種類型和大小的數據上都遇到過數據缺失的問題。

我們正在使用鍵值對（key-value pair）系統來擺脫之前定義的問題，例如不同的命名法和/或語言障礙等。只有當我們發現至少35％的值缺失時，我纔不得不提出使用模式識別算法來估算缺失值，同時保持機制的神聖性，即保持其唯一性。

在遇到其他同質問題時，我們又請數據工程團隊不止一次地使用各種數據源重建數據管道來還原一個“真實的唯一來源”。

6.並不完美的數據架構

來自數據模型中心的圖片

我認爲，如果數據採集，流程和使用方式不規範，則會導致獲取相關有用數據的延遲。因此我能夠舉出由於同一問題而引發的兩個實例。

首先，想象一下要從“ y”列中獲取要在“ x”列中收集的數據點。現在，進行架構更改是一項艱鉅的任務，因此，我們製作了優化的數據模型，每次輸入新一批數據時，這些數據模型都會自動進行更新。

其次，在交付懸而未決的情況下，一個欄位尚未收到任何數據。這意味着要在截止日期前解決，因此我們設法進行數學運算，並使用微分邏輯獲取缺失列的值。即使，我們後來收到了我們得出的列的值。

7.不同的日期格式

老實說，當我寫標題時，我畏縮了。

在這裏引用第3點，由於數據來自不同的文件格式，因此一個變量的列格式也不同也就不足爲奇了。

整理數據時，除了進行一些映射和/或轉換操作外，我們無能爲力。但是，在使用可視化工具時，該問題似乎並不嚴重，僅需單擊幾下即可使其變得相關和兼容。

尾聲

總之，我相信清理和整理非結構化數據對於交付高質量的結果是至關重要的。希望我提供的這些實例能爲現實世界中的實際問題提供參考。

原文標題：

What I did when I had to work with unstructured data?

原文鏈接：

https://www.analyticsvidhya.com/blog/2020/12/what-i-did-when-i-had-to-work-with-unstructured-data/

編輯：王菁

校對：呂豔芹

譯者簡介

王闖（Chuck），臺灣清華大學資訊工程碩士。曾任奧浦諾管理諮詢公司數據分析主管，現任尼爾森市場研究公司數據科學經理。很榮幸有機會通過數據派THU公衆號平臺和各位老師、同學及同行前輩們交流學習。

翻譯組招募信息

工作內容：需要一顆細緻的心，將選取好的外文文章翻譯成流暢的中文。如果你是數據科學/統計學/計算機類的留學生，或在海外從事相關工作，或對自己外語水平有信心的朋友歡迎加入翻譯小組。

你能得到：定期的翻譯培訓提高志願者的翻譯水平，提高對於數據科學前沿的認知，海外的朋友可以和國內技術應用發展保持聯繫，THU數據派產學研的背景爲志願者帶來好的發展機遇。

其他福利：來自於名企的數據科學工作者，北大清華以及海外等名校學生他們都將成爲你在翻譯小組的夥伴。

點擊文末“閱讀原文”加入數據派團隊~

轉載須知

如需轉載，請在開篇顯著位置註明作者和出處（轉自：數據派ID：DatapiTHU），並在文章結尾放置數據派醒目二維碼。有原創標識文章，請發送【文章名稱-待授權公衆號名稱及ID】至聯繫郵箱，申請白名單授權並按要求編輯。

發佈後請將鏈接反饋至聯繫郵箱（見下方）。未經許可的轉載以及改編者，我們將依法追究其法律責任。

點擊“閱讀原文”擁抱組織

獨家 | 處理非結構化數據的7個實例（附鏈接）

介紹

1.缺少唯一標識符

2.不同的命名法

3.整理來自不同文件格式的數據

4.語言障礙

5.最常見的-數據缺失

6.並不完美的數據架構

7.不同的日期格式

尾聲

985 碩士程序員，空窗 4 個月沒有 Offer！

【入門教程】5分鐘教你快速學會集成Java springboot ~

營銷系統黑名單優化：位圖的應用解析

一文搞懂 Spring 循環依賴

我真的從測試轉成了開發......

盛大發布 | Zabbix 7.0 LTS--性能與擴展的卓越融合

nginx添加相應配置，通過瀏覽器訪問或curl時返回客戶端對應公網IP

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

python內置函數——sorted

[oeasy]python020在遊戲中體驗數值自由_勇闖地下城_終端文字遊戲

面試時遇到一致性哈希算法這樣回答會讓面試官眼前一亮

爲什麼漢字不能當密碼，假如用漢字做密碼，又會怎樣？

mybatis中的association和collection

Elastic Search入門：架構說明及Docker方式體驗

獨家 | 處理非結構化數據的7個實例（附鏈接）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結