原创 《Using OpenRefine》翻譯~13

上一篇:《Using OpenRefine》翻譯~12 點7:行列轉換 有時候數據並不是以你料想的方式在行和列中分佈。確實,有很多種數據排布方式,這取決於具體的情況。比如在Powerhouse Museum數據集中,有一些很多維度的列:H

原创 公共數據庫介紹~聯合國數據庫UNDATA

公共數據庫-聯合國數據庫UNDATA   聯合國數據庫提供免費數據檢索和下載服務。其數據總量爲6000萬條。涵蓋了農業、犯罪、教育、就業、能源等方方面面。   網址:http://data.un.org 數據庫的使用都是大同小異的,

原创 如何將pdf等非標準數據文件轉換成可供EXCEL等軟件分析的數據

在數據獲取的時候總會碰到很多非標準格式的文檔,比如爲了web顯示良好,很多網站將excel文件轉換成了pdf格式,還可能直接使用圖片格式,而這類文檔中的數據是無法直接用來作數據分析的。舉個例子如下: 環境保護部2008年中國環境統計年報就

原创 公共數據庫介紹~英國衛報(The Guardian Data Store)

公共數據庫-英國衛報(The Guardian Data Store)   與其說英國衛報是個數據庫,不如說其是學習數據分析及展示的平臺,因爲其datablog欄目的分析文章既有文字描述,又有可視化展示,更可貴的是還有原始數據,所以通過學

原创 網頁中表格還可以這樣處理~一個強力的火狐表格插件TableTools2介紹

數據就在網頁上,複製黏貼實在煩,即使辛苦搞下來,還得費力來清理,導到excel搞圖表,還得word做表報。呵呵,自己寫了一首打油詩。其實這也是曾經從網頁上獲取過數據的兄弟姐妹的普遍苦惱。 最近發現一款火狐表格插件TableTools2,嘗

原创 公共數據庫介紹~OECD經合組織數據庫

OECD是一個龐大的在線統計數據庫,OECD是指經合組織,現經合組織共有35個成員國,它們是:澳大利亞、奧地利、比利時、加拿大、智利、捷克、丹麥、愛沙尼亞、芬蘭、法國、德國、希臘、匈牙利、冰島、愛爾蘭、以色列、意大利、日本、韓國、拉脫維亞

原创 《Using OpenRefine》翻譯~18

上一篇:《Using OpenRefine》翻譯~17 錨符 有時候,你不是要表達有多少字符被匹配,而是想確定字符串哪個位置被匹配。這時候就可以使用錨符anchors。補字號^表示必須在開始匹配,美元符號$表示必須在最後匹配。(不要與方括

原创 《Using OpenRefine》翻譯~16

上一篇:《Using OpenRefine》翻譯~15 •點5-抽取單名稱項 解析服務在你的數據集中只包含單個條目時工作良好,比如人名、國家或者工種。但是,如果你的列內容包含的是一小段文字時解析往往不奏效,因爲其只能在數據庫中搜索單個條目

原创 《Using OpenRefine》翻譯~19(完結)

上一篇:《Using OpenRefine》翻譯~18 GREL  正則表達式的強大功能並不限於數據查找,還可以用作數據管理。GREL提供了利用正則表達式完成函數操作的可能。GREL是用來操作數據的簡單函數語言。其是OpenRefn

原创 公共數據庫介紹~OpenCorporates

世界上最大的公司信息數據庫。   網址:https://opencorporates.com/ 個人對幾個菜單進行了嘗試,這個數據庫類似於公司信息搜索引擎。比如在搜索框中搜索“IBM”: 就搜索到了1704家包含關鍵詞IBM的公司

原创 關於搜索引擎使用的小技巧

我們這裏以百度和谷歌爲例做介紹。 一般大衆使用搜索引擎的話都是在首頁中直接輸入關鍵詞,如果有多個信息就同時輸入多個,然後以空格互相隔開,比如: 這存在一個問題就是搜索結果量太過龐大,時效性不高,也就是說很多年前的東西也會被搜出來。針對

原创 關於數據獲取的幾點經驗

俗話說:“巧婦難爲無米之炊”,這說的是即使媳婦廚藝高超,如果沒有食材的話也會一籌莫展。對於數據分析領域,首要面對的問題也一樣:如何獲得數據。本文就對數據獲取的方方面面作個小結,以供各位“巧媳婦”參考。 數據獲取也需要有一個流程框架,不然會

原创 私記

數據分析是一個探索、展示、理解的交互過程。也就是說這三個方面是交叉進行的,無所謂先後,接觸數據的那一刻便開始了,隨着過程的深入,三者相得益彰,促使你獲得更加清晰的洞察。 典型的數據分析全流程流水: (1)獲取數據(從各種數據源將數據導入

原创 公共數據庫介紹~datahub

DataHub是一個免費且強大的數據管理平臺。其包含了大量國家、地方政府、研究機構等收集的數據。   網址:https://datahub.io/zh_CN/   使用前最好調整語言爲“中文”: 點擊導航欄中的“數據集”進入:

原创 《Using OpenRefine》翻譯~17

上一篇:《Using OpenRefine》翻譯~16 第五章:正則表達式和GREL OpenRefine中有兩個很強大的工具: regular expressions(正則表達式) 和 GREL. Regular expressi