Amazon發佈可持續性數據集,可用於多個領域的數據分析

Amazon Web Services Open Data(AWSOD)和Amazon Sustainability(AS)正在合作,爲AWS Simple Storage Service(S3)提供可持續性的數據集,並通過預處理數據集來實現最佳的數據檢索,從而消除無差異的繁重工作。可持續性數據集通常來自衛星、地質研究、氣象雷達、地圖、農業研究、大氣研究、政府和很多其他來源。

Amazon Web Services Open Data(AWSOD)和Amazon Sustainability(AS)正在合作,爲AWS Simple Storage Service(S3)提供可持續性的數據集,並通過預處理數據集來實現最佳的數據檢索,從而消除無差異的繁重工作。可持續性數據集通常來自衛星、地質研究、氣象雷達、地圖、農業研究、大氣研究、政府和很多其他來源。

2018年12月10日,AWSOD和AS團隊發佈了第一組數據集。這些數據集向現有的AWS Open Data數據集種添加了一種新數據類別。這些可持續性數據集之前已經被公開,AWS現在正在改進數據集的訪問便利性,例如,將大型存檔文件分成可以獨立檢索的較小的可尋址塊。AWS使用Simple Storage Service(S3)存儲數據,並將存儲桶設置爲公開可訪問。Simple Notification Services(SNS)用於向消費者發起新數據通知,並且在少數情況下使用CloudFront通過應用程序編程接口提供數據,以便加快檢索速度。

爲了進一步促進新數據集的使用,AWS正在與Group on Earth Observations(GEO)合作,撥出150萬美元的AWS Cloud Credits,以獲得有關地球的見解。

AWS提供瞭如何使用可持續性開放數據集的文檔以及用於搜索數據集的標籤。“非洲土壤信息服務(AfSIS)土壤化學”數據集可以用來學習如何將機器學習應用於開放數據。使用開放數據集的社區第三方貢獻者發佈了一些博文,介紹瞭如何使用公共數據集:

此外,AWS的一些客戶成功地在雲端使用可持續性數據:

負責農業數據分析的Sebastian Fritsch參與了AWS有關衛星數據集使用的問答,他被問道:“在你看來有什麼亮點嗎”?他回答說:“只需要修改幾行代碼就可以將數據產品從相對較小的試點區域擴展到全局,對我們來說,這是一個亮點”。

在可持續性數據集發佈之前,AWS Global Open Data主管Jed Sundwall談到了如何不斷改進AWS傳輸PB級開放數據的能力。AWS正在向開放數據集中添加各種索引(包括外部索引、文件命名和內部索引),以增加訪問便利性。AWS的工作人員正在觀察社區的情況,並意識到他們可以通過社區構建的數據集處理機制來衡量數據集的成功程度。最後,AWS提供了一個明確定義的程序,用於支付成本,並讓新的貢獻者通過AWS提供公共數據集。

查看英文原文:https://www.infoq.com/news/2019/01/amazon-sustainability-datasets

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章