使用AWS Data Pipeline處理數據

Data Pipeline的主角是數據。

AWS上提供了多種服務來存儲、處理數據,S3,EMR,Redshift,RDS,DynamoDB。

Pipeline就是幫用戶在這麼多種數據源上進行處理。

下面通過簡單製作一個pipeline把S3數據拷貝到S3上的另一個路徑,來學習Data Pipeline的基礎概念。

創建pipeline


可以通過預定義的模板來定義管道



管道可以單次運行或者類似cron定時運行




定義pipeline

空白模板



創建數據源(注意FilePath,from是源,to是目的)



可以用的數據源



定製Activity 活動


活動的可選類型



連接後的結果的可視化界面



這時如果想保存,執行管道的時候,會出現錯誤


需要設置 資源

也就是運行這個Activity的環境,我們使用EC2



執行

保存Pipeline後,會詢問是否Activate激活,選擇Yes。然後開始運行。



結果

會看到在S3的to目錄裏,有了拷貝過來的test.txt文件

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章