Data Pipeline的主角是數據。
AWS上提供了多種服務來存儲、處理數據,S3,EMR,Redshift,RDS,DynamoDB。
Pipeline就是幫用戶在這麼多種數據源上進行處理。
下面通過簡單製作一個pipeline把S3數據拷貝到S3上的另一個路徑,來學習Data Pipeline的基礎概念。
創建pipeline
可以通過預定義的模板來定義管道
管道可以單次運行或者類似cron定時運行
定義pipeline
空白模板
創建數據源(注意FilePath,from是源,to是目的)
可以用的數據源
定製Activity 活動
活動的可選類型
連接後的結果的可視化界面
這時如果想保存,執行管道的時候,會出現錯誤
需要設置 資源
也就是運行這個Activity的環境,我們使用EC2
執行
保存Pipeline後,會詢問是否Activate激活,選擇Yes。然後開始運行。
結果
會看到在S3的to目錄裏,有了拷貝過來的test.txt文件