超詳細簡單易懂的hadoop數據的預處理

hadoop數據的預處理
第一步使用xshell連接linux的服務器沒有服務器的連接自己的虛擬機
在這裏插入圖片描述連接服務氣後查看要處理的原數據
在這裏插入圖片描述處理後的結果
在這裏插入圖片描述接下來使用命令

cat small_user.csv | sed 's/^\(.*\),\(.*\),\(.*\),\(.*\),\(.*\),\(.*\)$/\1\t\2\t\3\t\5\t\6/g'

在這裏插入圖片描述
在這裏插入圖片描述然後使用cat -n命令進行排序

cat -n

在這裏插入圖片描述刪除數據後面的小時
small_user.csv是我從windows中導入的文件包你就寫你需要處理的包

cat small_user.csv | sed 's/^\(.*\),\(.*\),\(.*\),\(.*\),\(.*\),\(.*\)$/\1\t\2\t\3\t\5\t\6/g' | sed 's/ [0-9]..*$//g' | cat -n

在這裏插入圖片描述
在這裏插入圖片描述數據太多了先取10行的數據

先取10行後排序
cat small_user.csv | sed 's/^\(.*\),\(.*\),\(.*\),\(.*\),\(.*\),\(.*\)$/\1\t\2\t\3\t\5\t\6/g' | sed 's/ [0-9]..*$//g' | head -n 10 | cat -n

在這裏插入圖片描述將文件的處理結果從定向到名爲1的文件文件的名字隨你我是爲了方便
在這裏插入圖片描述接下來查看文件1
在這裏插入圖片描述還差省份了
在這裏插入圖片描述顯示省份的文件
在這裏插入圖片描述將上面的文件1 和 文件2 按列拼接
在這裏插入圖片描述最後返回執行的結果
在這裏插入圖片描述後面的就是嘗試大量的數據拼接可以嘗試去做
在這裏插入圖片描述
在這裏插入圖片描述從原數據中取出一定量的數據數據太大不好處理
在這裏插入圖片描述將文件進行拼接
在這裏插入圖片描述有時候,不能覺得傻人不好,總想逃避學習的“聰明人”,
或許更傻。
如果覺得自己聰明,逃避了學習五筆的痛苦,其實自己損失大了。
打字快,寫報告就很快樂,
而且,手指記憶法也就會了。
腳本就是手指記憶的。
說學不會腳本的原因,大多是,因爲沒練習過手指記憶練得多了。手一過就出來了。

最後就是加油 奧利給

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章