hadoop數據的預處理
第一步使用xshell連接linux的服務器沒有服務器的連接自己的虛擬機
連接服務氣後查看要處理的原數據
處理後的結果
接下來使用命令
cat small_user.csv | sed 's/^\(.*\),\(.*\),\(.*\),\(.*\),\(.*\),\(.*\)$/\1\t\2\t\3\t\5\t\6/g'
然後使用cat -n命令進行排序
cat -n
刪除數據後面的小時
small_user.csv是我從windows中導入的文件包你就寫你需要處理的包
cat small_user.csv | sed 's/^\(.*\),\(.*\),\(.*\),\(.*\),\(.*\),\(.*\)$/\1\t\2\t\3\t\5\t\6/g' | sed 's/ [0-9]..*$//g' | cat -n
數據太多了先取10行的數據
先取10行後排序
cat small_user.csv | sed 's/^\(.*\),\(.*\),\(.*\),\(.*\),\(.*\),\(.*\)$/\1\t\2\t\3\t\5\t\6/g' | sed 's/ [0-9]..*$//g' | head -n 10 | cat -n
將文件的處理結果從定向到名爲1的文件文件的名字隨你我是爲了方便
接下來查看文件1
還差省份了
顯示省份的文件
將上面的文件1 和 文件2 按列拼接
最後返回執行的結果
後面的就是嘗試大量的數據拼接可以嘗試去做
從原數據中取出一定量的數據數據太大不好處理
將文件進行拼接
有時候,不能覺得傻人不好,總想逃避學習的“聰明人”,
或許更傻。
如果覺得自己聰明,逃避了學習五筆的痛苦,其實自己損失大了。
打字快,寫報告就很快樂,
而且,手指記憶法也就會了。
腳本就是手指記憶的。
說學不會腳本的原因,大多是,因爲沒練習過手指記憶練得多了。手一過就出來了。
最後就是加油 奧利給