[同步]實習第二天

原文地址: http://nourlcn.ownlinux.net/2011/10/diary-practice-second-day.html

本博客訂閱地址:http://feeds.feedburner.com/nourlcn


本該昨天晚上總結的.

但昨天下班後趕緊回去收拾一下,今天坐了12個小時的龜速大巴纔到家,現在補上吧.

實習第二天,上午對第一天的工作進行了融合,寫了一個shell腳本將數據抓取、導入Hive、MapReduce處理、導入Mysql等步驟進行自動處理.
中間因爲不熟悉Hive的查詢、join用法等花費了一些時間.

中午吃飯時,看見開復童鞋進來貌似拿了個包子回辦公室了,哈哈~

下午寫了個py文件,生成指定格式的測試log file,預期目標是生成300G的文件在hadoop集羣上測試,考慮到實際的數據量可能不需要這麼大,先設置i循環爲5億,生成50G的big file.

因爲我使用shell遠程鏈接服務器進行開發,shell session過期後程序可能會中斷,因此學了一下daemon進程的編寫,下班前將py程序改成daemon進程執行.

再一次感慨,實習所接觸的東西比較實在,比在實驗室強多了.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章