原创 這個週末有點累。。。

週六,坐着小火車去八達嶺森林公園看紅葉。從下火車走了接近4公後發現啥風景都沒有,無奈又原路返回。然後又到所謂的紅葉嶺看紅葉,悲催的又發現來晚了。樹上的紅葉已經基本凋落了,只留一小片一小片聊以安慰。近距離看着長城,所謂的野長城,走在荊棘的山

原创 數據挖掘--統計基礎概念

1. 中位數(Median) N個數按大小排序,排在中間的那個數M成爲中位數。即N個數中有50%比M大或者小。 若N爲基數,則M爲中間的那個數;若N爲偶數,則M爲中間兩個數的均值。 2. 均值(Mean) N個數的平均值。公式M=SUM(

原创 SQL習慣

  一、查詢的邏輯執行順序   (1) FROM left_table   (3) join_type JOIN right_table (2) ON join_condition   (4) WHERE where_condition

原创 Apache Sqoop

Apache Sqoop (Incubating) THURSDAY OCT 06, 2011 Apache Sqoop - Overview Apache Sqoop - Overview  Using Had

原创 hadoop+hive 做數據倉庫 & 一些測試

轉載標明 :www.bagbaby.cn http://hi.baidu.com/dd_shop 背景需求和現狀 目前的日誌系統還稱不上系統,只是

原创 Redis基礎

類型: String,List,set,sorted set String: 命令:set/get,incr/decr,incrby/decrby,getset List:linked list(插入快,訪問相對慢) 命令:lpush/r

原创 如何對hadoop作業的某個task進行debug單步跟蹤

轉自:http://blog.csdn.net/ae86_fc/article/details/5957715 對於使用hadoop進行日誌分析等工作的開發者來說,相信一直都面臨着一個非常頭 疼的問題。那就是:對hadoop的ma

原创 對hadoop task進行profiling的幾種方法整理

在hadoop中,當一個job的調試完成,執行成功後,job的開發者接下來該思考的問題通常就是:如何將job跑的更快,更加高效,更節省資源呢?這個話題其實是一個老生常談的話題了,很多有經驗的工程師,開發人員和機構都分享過類似的經

原创 路在何方?

        在公司工作了一年,從hadoop平臺搭建、使用;然後是公司舊有的兩套系統的維護,新增需求處理,更多的陷入shell腳本,perl,awk等腳本語言的使用上來;緊接着是失敗oracle biee的調研,然後是開源pentah

原创 Hadoop學習一

1、自定義輸入類型(輸出類型類似) 基類:FileInputFormat 實現方法getRecordReader 實現自定義的RecordReader,方法:next,createKey,createValue,getPos,getPro

原创 R語言爲Hadoop集羣數據統計分析帶來革命性變化

R作爲開源的數據統計分析語言正潛移默化的在企業中擴大自己的影響力。特有的擴展插件可提供免費擴展,並且允許R語言引擎運行在Hadoop集羣之上。 R語言是主要用於統計分析、繪圖的語言和操作環境。R本來是由來自新西蘭奧克蘭大學的Ro

原创 awk字符串比較問題

#!/bin/awk BEGIN {  mac=""  sum=0 } {  if($1==mac)  { sum+=$2 }  else  {  print mac,sum mac=$1  } END {  if($1==mac)  {

原创 mongodb隨筆

1. 刪除文檔屬性 var xx = db.collection.find({query})xx.newkey="new value"delete xx.key1db.collection.update({query},xx)操作說明:

原创 Mongodb嵌套查詢及修改

Mongodb各文檔中對嵌套查詢的介紹不知道藏在哪個地方,反正我是沒找到,一個偶然的機會發現網上的一個帖子,終於知道了嵌套查詢的用法。於是乎我們應用中的一個問題也隨之被解決了。不說廢話了,現在說下嵌套查詢的使用。 假設mongodb中存在

原创 shell腳本編碼問題

最近某個腳本的執行經常導致編碼問題。 腳本從遠端mysql數據庫獲取影片中文名,然後再導入本機的mysql中。發現由crontab自動執行的時候獲取的影片名稱都是亂碼,但手動執行腳本卻正常輸出。幾天都是這個問題。今天突然想起以前也有類似問