原创 未來中國房價趨勢及論證
轉自:http://bbs.bj.house.163.com/bbs/yzsbs/250135004.html 注: 轉載該文章不代表轉載人認同本文章,同時對本文章的所有評論也不可作爲轉載人的態度 咱來侃侃大城市的房價到底會如何降
原创 map join優化
轉載:http://www.gemini5201314.net/hadoop/hadoop-%E4%B8%AD%E7%9A%84%E4%B8%A4%E8%A1%A8join.html 爲數據分析中經常進行的join 操作,傳統DBM
原创 Hprof使用及在Hadoop中MR任務使用
J2SE中提供了一個簡單的命令行工具來對java程序的cpu和heap進行 profiling,叫做HPROF。HPROF實際上是JVM中的一個native的庫,它會在JVM啓動的時候通過命令行參數來動態加載,併成爲 JVM進程的一部分
原创 新浪微博架構演講---轉載至新聞
轉載自:http://tech.sina.com.cn/i/2010-11-16/14434871585.shtml 以下爲演講實錄: 大家下午好,在座的大部分都是技術開發者,技術開發者往往對微博這個產品非常關心。最晚的一次,
原创 Redis教程
一 Redis介紹 Redis是一個開源的使用ANSI C語言編寫、支持網絡、可基於內存亦可持久化的日誌型、Key-Value數據庫,並提供多種語言的API。從2010年3月15日起,Redis的開發工作由VMwar
原创 hadoop作業調優參數整理及原理
在淘寶重新看了下hadoop作業相關參數的知識,一併轉載過來 http://www.tbdata.org/archives/1470/comment-page-1#comment-5341 hadoop作業調優參數整理及原理
原创 下一代Apache Hadoop MapReduce框架的架構
轉自 http://dongxicheng.org/mapreduce-nextgen/nextgen-mapreduce-introduction/ 懂的博客 背景 隨着集羣規模和負載增加,MapReduce JobTrack
原创 MR任務中默認counter意義
Counter有"組group"的概念,用於表示邏輯上相同範圍的所有數值。MapReduce job提供的默認Counter分爲五個組,下面逐一介紹。這裏也拿我的一份測試數據來做詳細比對,它們會以表格的形式出現在各組描述中。 FileIn
原创 hive基本用法彙總(部分)
看到的文章,總結的很好,轉載一下:原文http://www.jiacheo.org/blog/126 1, 創建表 ? 1 2 3 4 5 6 CREATETABLE page_
原创 Hadoop端口說明
默認端口 設置位置 描述信息 8020 namenode RPC交互端口 8021
原创 Oozie介紹
首先本人以前還真不知道Oozie這個東東,經別人說才知道,所以感覺也是比較慚愧。畢竟正在做的項目DIP-DATA-ANALYZE與這個有些共同處,就是提供類似工作流的機制更好的調度任務。不過Oozie支持的更多,支持了pig,直接mr,s
原创 關於12306網絡購票的架構方面思考
自從2012開始那天,網絡購買火車票成了國內最火的話題,12306.cn的Alexa排名從三個月前的全球萬位以外迅速竄升至今日的全球排名1560位、中國排名102位。並且成爲第11大電商網站。但是由於鐵道部公開的種種原因,12306也讓
原创 hive中的複雜類型使用
在Hive 中如何使用符合數據結構 maps,array,structs 1. Array的使用 創建數據庫表,以array作爲數據類型 create table person(name string,wor
原创 hive 全排序優化
全排序 Hive的排序關鍵字是SORT BY,它有意區別於傳統數據庫的ORDER BY也是爲了強調兩者的區別–SORT BY只能在單機範圍內排序。考慮以下表定義: CREATE TABLE if not exists t_ord
原创 c 使用libhdfs寫數據 配置blocksize
在libhdfs提供的hdfswrite基礎上修改好 自己的namenode ip及端口/** * Licensed to the Apache Software Foundation (ASF) under one * or mo