原创 Hive配置彙總(一)

主要功能 hive配置參數 作用 默認值 應用場景 併發 hive.exec.parallel=true; 多job併發       hive.exec.parallel.thread.numbe=X; 可以並行化的job數 8   輸入

原创 Hive使用Spark on Yarn作爲執行引擎,yarn資源調度FAIR配置

Hive從1.1之後,支持使用Spark作爲執行引擎,配置使用Spark On Yarn作爲Hive的執行引擎,首先需要注意以下兩個問題: Hive的版本和Spark的版本要匹配; 具體來說,你使用的Hive版本編譯時候用的哪個版本的Sp

原创 solrcloud 高可用集羣搭建加solr整合hbase以及向ganglia報告度量

一、環境準備     CentOS-6.4-x86_64-minimal.iso     jdk-6u45-linux-i586-rpm.bin     zookeeper-3.4.5.tar     solr-4.6.0.zip    

原创 使用Hadoop ACL 控制訪問權限

一、HDFS訪問控制 hdfs-site.xml設置啓動acl <property> <name>dfs.permissions.enabled</name> <value>true</value> </property> <prope

原创 hive on spark執行insert overwrite非常慢

把一些sql執行從hive改到spark,發現執行更慢,sql主要是一些insert overwrite操作,從執行計劃看到,用到InsertIntoHiveTable spark-sql> explain insert overwri

原创 Hbase+Solr操作手冊

Hbase+Solr操作手冊 1、對於初次建立得表,可以使用 create 'table',{NAME =>'f1', REPLICATION_SCOPE =>1} 注:其中1表示開啓replication功能,0表示不開啓,默認爲0

原创 Elasticsearch+Hbase實現海量數據秒回查詢

一、ElasticSearch和Hbase ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,基於RESTful web接口。Elasticsearch是用Java開發的,並作爲Ap

原创 推薦常用算法之-基於內容的推薦

Collaborative Filtering Recommendations (協同過濾,簡稱CF) 是目前最流行的推薦方法,在研究界和工業界得到大量使用。但是,工業界真正使用的系統一般都不會只有CF推薦算法,Content-based

原创 SparkSQL之雙重Group解決數據傾斜

主要內容: 1.自定義UDF 2.數據流程 3.Spark程序 1.自定義UDF RandomPrefixUDF.java /** * 給字段添加隨機前綴 * random_prefix() * * @author Admini

原创 Spark中的checkpoint用法

怎麼建立checkpoint 首先需要用sparkContext設置hdfs的checkpoint的目錄(如果不設置使用checkpoint會拋出異常:throw new SparkException(“Checkpoint direct

原创 Storm實際開發注意事項

一、使用組件的並行度代替線程池           Storm 自身是一個分佈式、多線程的框架,對每個Spout 和Bolt,我們都可以設置其併發度;它也支持通過rebalance 命令來動態調整併發度,把負載分攤到多個Worker 上。

原创 xor(異或)解決Storm的Tuple確認問題

Storm spout的nextTuple以及bolt的execute Storm的API非常豐富,但是記住,本文介紹的ACK機制需要特殊的支持。也就是說,本文所說的ACK的機制只是Storm的一種可選機制,你完全可以無視它去選擇一種輕量

原创 Redis分佈式鎖實現,Zookeeper實現分佈式鎖

Redis分佈式鎖實現:適用於單機模式,集羣模式不可行,失效時間不好控制,一般爲業務時間的2-3倍左右。   SET key value [EX seconds] [PX milliseconds] [NX|XX] 將字符串值 va

原创 JAVA 操作MongoDB

MongoDB的3.x版本Java驅動相對2.x做了全新的設計,類庫和使用方法上有很大區別。例如用Document替換BasicDBObject、通過Builders類構建Bson替代直接輸入$命令等,本文整理了基於3.2版本的常用增刪改

原创 solrcloud 高可用集羣搭建

一、環境準備     CentOS-6.4-x86_64-minimal.iso     jdk-6u45-linux-i586-rpm.bin     zookeeper-3.4.5.tar     solr-4.6.0.zip