原创 Hive配置彙總(一)
主要功能 hive配置參數 作用 默認值 應用場景 併發 hive.exec.parallel=true; 多job併發 hive.exec.parallel.thread.numbe=X; 可以並行化的job數 8 輸入
原创 Hive使用Spark on Yarn作爲執行引擎,yarn資源調度FAIR配置
Hive從1.1之後,支持使用Spark作爲執行引擎,配置使用Spark On Yarn作爲Hive的執行引擎,首先需要注意以下兩個問題: Hive的版本和Spark的版本要匹配; 具體來說,你使用的Hive版本編譯時候用的哪個版本的Sp
原创 solrcloud 高可用集羣搭建加solr整合hbase以及向ganglia報告度量
一、環境準備 CentOS-6.4-x86_64-minimal.iso jdk-6u45-linux-i586-rpm.bin zookeeper-3.4.5.tar solr-4.6.0.zip
原创 使用Hadoop ACL 控制訪問權限
一、HDFS訪問控制 hdfs-site.xml設置啓動acl <property> <name>dfs.permissions.enabled</name> <value>true</value> </property> <prope
原创 hive on spark執行insert overwrite非常慢
把一些sql執行從hive改到spark,發現執行更慢,sql主要是一些insert overwrite操作,從執行計劃看到,用到InsertIntoHiveTable spark-sql> explain insert overwri
原创 Hbase+Solr操作手冊
Hbase+Solr操作手冊 1、對於初次建立得表,可以使用 create 'table',{NAME =>'f1', REPLICATION_SCOPE =>1} 注:其中1表示開啓replication功能,0表示不開啓,默認爲0
原创 Elasticsearch+Hbase實現海量數據秒回查詢
一、ElasticSearch和Hbase ElasticSearch是一個基於Lucene的搜索服務器。它提供了一個分佈式多用戶能力的全文搜索引擎,基於RESTful web接口。Elasticsearch是用Java開發的,並作爲Ap
原创 推薦常用算法之-基於內容的推薦
Collaborative Filtering Recommendations (協同過濾,簡稱CF) 是目前最流行的推薦方法,在研究界和工業界得到大量使用。但是,工業界真正使用的系統一般都不會只有CF推薦算法,Content-based
原创 SparkSQL之雙重Group解決數據傾斜
主要內容: 1.自定義UDF 2.數據流程 3.Spark程序 1.自定義UDF RandomPrefixUDF.java /** * 給字段添加隨機前綴 * random_prefix() * * @author Admini
原创 Spark中的checkpoint用法
怎麼建立checkpoint 首先需要用sparkContext設置hdfs的checkpoint的目錄(如果不設置使用checkpoint會拋出異常:throw new SparkException(“Checkpoint direct
原创 Storm實際開發注意事項
一、使用組件的並行度代替線程池 Storm 自身是一個分佈式、多線程的框架,對每個Spout 和Bolt,我們都可以設置其併發度;它也支持通過rebalance 命令來動態調整併發度,把負載分攤到多個Worker 上。
原创 xor(異或)解決Storm的Tuple確認問題
Storm spout的nextTuple以及bolt的execute Storm的API非常豐富,但是記住,本文介紹的ACK機制需要特殊的支持。也就是說,本文所說的ACK的機制只是Storm的一種可選機制,你完全可以無視它去選擇一種輕量
原创 Redis分佈式鎖實現,Zookeeper實現分佈式鎖
Redis分佈式鎖實現:適用於單機模式,集羣模式不可行,失效時間不好控制,一般爲業務時間的2-3倍左右。 SET key value [EX seconds] [PX milliseconds] [NX|XX] 將字符串值 va
原创 JAVA 操作MongoDB
MongoDB的3.x版本Java驅動相對2.x做了全新的設計,類庫和使用方法上有很大區別。例如用Document替換BasicDBObject、通過Builders類構建Bson替代直接輸入$命令等,本文整理了基於3.2版本的常用增刪改
原创 solrcloud 高可用集羣搭建
一、環境準備 CentOS-6.4-x86_64-minimal.iso jdk-6u45-linux-i586-rpm.bin zookeeper-3.4.5.tar solr-4.6.0.zip