原创 一文揭祕HBase 上的 SQL 引擎,Kylin 和 Phoenix 有什麼不同
1.1 Apache Kylin 介紹 Kylin 是一個分佈式的大數據分析引擎,提供在 Hadoop 之上的 SQL 接口和多維分析能力(OLAP),可以做到在 TB 級的數據量上實現亞秒級的查詢響應。
原创 spark java rdd
package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Java
原创 JavaSpark-sparkSQL
入門 起點:SparkSession Spark中所有功能的入口點就是這個SparkSession類。要創建一個基本的SparkSession,只需使用SparkSession.builder(): import org.apach
原创 例子1.link_scrapy
#!/usr/bin/env python # -*- encoding: utf-8 -*- """ Topic: 爬取鏈接的蜘蛛 Desc : """ import logging from coolscrapy.items imp
原创 Hbase常用可靠的數據遷移方案
常用的HBASE數據遷移目前的方案有非常多種,本文主要介紹兩種一種爲Hadoop手動數據遷移,另一種爲Snapshot數據遷移 原理不多介紹,直接實戰 一、Hadoop層手動數據遷移 需要注意: 1.Hadoop/hbase版本也要注意是
原创 Spark整合Elastic
通過 elasticsearch-hadoop可以將spark 處理後的數據保存在Elastic上,後續數據的檢查和查詢非常方便。 https://db-blog.web.cern.ch/blog/prasanth-kothuri/201
原创 hbase jstack工具分析
在分析線上問題時常使用到jstack <PID>命令將當時Java應用程序的線程堆棧dump出來。面對jstack 日誌,我們如何查看?首先要清楚線程的狀態線程的狀態有:new、runnable、running、waiting、timed
原创 記錄一次HBase2.x之RIT問題解決方案
1 問題描述 Region-In-Trasition機制 從字面意思來看,Region-In-Transition說的是Region變遷機制,實際上是指在一次特定操作行爲中Region狀態的變遷,例如merge、split、a
原创 java.lang.RuntimeException: HRegionServer Aborted
date 1 配置時間服務器 1.檢查時區 $ date -R 1 +0800東八區區時 2.檢查軟件包 如果ntp工具不存在,則需要使用yum安裝 $ sudo rpm -qa | grep ntp 1 如果不存在則安裝 $ sudo
原创 scrapy -----ImportError: No module named 'win32api'
今天在搭建一個虛擬環境過程中,遇到了點問題,在此記錄一二。安裝完scrapy後,再去安裝pywin32,之後再通過命令行調試scrapy項目時,發現任然爆出瞭如下錯誤:?12import win32apiImportError: DLL
原创 Github上最常用的Java16個工具類
在Java中,工具類定義了一組公共方法,這篇文章將介紹Java中使用最頻繁及最通用的Java工具類。以下工具類、方法按使用流行度排名,參考數據來源於Github上隨機選取的5萬個開源項目源碼。 一. org.apache.commons.
原创 org.apache.hadoop.ipc.RemoteException(javax.securi ty.sasl.SaslException): GSS initiate failed
hdfs開啓kerberos之後,namenode報錯,連不上journalnode 2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformatio
原创 Python3.6下scrapy框架的安裝
首先考慮使用最簡單的方法安裝[plain] view plain copy pip install scrapy 命令安裝,提示 Failed building wheel for TwistedMicrosoft Visual C
原创 使用spark-submit提交到的各個模式原理圖解
Standalone-client提交任務方式 提交命令 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ..
原创 大數據發展歷程
一:大數據概念 大數據是由數量巨大、結構複雜、類型衆多的數據結構的數據集合,在合理時間內,通過對該該數據集合的管理、處理、並整理成爲能幫助政府機構和企業進行管理、決策的訊息。 二:大數據特點 大數據通常具有以下幾種特點: 1、大量:即數據