原创 一文揭祕HBase 上的 SQL 引擎,Kylin 和 Phoenix 有什麼不同

1.1 Apache Kylin 介紹 Kylin 是一個分佈式的大數據分析引擎,提供在 Hadoop 之上的 SQL 接口和多維分析能力(OLAP),可以做到在 TB 級的數據量上實現亞秒級的查詢響應。                

原创 spark java rdd

package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Java

原创 JavaSpark-sparkSQL

入門  起點:SparkSession  Spark中所有功能的入口點就是這個SparkSession類。要創建一個基本的SparkSession,只需使用SparkSession.builder(): import org.apach

原创 例子1.link_scrapy

#!/usr/bin/env python # -*- encoding: utf-8 -*- """ Topic: 爬取鏈接的蜘蛛 Desc : """ import logging from coolscrapy.items imp

原创 Hbase常用可靠的數據遷移方案

常用的HBASE數據遷移目前的方案有非常多種,本文主要介紹兩種一種爲Hadoop手動數據遷移,另一種爲Snapshot數據遷移 原理不多介紹,直接實戰 一、Hadoop層手動數據遷移 需要注意: 1.Hadoop/hbase版本也要注意是

原创 Spark整合Elastic

通過 elasticsearch-hadoop可以將spark 處理後的數據保存在Elastic上,後續數據的檢查和查詢非常方便。 https://db-blog.web.cern.ch/blog/prasanth-kothuri/201

原创 hbase jstack工具分析

在分析線上問題時常使用到jstack <PID>命令將當時Java應用程序的線程堆棧dump出來。面對jstack 日誌,我們如何查看?首先要清楚線程的狀態線程的狀態有:new、runnable、running、waiting、timed

原创 記錄一次HBase2.x之RIT問題解決方案

  1 問題描述 Region-In-Trasition機制     從字面意思來看,Region-In-Transition說的是Region變遷機制,實際上是指在一次特定操作行爲中Region狀態的變遷,例如merge、split、a

原创 java.lang.RuntimeException: HRegionServer Aborted

date 1 配置時間服務器 1.檢查時區 $ date -R 1 +0800東八區區時 2.檢查軟件包 如果ntp工具不存在,則需要使用yum安裝 $ sudo rpm -qa | grep ntp 1 如果不存在則安裝 $ sudo

原创 scrapy -----ImportError: No module named 'win32api'

今天在搭建一個虛擬環境過程中,遇到了點問題,在此記錄一二。安裝完scrapy後,再去安裝pywin32,之後再通過命令行調試scrapy項目時,發現任然爆出瞭如下錯誤:?12import win32apiImportError: DLL

原创 Github上最常用的Java16個工具類

在Java中,工具類定義了一組公共方法,這篇文章將介紹Java中使用最頻繁及最通用的Java工具類。以下工具類、方法按使用流行度排名,參考數據來源於Github上隨機選取的5萬個開源項目源碼。 一. org.apache.commons.

原创 org.apache.hadoop.ipc.RemoteException(javax.securi ty.sasl.SaslException): GSS initiate failed

hdfs開啓kerberos之後,namenode報錯,連不上journalnode 2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformatio

原创 Python3.6下scrapy框架的安裝

首先考慮使用最簡單的方法安裝[plain] view plain copy pip install scrapy   命令安裝,提示  Failed building wheel for TwistedMicrosoft Visual C

原创 使用spark-submit提交到的各個模式原理圖解

Standalone-client提交任務方式 提交命令 ./spark-submit  --master spark://node1:7077  --class org.apache.spark.examples.SparkPi  ..

原创 大數據發展歷程

一:大數據概念 大數據是由數量巨大、結構複雜、類型衆多的數據結構的數據集合,在合理時間內,通過對該該數據集合的管理、處理、並整理成爲能幫助政府機構和企業進行管理、決策的訊息。 二:大數據特點 大數據通常具有以下幾種特點: 1、大量:即數據