台部落徐雄辉

1.1 Apache Kylin 介紹 Kylin 是一個分佈式的大數據分析引擎，提供在 Hadoop 之上的 SQL 接口和多維分析能力（OLAP），可以做到在 TB 級的數據量上實現亞秒級的查詢響應。

2020-06-17 12:27:15

package com.hand.study; import scala.Tuple2; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Java

2020-05-30 14:37:36

入門起點：SparkSession Spark中所有功能的入口點就是這個SparkSession類。要創建一個基本的SparkSession，只需使用SparkSession.builder()： import org.apach

2020-05-30 14:37:36

#!/usr/bin/env python # -*- encoding: utf-8 -*- """ Topic: 爬取鏈接的蜘蛛 Desc : """ import logging from coolscrapy.items imp

2020-05-30 14:37:36

常用的HBASE數據遷移目前的方案有非常多種，本文主要介紹兩種一種爲Hadoop手動數據遷移，另一種爲Snapshot數據遷移原理不多介紹，直接實戰一、Hadoop層手動數據遷移需要注意： 1.Hadoop/hbase版本也要注意是

2020-02-23 00:51:34

通過 elasticsearch-hadoop可以將spark 處理後的數據保存在Elastic上，後續數據的檢查和查詢非常方便。 https://db-blog.web.cern.ch/blog/prasanth-kothuri/201

2020-02-23 00:51:34

在分析線上問題時常使用到jstack <PID>命令將當時Java應用程序的線程堆棧dump出來。面對jstack 日誌，我們如何查看？首先要清楚線程的狀態線程的狀態有：new、runnable、running、waiting、timed

2020-02-23 00:51:34

1 問題描述 Region-In-Trasition機制從字面意思來看，Region-In-Transition說的是Region變遷機制，實際上是指在一次特定操作行爲中Region狀態的變遷，例如merge、split、a

2020-02-23 00:51:34

date 1 配置時間服務器 1.檢查時區 $ date -R 1 +0800東八區區時 2.檢查軟件包如果ntp工具不存在，則需要使用yum安裝 $ sudo rpm -qa | grep ntp 1 如果不存在則安裝 $ sudo

2020-02-23 00:51:34

今天在搭建一個虛擬環境過程中，遇到了點問題，在此記錄一二。安裝完scrapy後，再去安裝pywin32，之後再通過命令行調試scrapy項目時，發現任然爆出瞭如下錯誤：?12import win32apiImportError: DLL

2020-02-23 00:51:34

在Java中，工具類定義了一組公共方法，這篇文章將介紹Java中使用最頻繁及最通用的Java工具類。以下工具類、方法按使用流行度排名，參考數據來源於Github上隨機選取的5萬個開源項目源碼。一. org.apache.commons.

2020-02-23 00:51:34

hdfs開啓kerberos之後，namenode報錯，連不上journalnode 2019-03-15 18:54:46,504 WARN org.apache.hadoop.security.UserGroupInformatio

2020-02-23 00:51:34

首先考慮使用最簡單的方法安裝[plain] view plain copy pip install scrapy 命令安裝，提示 Failed building wheel for TwistedMicrosoft Visual C

2020-02-23 00:51:34

Standalone-client提交任務方式提交命令 ./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ..

2020-02-23 00:51:34

一：大數據概念大數據是由數量巨大、結構複雜、類型衆多的數據結構的數據集合，在合理時間內，通過對該該數據集合的管理、處理、並整理成爲能幫助政府機構和企業進行管理、決策的訊息。二：大數據特點大數據通常具有以下幾種特點： 1、大量：即數據

2020-02-23 00:51:34