原创 讓局域網中的其他物理機連接訪問本物理機的虛擬機

轉自:https://www.jianshu.com/p/46771b81af89 需求:服務器爲windows server(也就是windows操作系統),但是需要在該服務器上部署大數據測試集羣。由於大數據框架最優的運行環境爲linux

原创 kafka作爲流式處理的上一層,爲什麼吞吐量那麼大?

Kafka爲什麼速度快、吞吐量大 Kafka是大數據領域無處不在的消息中間件,目前廣泛使用在企業內部的實時數據管道,並幫助企業構建自己的流計算應用程序。Kafka雖然是基於磁盤做的數據存儲,但卻具有高性能、高吞吐、低延時的特點,其吞吐量動輒

原创 你真的會Linux常用命令麼——netstat查看端口

一、使用netstat命令可查看端口使用情況 (1) 查看服務端口是否啓用。常用於查看服務器進程端口是否啓動 [root@cdh-003 ~]# netstat -nlp |grep 21050 tcp6 0 0 :

原创 玩大數據的你竟然不知道容器?——Docker入門之安裝Docker及MySQL

1.簡介 Docker是一個開源的應用容器引擎;是一個輕量級容器技術; Docker支持將軟件編譯成一個鏡像;然後在鏡像中各種軟件做好配置,將鏡像發佈出去,其他使用者可以直接使用這個鏡像; 運行中的這個鏡像稱爲容器,容器啓動是非常快速的。

原创 你會用SpringBoot調用JDBC操作數據庫麼?

1 環境準備 數據庫使用MySQL,我們先創建一個SpringBoot項目再導入MySQL驅動: <dependency> <groupId>org.springframework.boot</groupId> <artif

原创 你會在Hive中使用GIS function麼?

應用場景 目前,Hive表中存在需要把經緯度轉化爲距離,和一些其他相關的計算函數,但是在hive中並沒有集成這些函數。當然我們可以自定義UDF函數,但是現在提供一個更加簡單的方法,通過源碼編譯的方式,集成GIS函數。 環境 <profile

原创 Hive調優技巧

1.Fetch抓取 set hive.fetch.task.conversion=more(默認) 1 Fetch 抓取是指,Hive 中對某些情況的查詢可以不必使用 MapReduce 計算。該屬性設置爲 more 以後,在全局查找、字段

原创 爲什麼我們生產上要選擇Spark On Yarn模式?

爲什麼我們生產上要選擇Spark On Yarn? 開發上我們選擇local[2]模式生產上跑任務Job,我們選擇Spark On Yarn模式 , 將Spark Application部署到yarn中,有如下優點: 1.部署Applica

原创 Kafka Connect 實時讀取MSSQL數據到Kafka

在處理實時數據時,需要即時地獲得數據庫表中數據的變化,然後將數據變化發送到Kafka中。這篇文章將介紹如何使用Kafka Connector完成這一工作。當獲取實時數據時,數據源需要支持對數據變化進行反饋。不同的數據源採用了不同的技術和方

原创 你懂集羣monitoring麼?(一)—— IDC機房有關技術指標獲取

背景:公司自建IDC機房,基於IDC機房構建大數據集羣;需要對集羣資源進行監控,集羣採用的是CDH集羣,採集主要分兩塊進行: HDFS和YARN相關的指標進行採集IDC機器自身的指標進行採集 注意: 也許有人會有疑惑,CM界面已經提供了監

原创 你懂集羣monitoring麼?(二)—— HDFS部分指標

本篇文章接着上篇內容繼續,地址:IDC集羣相關指標獲取在獲取了對應的IDC機器自身的指標之後,還需要對Hadoop集羣中HDFS和YARN的指標進行採集,大體思路上可以有2種: 第一種當然還是可以延用CM API去獲取,因爲CM中的tss

原创 通過Maxwell實時增量抽取MySQL binlog並通過stdout展示

下載Maxwell 解壓Maxwell 修改MySQL的配置文件my.cnf [root@hadoop000 etc]# vi my.cnf [mysqld] server-id = 1 binlog_format = ROW binl

原创 JVM快速調優手冊之六: JVM參數設置及分析

不管是YGC還是Full GC,GC過程中都會對導致程序運行中中斷,正確的選擇不同的GC策略,調整JVM、GC的參數,可以極大的減少由於GC工作,而導致的程序運行中斷方面的問題,進而適當的提高Java程序的工作效率。但是調整GC是以個極爲複

原创 JVM快速調優手冊之五: ParNew收集器+CMS收集器的產品案例分析(響應時間優先)

服務器 雙核,4個cores; 16G memory [root@alish2-cassandra-01 ~]# cat /proc/cpuinfo | grep "cpu cores" cpu cores : 2 cpu co

原创 JVM快速調優手冊之四: 堆內存分配的CMS公式解析

JVM 堆內存組成 Java堆由Perm區和Heap區組成,Heap區由Old區和New區(也叫Young區)組成,New區由Eden區、From區和To區(Survivor)組成。 Eden區用於存放新生成的對象。Eden中的對象生命不