原创 kafka SparkStreaming讀取數據筆記

取決於 enable.auto.commit” enable.auto.commit” -> (true: java.lang.Boolean) 可以保存offset,可以讀取錯過消息。(即使沒有checkpoint) 不開自動提交的話

原创 Java NIO Selector

Selector(選擇器)是Java NIO中能夠檢測一到多個NIO通道,並能夠知曉通道是否爲諸如讀寫事件做好準備的組件。這樣,一個單獨的線程可以管理多個channel,從而管理多個網絡連接。 爲什麼使用Selector? 僅用單個線程來

原创 Maven構建Hadoop工程

前言 爬取噹噹網圖書出版信息,並統計每年每月出版總量 使用python將數據進行處理,拋棄無用數據後只剩下出版日期 然後就和wordcount一樣了 一、Hadoop依賴 hadoop-common hadoop-hdfs hadoo

原创 Java NIO Channel

Java NIO的通道類似流,但又有些不同: 既可以從通道中讀取數據,又可以寫數據到通道。但流的讀寫通常是單向的。 通道可以異步地讀寫。 通道中的數據總是要先讀到一個Buffer,或者總是要從一個Buffer中寫入。 正如上面所說,

原创 Windows10下安裝Scrapy

本篇主要介紹如何在Windows下如何安裝scrapy 環境:Win10(64位), Python3.6(64位) 打開命令行窗口,確認Python和pip被正確安裝 python -V pip -V 安裝wheel pi

原创 大數據踩過的一些錯誤

IDEA本地運行Spark配置log4j過濾Spark INFO信息 提示:Using Spark’s default log4j profile: org/apache/spark/log4j-defaults.properties 點

原创 Maven 本地倉庫的配置 以及與 Idea 配置

來到新公司實習,沒有Maven感覺很難受,決定自己配一個 下載地址: http://maven.apache.org/download.cgi 下載Maven3.0,比以前的Maven 2性能更好,而且完全兼容Maven 2。 注意 :

原创 HBase體系結構

一、hbase是什麼? HBase —— Hadoop Database的簡稱,Google BigTable的另一種開源實現方式,從問世之初,就爲了解決用大量廉價的機器高速存取海量數據、實現數據分佈式存儲提供可靠的方案。從功能上來講,H

原创 Kafka producer無法發送消息解決辦法

在虛擬機搭建了kafka集羣,在集羣內使用Shell可以成功發送消息創建Topic。 但是在外部使用API無法發送消息,但是能創建topic 具體原因 Hostname and port the broker will adverti

原创 HBase命令筆記

記憶力太不好了,決定寫到博客實時查詢。 名稱 命令表達 創建表 create ‘表名’, ‘列族名1’,’列族名2’,’列族名N’ 查看所有表 list 描述表 describe ‘表名’ 判斷表存在 exist

原创 Java NIO Buffer

Java NIO中的Buffer用於和NIO通道進行交互。如你所知,數據是從通道讀入緩衝區,從緩衝區寫入到通道中的。 緩衝區本質上是一塊可以寫入數據,然後可以從中讀取數據的內存。這塊內存被包裝成NIO Buffer對象,並提供了一組方法,