原创 Hadoop單節點設置

Hadoop單節點設置 目的 先決條件 支持平臺 必備軟件 安裝軟件 下載 準備啓動Hadoop集羣 獨立運行 僞分佈式操作 組態 設置無密碼SSH 執行 在單個節點上的YARN 全分佈式運行 目的 本文檔介紹瞭如何設置和配置單節點H

原创 Hadoop 3.0的新增功能– Apache Hadoop 3的增強功能

這個“ Hadoop 3.0的新功能 ”博客着重介紹了Hadoop 3預期中的更改,因爲它仍處於Alpha階段。Apache社區已合併了許多更改,並且仍在進行某些更改。因此,我們將更廣泛地看待預期的變化。 我們將討論的主要變化是: Had

原创 在Linux平臺上安裝JDK

用於Linux平臺的JDK安裝 該頁面描述了JDK for Linux系統要求,並提供了幾種JDK-Linux組合的安裝說明。 此頁面包含以下主題: “系統要求” “ JDK 8安裝說明” “常規安裝說明” 有關安裝JDK 8和JRE 8

原创 Hadoop生態系統:用於處理大數據的Hadoop工具

HADOOP生態系統 在上一個Hadoop Tutorial上的博客中,我們討論了Hadoop,其功能和核心組件。現在,下一步是瞭解Hadoop生態系統。在開始使用Hadoop之前,這是一個必不可少的主題。 這個Hadoop生態系統博客將

原创 Hadoop 從HDFS中刪除文件、文件夾命令

Hadoop 從HDFS中刪除文件命令: hadoop fs -rm -r -skipTrash /path_to_file/file_name 例如: hadoop fs -rm -r -skipTrash /user/exampl

原创 Spark獨立模式

Spark獨立模式 安全 將Spark Standalone安裝到集羣 手動啓動集羣 羣集啓動腳本 將應用程序連接到集羣 啓動Spark應用程序 資源調度 執行器調度 監控和記錄 與Hadoop一起運行 配置端口以實現網絡安全 高可用性

原创 Spark教程:實時集羣計算框架

Apache Spark是一個用於實時處理的開源集羣計算框架。它是Apache Software Foundation中最成功的項目。顯然,Spark已經發展成爲大數據處理的市場領導者。如今,Spark已被亞馬遜,eBay和Yahoo!等

原创 結構化數據、半結構化數據和非結構化數據

計算機系統中的數據分爲結構化數據、半結構化數據和非結構化數據。 結構化數據 由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規範。也稱作行數據,數據以行爲單位,一行數據表示一個實體的信息,每一行數據的屬性是相同的。主要通過關係

原创 Amazon Kinesis

Amazon Kinesis 實時輕鬆收集、處理和分析視頻和數據流 Amazon Kinesis 可讓您輕鬆收集、處理和分析實時流數據,以便您及時獲得見解並對新信息快速做出響應。Amazon Kinesis 提供多種核心功能,可以經濟高效

原创 CentOS 7 安裝 Netcat

cd /usr mkdir netcat cd netcat yum install wget wget http://sourceforge.net/projects/netcat/files/netcat/0.7.1/netcat-0

原创 GNU Netcat 項目

什麼是網貓?     Netcat是一種功能強大的聯網實用程序,可使用TCP / IP協議跨網絡連接讀取和寫入數據。 它被設計爲可靠的“後端”工具,可以直接使用或由其他程序和腳本輕鬆驅動。同時,它是功能豐富的網絡調試和探索工具,

原创 語言手冊ORC

ORC文件   ORC文件 ORC文件格式 檔案結構 條紋結構 HiveQL語法 序列化和壓縮 整數列序列化 字符串列序列化 壓縮 ORC文件轉儲實用程序 ORC配置參數 ORC格式規範   ORC文件格式 版 在Hive版

原创 DQL、DML、DDL、DCL的概念與區別

一、SQL語言 SQL(Structure Query Language)語言是數據庫的核心語言。 SQL的發展是從1974年開始的,其發展過程如下: 1974年-----由Boyce和Chamberlin提出,當時稱SEQUEL。 19

原创 Spark Streaming輸入DStreams和接收器 文件流 例子

文件流 要從與HDFS API兼容的任何文件系統(即HDFS,S3,NFS等)上的文件中讀取數據,可以通過創建DStream StreamingContext.fileStream[KeyClass, ValueClass, InputF

原创 DStream上的輸出操作

DStream上的輸出操作 輸出操作允許將DStream的數據推出到外部系統,例如數據庫或文件系統。由於輸出操作實際上允許外部系統使用轉換後的數據,因此它們會觸發所有DStream轉換的實際執行(類似於RDD的操作)。當前,定義了以下輸出