原创 Hive 中SerDe概述

一、背景 1、當進程在進行遠程通信時,彼此可以發送各種類型的數據,無論是什麼類型的數據都會以二進制序列的形式在網絡上傳送。發送方需要把對象轉化爲字節序列纔可在網絡上傳輸,稱爲對象序列化;接收方則需要把字節序列恢復爲對象,稱爲對象的反序列化

原创 mongodb數據庫命令操作

上一節我們講解了對於MongoDB的一些認識和概念,那麼接下來就要切實步入mongodb的學習中了。 mongodb不像關係型數據庫有很強大的GUI客戶端,雖然mongodb也有,但功能和穩定性實在不敢恭維,所以操作mongodb我們大

原创 Spark程序模型

下面通過一個經典的示例程序來初步瞭解Spark的計算模型,過程如下。   1)SparkContext中的textFile函數從HDFS讀取日誌文件,輸出變量file。 val file=sc.textFile("hdfs://x

原创 SQL中LIKE模糊查詢與REGEXP用法說明

最近在優化WordPress數據庫的時候,對一些問題通常都是通過搜索來尋求答案,不過在這期間,大多數的WordPress都用到了模糊查詢來進行數據庫

原创 流式大數據處理的三種框架:Storm,Spark和Samza

許多分佈式計算系統都可以實時或接近實時地處理大數據流。本文將對三種Apache框架分別進行簡單介紹,然後嘗試快速、高度概述其異同。 Apache Storm 在Storm中,先要設計一個用於實時計算的圖狀結構,我們稱之爲拓撲(topol

原创 Apache Kafka:下一代分佈式消息系統

簡介 Apache Kafka是分佈式發佈-訂閱消息系統。它最初由LinkedIn公司開發,之後成爲Apache項目的一部分。Kafka是一種快速、可擴展的、設計內在就是分佈式的,分區的和可複製的提交日誌服務。 Apache Kafka與

原创 Impala:新一代開源大數據分析引擎

原文發表在《程序員》雜誌2013年第8期,略有刪改。 文 / 耿益鋒 陳冠誠  大數據處理是雲計算中非常重要的問題,自Google公司提出MapReduce分佈式處理框架以來,以Hadoop爲代表的開源軟件受到越來越多公司的重視和青睞。

原创 Spark 學習入門教程

一、環境準備 測試環境使用的cdh提供的quickstart vm Hadoop版本:2.5.0-cdh5.2.0 Spark版本:1.1.0 二、Hello Spark 將/usr/lib/spark/examples/lib/spa

原创 kafka學習筆記:知識點整理

一、爲什麼需要消息系統 1.解耦:   允許你獨立的擴展或修改兩邊的處理過程,只要確保它們遵守同樣的接口約束。 2.冗餘:   消息隊列把數據進行持久化直到它們已經被完全處理,通過這一方式規避了數據丟失風險。許多消息隊列所採用的"插入

原创 Thrift

Thrift  是什麼?   Thrift源於大名鼎鼎的facebook之手,在2007年facebook提交Apache基金會將Thrift作爲一個開源項目,對於當時的facebook來說創造thrift是爲了解決facebook系統

原创 linux查找目錄下的所有文件中是否含有某個字符串

查找目錄下的所有文件中是否含有某個字符串 find .|xargs grep -ri "IBM" 查找目錄下的所有文件中是否含有某個字符串,並且只打印出文件名 find .|xargs grep -ri "IBM" -l 1.正則表達式 

原创 spark所支持的文件格式

spark所支持的文件格式   1.文本文件 在 Spark 中讀寫文本文件很容易。 當我們將一個文本文件讀取爲 RDD 時,輸入的每一行 都會成爲 RDD 的 一個元素。 也可以將多個完整的文本文件一次性讀取爲一個 pair RDD

原创 面向 DBA 的 Linux Shell 腳本簡介

面向 DBA 的 Linux Shell 腳本簡介 作者:Casimir Saternos 學習一些在 Linux 上安裝、運行和維護 Oracle 數據庫所需的基本 bash shell 腳本。 本文相關下載: 示例腳本 Orac

原创 hive 內部表和外部表的區別和理解

1.創建內部表與外部表的區別是什麼? 2.external關鍵字的作用是什麼? 3.外部表與內部表的區別是什麼? 4.刪除表的時候,內部表與外部表有什麼區別? 5.load data local inpath '/home/wyp/dat

原创 spark學習-16-Spark的Map()和FlatMap()函數使用

原文鏈接:https://blog.csdn.net/qq_21383435/article/details/77477681 版權聲明:本文爲博主原創文章,遵循 CC 4.0 BY-SA 版權