原创 日誌採集Flume介紹

Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統。Flume基於流式架構,靈活簡單。 Flume的優點 可以和任意存儲進程集成。 輸入的的數據速率大於寫入目的存儲的速率,flume會進行緩

原创 數據倉庫中的元數據管理

本文主要介紹什麼是元數據、爲什麼要管理元數據、怎樣管理元數據。 1、什麼是元數據?       狹義的解釋是用來描述數據的數據;廣義的來看,除了業務邏輯直接讀寫處理的那些業務數據,所有其它用來維持整個系統運轉所需的信息、數據都可以叫作元數

原创 Flume的Sink類型

1、HDFS Sink 該sink把events寫進Hadoop分佈式文件系統(HDFS)。它目前支持創建文本和序列文件。它支持在兩種文件類型壓縮。文件可以基於數據的經過時間或者大小或者事件的數量週期性地滾動。它還通過屬性(如時間戳或發生

原创 元數據管理

本文主要介紹什麼是元數據、爲什麼要管理元數據、怎樣管理元數據。 1、什麼是元數據?       狹義的解釋是用來描述數據的數據;廣義的來看,除了業務邏輯直接讀寫處理的那些業務數據,所有其它用來維持整個系統運轉所需的信息、數據都可以叫作元數

原创 ElasticSerach單機安裝

192.168.14.10     root  elk /home/elk/soft   [root@localhost elasticserach]# tar -zxvf elasticsearch-6.3.1.tar.gz   [ro

原创 Python引用

在 Python 中,變量也稱爲對象的引用。因爲變量存儲的就是對象的地址。變量通過地址引用了“對象”。 變量位於棧內存(壓棧出棧等)。 對象位於堆內存。 Python 是動態類型語言,變量不需要顯式聲明類型。根據變量引用的對象,Pytho

原创 Flume的Channel分類

channel可以理解爲一種臨時的存儲,source將event放入channel ,sink取走它。flume提供了四種可以用於生產環境的channel。 1.Memory Channel 基於內存的channel,實際就是將event

原创 python中對象的本質

Python 中一切皆對象。每個對象由:標識(identity)、類型(type)、value(值)組成。 1. 標識用於唯一標識對象,通常對應於對象在計算機內存地址。使用內置函數 id(obj)可返回對象 obj 的標識。 2. 類型用

原创 Elasticsearch存儲方式

Elasticsearch存儲方式 (1)面向文檔 Elasticsearch是面向文檔(document oriented)的,這意味着它可以存儲整個對象或文檔(document)。然而它不僅僅是存儲,還會索引(index)每個文檔的內

原创 Elasticsearch檢索

檢索文檔 Mysql : select * from user where id = 1 ES : GET /atguigu/doc/1 響應: {   "_index" :   "megacorp",   "_type" :    "

原创 Flume介紹

Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的系統。Flume基於流式架構,靈活簡單。 Flume的優點 可以和任意存儲進程集成。 輸入的的數據速率大於寫入目的存儲的速率,flume會進行緩

原创 Python中sub()用法

Python來進行查詢和替換一個文本字符串? 可以使用sub()方法來進行查詢和替換,sub方法的格式爲:sub(replacement, string[, count=0]) replacement是被替換成的文本 string是需要被

原创 Python字符串雜談

一、轉義字符           描述 \(在行尾時)       續行符 \\                反斜槓符號 \'                單引號 \"                雙引號 \b          

原创 元數據作用

元數據作用 與其說數據倉庫是軟件開發項目,還不如說是系統集成項目,因爲它的主要工作是把所需的數據倉庫工具集成在一起,完成數據的抽取、轉換和加載,OLAP分析和數據挖掘等;元數據在數據倉庫中起到了承上啓下得作用。 具體表現如下: 1.元數據

原创 Hbase介紹(掃盲篇)

HBASE在大數據是的這麼火,它究竟是個啥東西?本掃盲篇雖然是網絡上收集而來,但是是我覺得介紹的最好,最透徹的文章。要想用的好,先要了解她的前世今生,這樣才能對它產生興趣。 HBase 概述 HBase是Hadoop的生態系統,是建立在H