原创 數據倉庫(三)功能流程介紹

數據倉庫技術 https://blog.csdn.net/zzq900503/article/details/78405958#commentBox 從功能結構劃分,數據倉庫系統至少應該包含數據獲取(Data Acquisitio

原创 kafka原理系列之(六)如何動態修改Kafka Topic的分區副本數

一、內容簡介 Kafka提供了一個工具,用於調整Topic中各個分區的複本數據。工具名稱叫kafka-reassign-partitions.sh。 創建一個Topic,共2個分區,副本數爲2(共2份,含原始數據):查看該Topi

原创 HIVE數據處理(一)文件導入到hive的表的幾種方式以及刪除表異常處理

文件導入到hive的表的幾種方式 1、普通的hive表 1)本地文件加載到hive load data local inpath ‘/home/xuyou/sqoop/imp_bbs_product_sannpy_’ into t

原创 kafka原理系列之(五)(如何確定Kafka分區個數)

一. Kafka的分區數是不是越多越好? 1、 分區多的優點 Kafka使用分區將topic的消息打算到多個分區分佈保存在不同的broker上,實現了producer和consumer消息處理的高吞吐量。 Kafka的produc

原创 mysql基本操作系列之(一)增刪改查

一、數據庫管理和存儲引擎 MySQL是一個關係型數據庫管理系統,存儲引擎是數據庫管理系統用來從數據庫創建、讀取和更新數據的軟件模塊。 常用的存儲引擎: 1)INNODB 存儲格式:.frm(表結構), 數據和索引存儲在表空間裏,

原创 Linux的實用命令(五)之文件搜索和yum/rpm

文件搜索 find / -name file1 從 ‘/’ 開始進入根文件系統搜索文件和目錄 find / -user user1 搜索屬於用戶 ‘user1’ 的文件和目錄 find /home/user1 -name *.bi

原创 HIVE實戰處理(一)統計用戶連續登錄天數

1、根據附件創建臨時表 drop table temp.tmp_test_room; create table temp.tmp_test_room ( roomid string,

原创 python的高級特性總結

Python高級特性使用總結: 1、在Python中,函數的參數可以有默認值,也支持使用可變參數, 所以Python並不需要像其他語言一樣支持函數的重載,在參數名前面的*表示args是一個可變參數 2、python裏面的分片,針對

原创 網絡工具系列之(一)MAC和window通過有線連接傳輸文件

MAC和window通過有線連接傳輸文件,以下是ssh命令行的方式。 1、打開windows的命令行 win+R 輸入ipconfig 找到對應的ip地址。 2、在mac終端命令行上輸入ifconfig 之後兩邊雙向ping

原创 Kettle實戰(一)從Hbase導入數據至Mysql

一、連接Hadoop集羣與MySQL 1、 下載當前集羣的Hbase配置文件,首先你的有下載的權限。 2 解壓改配置文件至cdh510目錄下 3 修改D:\kettle\data-integration\plugins\pen

原创 HIVE實戰處理(四)大數據量導入hive動態分區異常處理

一、分區表的場景 分區是在處理大型事實表時常用的方法。 分區的好處在於縮小查詢掃描範圍,從而提高速度。 分區分爲兩種:靜態分區static partition和動態分區dynamic partition。 靜態分區和動態分區的區別

原创 HIVE實戰處理(三)hive的壓縮格式以及壓縮文件導入hive實戰

一、存儲 行存儲的特點: 查詢滿足條件的一整行數據的時候,列存儲則需要去每個聚集的字段找到對應的每個列的值,行存儲只需要找到其中一個值,其餘的值都在相鄰地方,所以此時行存儲查詢的速度更快。 列存儲的特點: 因爲每個字段的數據聚集存

原创 HIVE實戰處理(三)beeline和hive的區別

一、調度腳本 1、通過hive/beeline的方式 一般情況下的hive之間的數據的轉換的話,是通過kettle工具執行的,所以也是在調度的時候傳入kettle的執行腳本kitchen.sh。 一般操作: 一般生產多使用ETL工

原创 HIVE實戰處理(二)hive、hbase、phoenix實戰

1 、準備hive數據 需求:數據從hive到hbase這個部分數據已經落地,但是hbase不支持多級查詢,所以要切換到phoenix做hive集成phoenix。 巨坑!!! 本來是數據hive是在數據倉庫這邊是多列的,之前的方

原创 Kettle部署文檔

一、簡單介紹 Kettle是一款國外開源的ETL工具,純java編寫,可以在Window、Linux、Unix上運行,綠色無需安裝,數據抽取高效穩定。 Kettle 中文名稱叫水壺,該項目的主程序員MATT 希望把各種數據放到一個