原创 異常--Could not start ZK at requested port of 2181

HMaster和HRegionServer是Hbase的兩個子進程,但是使用jps發現沒有啓動起來,所以去我們配置的logs查看錯誤信息。提示: Could not start ZK at requested port of 2181.

原创 MapReduce原理簡介

MapReduce的起源&簡介 MapReduce("Map(映射)"和"Reduce(歸約))是一種編程模型,用於大規模數據集(大於1TB)的並行運算。它的核心思想來源於Google在2004年12月發表的一篇MapReduce論文:O

原创 騰訊大數據之TDW計算引擎解析——Shuffle

騰訊分佈式數據倉庫(Tencent distributed Data Warehouse, 簡稱TDW)基於開源軟件Hadoop和Hive進行構建,並且根據公司數據量大、計算複雜等特定情況進行了大量優化和改造,目前單集羣最大規模達到560

原创 Mac終端提示Could not determine audit condition

原因:自己修改了系統變量 結果:導致終端顯示進程已完成 錯誤信息:login: Could not determine audit condition  [Process completed] 解決方案:打開Finder(shift+Co

原创 mac下編譯hadoop3.0.*版本的native lib

編譯好的hadoop3.0.2的native 見 https://download.csdn.net/download/qq_14811559/10413344 本人的hadoop版本爲3.0.0,用3.0.2源碼編譯的也可以。 一、問題

原创 國家統計局爬蟲樣例

  items.py  import scrapy class NewsItem(scrapy.Item): # define the fields for your item here like: # name =

原创 Linux輸出重定向

標準輸入輸出 輸出重定向 > 代表以覆蓋的方式將命令的正確輸出輸出到指定的文件或設備當中。  >> 代表以追加方式輸出。  正確輸出和錯誤輸出同時保存 [kathy@localhost testDir]$ ll total 8

原创 用Crontab定時運行scrapy爬蟲

腳本如下: export LANG=zh_CN.UTF-8 spider1='spider1' kill -9 `ps -ef | grep $spider1 | grep -v grep | awk '{print $2}'` cd

原创 數倉分層

數據倉庫和數據倉庫分層 數據倉庫的概念 數據倉庫,英文名稱爲Data Warehouse,可簡寫爲DW或DWH。數據倉庫,是爲企業所有級別的決策制定過程,提供所有類型數據支持的戰略集合。它是單個數據存儲,出於分析性報告和決策支持目的而創建

原创 python+selenium+webdriver 截取全頁面長圖

有的時候我們要截取整個頁面,而不是當前的屏幕。 python+selenium+webdriver 截取全頁面長圖: from selenium import webdriver import time import os.path i

原创 scrapy高階技巧+++FilesPipeline和ImagesPipeline(文件下載)

參考文章: https://blog.csdn.net/qq_43537354/article/details/88360636 https://doc.scrapy.org/en/1.3/topics/media-pipeline.h

原创 數據字典及其使用

數據字典 什麼是數據字典 將如下這些具有相同類型的配置項,配置到系統的數據字典表中,方便系統維護,由超級管理員統一在後臺進行數據字典維護,如果用戶需求要增加變更配置項,只需要修改數據字典表記錄即可,不需要修改代碼。 數據字典需求 相同類

原创 Kafka學習之路 (二)Kafka的架構

目錄 一、Kafka的架構 二、Topics和Partition 三、Producer消息路由 四、Consumer Group 五、Push vs. Pull 六、Kafka delivery guarantee 一、Kafka的架構

原创 kafka集羣管理工具kafka-manager部署安裝

一、kafka-manager 簡介 爲了簡化開發者和服務工程師維護Kafka集羣的工作,yahoo構建了一個基於Web的Kafka集羣管理工具,叫做 Kafka Manager。這個管理工具可以很容易地發現分佈在集羣中的哪些topic分

原创 Docker容器的數據管理

什麼是數據卷(Data Volume) 數據卷是經過特殊設計的目錄,可以繞過聯合文件 UFS,爲一個或者多個容器提供訪問。 其設計目的在於數據的永久化,數據卷是存在於宿主機中的文件或者目錄,因此它與Docker容器的生命週期是完全分離的,