原创 XML文件中不允許出現的字符

一共有五個: 所有的特殊字符對應的編碼:   特殊字符 代替符號 特殊原因 & &amp;    每一個代表符號的開頭字符 > &gt;   標記的結束字符 <  &lt;  標記的開始字符 "  &quot;   設定屬性值 '   

原创 superset的docker安裝配置和漢化

1.docker拉去superset鏡像 docker pull amancevice/superset 2.啓動容器 1.啓動容器 docker run -d -p 8188:8088 --name superset -v /opt/d

原创 CDH配置JAVA_HOME

jdk成功安裝 java -version 正確顯示版本 echo $JAVA_HOME  正確輸出路徑 但CDH鏈接數據庫還是報錯: Error: JAVA_HOME is not set and Java could not be f

原创 基於docker簡單快速搭測試大數據集羣

作爲一個大數據的學習者,有時候我們希望基於自己的筆記本中虛擬機簡單配置一個大數據集羣用於測試,如果基於cdh在多個虛擬機中配置集羣可能對筆記本的硬件要求會很高。其實有更簡單快速基於docker的搭建方式,以下方式親測可用. 前期需要準備的

原创 hdfs命令響應特別慢的問題

在集羣的客戶端使用hdf命令去查詢的時候,出現一個響應特別慢的情況。同樣的兩個客戶端節點,一個秒回,但是另一個可能需要數十秒才能響應。最終發現響應特別慢的原因是因爲沒有將hostname配置到/etc/hosts文件中

原创 別隻用 Selenium,新神器 Pyppeteer 繞過淘寶更簡單!

如果大家對 Python 爬蟲有所瞭解的話,想必你應該聽說過 Selenium 這個庫,這實際上是一個自動化測試工具,現在已經被廣泛用於網絡爬蟲中來應對 JavaScript 渲染的頁面的抓取。 但 Selenium 用的時候有個麻煩事,

原创 superset權限管理

Superset支持用戶自定義創建一個角色,例如:您可以創建一個角色Financial Analyst,該角色將由一組數據源(表)和/或數據庫組成。然後用戶將被授予Gamma,sql_lab,或者自定義角色都可以。 Superset的默認

原创 scala 偏函數與 map/collect

0. collect 與 map 的區別 由於collect方法接收的是一個偏函數類型,所以它並不能接收一個lambda表達式: scala> List(1, 3, 5, "seven").collect(i => i + 1) err

原创 實用運維腳本

近期要做一些集羣的維護工作,打算開發一些實用的腳本協助集羣的管理: 1、實現多機操控和文件複製 實現基於sshpass模塊的遠程操作和批量複製,依賴前體要通過離線或者在線的方式在運行腳本的機器上安裝sshpass命令(Python2和使用

原创 shell中export的作用和點空格運行腳本的意思

一直對shell中export 變量這個概念理解的模模糊糊,今天就來總結下。 在命令行中定義變量很簡單,如下: [root@zhenglq ~]#VAR=zhenglq [root@zhenglq ~]#echo $VAR zhenglq

原创 【Flink原理和應用】:分佈式快照算法—— Chandy-Lamport 算法

引言 Spark 的 Structured Streaming 的 Continuous Processing Mode 的容錯處理使用了分佈式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那麼

原创 Lombok插件的安裝與使用

1)lombok介紹 lombok能夠極大的簡化消除我們寫的代碼,使用註解的方式省略get set toString….等方法,使得代碼看起來更加的美觀。lombok是在編譯時候生成對應的方法的,所以在性能上面大家完全不用擔心,是與我們

原创 IntelliJ IDEA個人常用設置

1設置主題 下載地址:http://www.easycolor.cc/intelliJidea/list.html 配置方法:File - >Import Seting..  導入主題重啓即可 修改主題:File->Settings->

原创 CentOS 7鏡像下載

官網下載鏈接:http://isoredirect.centos.org/centos/7/isos/x86_64/ step1: 進入下載頁,選擇阿里雲站點進行下載 Actual  Country 國內資源               

原创 java基於函數作爲參數的文本工具類

日常開發中經常碰到一些需要對文件處理的需求。一般有可能是過濾、解析裏邊指定字段然後存儲在指定的集合結構中;又或者是對每行數據做一些操作。這些東西常常是大同小異。因此嘗試封裝了一個簡單的工具類,用於減少重複代碼,只寫自己的業務邏輯。 im