原创 bashdb的源碼安裝

1.先查看linux的bash版本 bash --version If your version of bash is 4.3 or higher, use folder 4.3-0-91 If your version of

原创 hive文件存儲格式orc,parquet,avro對比

orc文件存儲格式 ORC文件也是以二進制方式列式存儲的,所以是不可以直接讀取,ORC文件也是自解析的,它包含許多的元數據,這些元數據都是同構ProtoBuffer進行序列化的。文件結構如下 ORC文件:保存在文件系統上的普

原创 linux下python從2.6.6升級到2.7.5

python從2.6.6 升級到2.7.5 1.先確定自己裝了wget 和 gcc yum install wget yum install gcc 2.下載源碼包 wget https://www.python.org/ftp

原创 Spark中DF落地到hive中進行動態分區以及小文件問題

五個注意點 hive的動態分區需要開啓非嚴格模式 set hive.exec.dynamic.partition.mode=nonstrict insertInto方式不支持分區表數據導入 saveAsTable與insertI

原创 解決linux安裝jdk後 java -version版本不一致問題

修改/etc/profile 將PATH中$ JAVA_HOME/bin移動到$PATH前面

原创 flume組件詳解與測試案例,安裝

Flume 概念: Flume是一種分佈式、可靠且可用的服務,用於高效地收集、聚合和移動大量日誌數據。它具有基於流數據流的簡單 靈活的體系結構。它具有健壯性和容錯性,具有可調的可靠性機制和許多故障轉移和恢復機制。它使用一個簡單

原创 HDSF+Zookeeper實現高可用(三臺機器)

1.zookeeper配置(在2.4步驟執行之後再配置) https://blog.csdn.net/qq_44170834/article/details/100139214 2.hadoop配置 2.1 安裝jdk (自己上傳

原创 hive的內部表外部表區別

hive的內部表外部表區別 在本地創建數據文件並put到hdfs中 #a.txt 10 15 20 25 30 35 hdfs dfs -put ./a.txt /user/sample crea

原创 sqoop export數據覆蓋分析

1.Sqoop export簡介 Sqoop export工具被用來將文件集合從HDFS中導入到關係型數據庫中。 目標表必須事先已經在數據庫中創建好。輸入文件根據用戶指定的分隔符被讀取解析成記錄集。 Sqoop默認的是將這些操作

原创 LZO壓縮的安裝配置與測試

LZO的安裝配置 1.1 在hadoop集羣每個節點上安裝lzo和lzop及其依賴(主要爲解決安裝lzop): [root@hadoop01 ~]# yum -y install *lzo* [root@hadoop02 ~]

原创 hue安裝(maven、ant編譯)

Centos6.8安裝HUE HUE 在編譯時有兩種方式: 1.通過maven、ant編譯 2.通過python編譯(在centos6.5因爲自身python爲2.6.6版本和hue編譯需要2.7版本會有一點小衝 突,故採用1)

原创 Datax安裝與實例

1.datax下載 點擊下載 2.配置 爲了方便操作,在/etc/profile下配置DATAX_HOME,並將bin目錄導入PAHT 3.測試 python $DATAX_HOME/bin/datax.py {YOUR_

原创 hive的存儲過程 hplsql配置

hive2.x自帶hplsql 如果用的hive1.x需要下載hplsql 1.配置 hplsql-site.xml 在hive的conf下新建 hplsql-site.xml 並添加以下內容 <configuratio

原创 git的安裝與基礎使用

1.git簡介 Git是一個免費的開源分佈式版本控制系統,可以快速高效地處理從小型到大型的項目。Git很容易學習,佔用的空間很小,但是性能非常好。它超越了像Subversion、CVS、Perforce和ClearCase這樣

原创 源碼解讀兩個JSONObject的equals方法

alibaba.fastjson源碼分析JSONObject的equals方法 JSONObject的創建 //默認創建一個空的JSONObject 底層使用的是hashMap //hashMap內部是按照key的ASCII碼進行