原创 elasticsearch 圖形管理破解 x-pack

轉自 https://blog.51cto.com/mstools/2119168   安裝 elastic x-pack /usr/share/elasticsearch/bin/elasticsearch-plugin instal

原创 spark on yarn & spark on hive & spark-sql on hive

--------------------------------------------------------------------------------------------------------------------- 一

原创 反開源爬蟲 robot.txt

搜索引擎通過一種程序“蜘蛛”(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被蜘蛛訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎

原创 hive搭建

1.簡單啓動 hive下載官方包解壓進入bin目錄可以直接使用./hive進入客戶端 2.元數據 這時創建數據庫與表,(沒有配置元數據,元數據使用默認的derby內嵌的方式),會在當前目錄下創建metastore_db目錄作爲元數據目錄,

原创 spark on hive

scala  編寫spark on hive的程序 pom依賴   使用sparksql創建hive表                        

原创 spark sql demo

pom依賴   <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</m

原创 spark-sql

            使用sparkSession獲取內容     列式存儲         ~~~~~~~~~~~~~~~~~~~~~~~~~~~DSL語法~~~~~~~~~~~~~~~~~~~~~~~~~~ 獲取單個字段

原创 maven scala依賴

<properties> <scala.version>2.11.8</scala.version> </properties> <dependencies> <dependen

原创 ceshi

有效範圍 編輯 鍵盤 系統級快捷鍵可以全局響應,不論當前焦點在哪裏、運行什麼程序,按下時都能起作用; 應用程序級熱鍵只能在當前活動 [1]  的程序中起作用,當應用程序熱鍵的定義程序不活動或在後臺運行時,熱鍵就無效了; 控件級的熱鍵則僅在

原创 GC

-XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:${LOG_DIR}/${APP_NAME}/GC_${APP_NAME}.log   配置參數 功能 -Xm

原创 java gc日誌配置

-XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:${LOG_DIR}/${APP_NAME}/GC_${APP_NAME}.log

原创 MLlib spark 垃圾郵件分類

pom依賴   <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version

原创 spark流式計算的檢查點恢復

pom依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>1

原创 spark自定義序列化

序列化簡單示例 1.創建系序列化類 import com.esotericsoftware.kryo.Kryo; import org.apache.spark.serializer.KryoRegistrator; public c

原创 日誌logback.xml

pom依賴 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.1</version>