原创 elasticsearch 圖形管理破解 x-pack
轉自 https://blog.51cto.com/mstools/2119168 安裝 elastic x-pack /usr/share/elasticsearch/bin/elasticsearch-plugin instal
原创 spark on yarn & spark on hive & spark-sql on hive
--------------------------------------------------------------------------------------------------------------------- 一
原创 反開源爬蟲 robot.txt
搜索引擎通過一種程序“蜘蛛”(又稱spider),自動訪問互聯網上的網頁並獲取網頁信息。您可以在您的網站中創建一個純文本文件robots.txt,在這個文件中聲明該網站中不想被蜘蛛訪問的部分,這樣,該網站的部分或全部內容就可以不被搜索引擎
原创 hive搭建
1.簡單啓動 hive下載官方包解壓進入bin目錄可以直接使用./hive進入客戶端 2.元數據 這時創建數據庫與表,(沒有配置元數據,元數據使用默認的derby內嵌的方式),會在當前目錄下創建metastore_db目錄作爲元數據目錄,
原创 spark on hive
scala 編寫spark on hive的程序 pom依賴 使用sparksql創建hive表
原创 spark sql demo
pom依賴 <properties> <maven.compiler.source>1.8</maven.compiler.source> <maven.compiler.target>1.8</m
原创 spark-sql
使用sparkSession獲取內容 列式存儲 ~~~~~~~~~~~~~~~~~~~~~~~~~~~DSL語法~~~~~~~~~~~~~~~~~~~~~~~~~~ 獲取單個字段
原创 maven scala依賴
<properties> <scala.version>2.11.8</scala.version> </properties> <dependencies> <dependen
原创 ceshi
有效範圍 編輯 鍵盤 系統級快捷鍵可以全局響應,不論當前焦點在哪裏、運行什麼程序,按下時都能起作用; 應用程序級熱鍵只能在當前活動 [1] 的程序中起作用,當應用程序熱鍵的定義程序不活動或在後臺運行時,熱鍵就無效了; 控件級的熱鍵則僅在
原创 GC
-XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:${LOG_DIR}/${APP_NAME}/GC_${APP_NAME}.log 配置參數 功能 -Xm
原创 java gc日誌配置
-XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -Xloggc:${LOG_DIR}/${APP_NAME}/GC_${APP_NAME}.log
原创 MLlib spark 垃圾郵件分類
pom依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version
原创 spark流式計算的檢查點恢復
pom依賴 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>1
原创 spark自定義序列化
序列化簡單示例 1.創建系序列化類 import com.esotericsoftware.kryo.Kryo; import org.apache.spark.serializer.KryoRegistrator; public c
原创 日誌logback.xml
pom依賴 <dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.10.1</version>