原创 java- UUID類

如果現在需要我們隨機生成一個不會重複的字符串,我們有什麼解決方案? 一般比較好的算法是:電腦的IP地址+時間戳+加任意位數的隨機數+移位操作=幾乎不會重複的隨機字符串。在設計程序的時候如果由用戶自己來處理相關操作太過於麻煩,Jav

原创 javaWebv-spring-Boot註解速查

1.@RequestParam @RequestMapping("/menuQuery") public Object meanQuery(@RequestParam Integer id){ ...... ......省略代

原创 spark-SaprkSQL:缺失值處理,聚合操作,連接操作,UDF函數,窗口函數

1.缺失值處理 SparkSQL提供了DataFrameNaFunctions缺失值處理框架,使用Dataset的na函數來獲取 (1)如何使用 SparkSQL 處理 null 和 NaN ? 首先要將數據讀取出來, 此次使用的

原创 大數據組件-sparkSQL:DataSet基礎操作:有類型的轉換算子,無類型的轉換算子速查表

目錄標題1.有類型的轉換算子(1)轉換1.flatMap2.map3.mapPartitions4.transform5.as(2)過濾1.filter(3)聚合1.groupByKey(4)切分1.randomSplit2.sa

原创 工具類-scala讀取resources下的application.conf這個自定義配置文件內容

1.簡單舉例講解 (1)在idea中讀取配置文件: 使用ConfigFactory類讀取application.conf配置文件 注意:這個類只能讀取idea中resources文件夾下的application.conf文件,文件

原创 大數據基礎-全流程大數據實驗環境搭建,幫你邁出第一步

Linux版本Centos6.9 版本不一致,會導致一部分linux命令不一樣 用戶:root 密碼:123456 mysql密碼:123456 目錄搭建的前準備工作1.windows系統確定所有的關於VmWare的服務都已經啓動

原创 Spark/Utils-實現Spark的內置離線監控(細粒度任務的監控和異常報警)---1.實現郵件發送模塊的開發

import javax.mail.Authenticator; import javax.mail.Message.RecipientType; import javax.mail.PasswordAuthentication;

原创 大數據疑難雜症-使用CDH啓flume他有時候監聽不到文件夾數據(CDH的一個bug)

1.問題描述: 使用CDH啓動flume,flume他有時候監聽不到文件夾數據是一個CDH的一個bug 2.解決方案: (1)殺死flume進程 使用以下命令執行多次殺死flume進程,然後手動啓動flume。 [root@nod

原创 kafka-KafkaManager工具安裝

1.kafka-manager介紹 爲了簡化開發者和服務工程師維護Kafka集羣的工作,yahoo構建了一個叫做Kafka管理器的基於Web工具,叫做 Kafka Manager。這個管理工具可以很容易地發現分佈在集羣中的哪些to

原创 工具類-時間工具類

package com.cartravel.tools import java.text.SimpleDateFormat import java.util.{Calendar, Date} import org.apache

原创 scala -scala官方api上面的圖標o,c,t,p都是什麼意思

c表示是一個class類 o表示是一個object單例對象(java的static靜態方法) t表示trait特質(java的抽象類) p表示package包

原创 大數據組件-SparkSQL:Column對象,如何創建,別名和轉換,添加列,操作

1.什麼是Column對象 Column 表示了 Dataset 中的一個列, 並且可以持有一個表達式, 這個表達式作用於每一條數據, 對每條數據都生成一個值 2.Column對象如何創建 (1)’ 單引號 ’ 在 Scala 中

原创 大數據組件-sparkSQL數據讀取框架,數據寫入框架,讀寫Parquet,json數據格式,sparkSQL:讀寫分區,整合Hive,通過JDBC讀寫mysql數據庫

1.數據讀取框架DataFrameReder (1)使用場景 SparkSQL中專門有一個框架用於讀取外部數據源,叫做DataFrameReder (2)構成 1.schema 結構信息 2.option 讀取時的參數

原创 大數據組件-Spark原理分析,寬窄依賴,閉包,spark全局累加器

RDD之間的關係 判斷是寬依賴還是窄依賴,取決於RDD的分區是否能放在同一個流水線上執行,取決於這兩個RDD是否是Shuffle關係, 如果是shuffle有kv對的就是寬依賴不能放在一個流水線上執行,不是shuffle關係的就是