原创 ES刪除數據

es 刪除數據的三種方法1  因爲高版本的es並不支持批量刪除,所以第一個方法思路,首先查詢es 獲取主鍵id,然後根據id逐個刪除def scrollScanDeleteByTopic(client:TransportClient,in

原创 sparksql dataFrame 關於列的增刪改操作

最近項目中用到spark和ES的集成,涉及到一系列對dataFrame列的操作,時間主要花在列的增刪改上面。整個類採用的是spark+ES+Redis架構,ES存基礎數據,redis 存儲條件,根據redis的條件從ES篩選出符合條件的記

原创 IP解析成地址 確定省市

最近領導要求i通過p解析確定城市,比較簡單,難點是通過大學名稱來確定城市 下面是代碼: 代碼需要用到 全國高校數據庫  package com.dianyou.ip; import com.sun.xml.internal.ws.po

原创 java反射加載類,並轉化爲DataFrame

動態加載類,構造類的實例,並轉化爲DataFrame,同時還要解決入表時,類屬性值與表字段一一對應,同時只有部分字段有值,其他字段提供根據字段類型提供默認值 def mergeRDD(spark:SparkSession,countRD

原创 純真IP數據庫轉txt

最近在解析ip數據庫時,遇到一個問題。代碼在本地可以運行,但是放在集羣上時,卻無法運行,問題可能出現在java 文件流無法加載hdfs 文件?之後轉換下思路,試着先把ip解析出來。 主要代碼來源於網上的一個博客,紅色部分是本人修改部分

原创 udaf 函數使用例子

最近使用sparksql,需求是需要對一些非結構化的數據進行處理,具體的需求是:1 類似{“”,“”},合併此類數據,如果有相同的field,則把value累加,無則把field加入2 類似a,b,c ,需要聚合後累加去重統計字母出現的次

原创 spark streaming 定時狀態清除

最近遇到一個問題:用sparkstreaming的updateStateBykey算子保存當天狀態,要求零點清除狀態,爲了解決這個問題想到了三個思路:1  零點重啓程序,重啓之後spark內存中的數據會被清除#!/bin/bashNum=

原创 spark streaming 廣播變量的測試

最近寫的一個流式的程序需要從redis 中獲取變量信息,並廣播,其中redis裏面的信息是變動的,要求廣播變量也要跟着改變,下面是測試代碼:val dStream = KafkaUtils.createDirectStream[Strin