原创 中文分詞器hankcs/HanLP簡單使用

github https://github.com/hankcs/HanLP maven座標 <dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</art

原创 實時計算工具庫 stream-lib Top K 排名 CountMinSketch

圖片來源 https://stackoverflow.com/questions/6811351/explaining-the-count-sketch-algorithm/35356116#35356116 CountMinSketc

原创 實時計算工具庫 stream-lib 分位數計算 T-Digest 求中位數

圖片來源 https://dataorigami.net/blogs/napkin-folding/19055451-percentile-and-quantile-estimation-of-big-data-the-t-digest

原创 spark scala.util.control.BreakControl

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 12.0 failed 1 times, most recent fai

原创 java Djava.ext.dir

jar -jar 指定lib啓動 java -Xms1g -Xmx4g  -Djava.ext.dirs=/opt/test/lib -jar /opt/test/untitled.jar  提示報錯   用-Djava.ext.dir

原创 日誌處理

之前見過幾個項目都是在AOP輸出日誌,個人覺得要涉及到代碼,總覺得比較麻煩。我在項目中採用的是使用log4j.properties文件。 如果採用log4j輸出日誌,要對log4j加載配置文件的過程有所瞭解。log4j啓動時,默認會去尋找

原创 安裝hadoop mysql驅動包問題

https://blog.csdn.net/shenliang1985/article/details/51478151啓動ambari訪問前,請確保mysql驅動已經放置在/usr/share/java內且名字是mysql-connec

原创 responseBody返回jsonp格式

因爲項目發佈在公司自己服務器,沒有綁定域名,只能在局域網之內使用。前端說正常訪問不到,因爲同源策略的原因,只能用jsonp請求。 jsonp要求返回的格式前面加多一個名字,包裹着json串,接口大部分都是寫好的,而且代碼中用的都是@Res

原创 將當前目錄下所有jar合併成一個jar

在linux上 1.進入當前目錄 解壓所有jar   通過jar解壓命令將jar包全部解壓,命令爲 >jar –xvf xx.jar; 如果jar太多了 可以編寫個shell腳本解壓 1.touch run.sh 2.vim run.sh

原创 mr中理解分區和分組(轉)

原文鏈接:https://blog.csdn.net/qq_21292551/article/details/50261391   1.MapReduce中數據流動 (1)最簡單的過程:  map - reduce (2)定製了parti

原创 父子類強轉失敗 類加載器隔離問題

今天遇到一個BUG 在做調試的時候發現子類不能強轉父類。。 DEBUG一下 發現 instanceof 結果是false 回想一下 在Oracle的時候驅動有兩個版本 都是自定義類加載器去加載驅動(爲了區分Oracle版本)    

原创 最大堆排序最小堆排序

//堆是一種完全二叉樹 就是每個節點都有兩個子節點 public static void maxHeapSort(int[] arrays,int node,int size){ //獲取左節點和右節點位置

原创 FuzzyWuzzy:字符串匹對得分計算

最近的項目需要在大數據裏面匹對字典裏面最意思相近的字符串 兩個字符串之間匹對的準確率得分計算 使用FuzzyWuzzy可以簡單計算出分數   FuzzyWuzzy 是一個簡單易用的模糊字符串匹配工具包。它依據 Levenshtein Di

原创 實時計算工具庫 stream-lib 唯一值計算 HyperLogLog

獨立訪客(UV)是網站的重要指標之一。我們通常會爲每一個用戶生成一個 UUID,並在 HTTP Cookie 中記錄和跟蹤,或直接使用 IP 地址做近似計算。我們可以使用一個 HashSet 來計算 UV 的準確值,但無疑會佔用大量的空間

原创 大數據算法-重複率計算 ICardinality

import com.clearspring.analytics.stream.cardinality.ICardinality; // 重複率計算器 private ICardinality repeatCardinalit