原创 Lucene提供的幾種分詞器

1、幾種lucene提供的分詞器 下面是幾種分詞器的代碼實現示例。 import org.apache.lucene.analysis.*; import org.apache.lucene.analysis.cjk.CJKAn

原创 oracle中根據不同條件修改一個字段值

需求:項目中有個需求,報表中用戶的數據中 有系統內或系統外,但真實數據有國外分公司填入的是英文,External和Internal,真正彙總分組時會將這個字段分成好幾組,有問題,所以在彙總邏輯之前update掉: 解決:當然還是用

原创 JAVA更優雅的處理空值

有時候,更可怕的是系統因爲這些空值的情況,會拋出空指針異常,導致業務系統發生問題,如何優雅處理空值。 1、業務中的空值 場景 存在一個UserSearchService用來提供用戶查詢的功能: public interface U

原创 使用Tika進行文檔解析抽取

1、文本內容抽取 文件搜索的第一要務是抽取文件內容,我們使用Apache Tika。 Apache Tika是一個用戶文件類型檢測和文件內容提取的庫,Apache頂級項目,可檢索超過1000中類型的文檔,廣泛應用於搜索引擎、內容分

原创 Oracle中日期格式轉化之dd-M月-yyyy轉爲yyyyMMdd

Oracle中日期格式轉化之dd-M月-yyyy轉爲yyyyMMdd問題:解決辦法 問題: 項目中遇到某張表的日期字段來自郵件解析入庫,而表的日期字段又建的是nvarchar2類型,遂查詢出的日期字段全是dd-M月-yyyy格式,

原创 全文檢索幾種詞向量模型

1、倒排索引模型 2、布爾檢索類型 3、TF-IDF權重計算 下面是TF-IDF的JAVA代碼實現。 public class TFIDF { public double tf(List<String> doc,S

原创 Springboot配置文件放在jar外部

這裏Springboot配置文件放在jar外部引言通過命令行指定外置配置文件自定義配置文件或者 引言 Spring Boot程序默認從application.properties或者application.yaml讀取配置,如何將

原创 JAVA中靜態變量及類加載順序

1、靜態變量、非靜態變量的區別 ①java類的成員變量有倆種: 一種是被static關鍵字修飾的變量,叫類變量或者靜態變量 另一種沒有static修飾,爲成員變量 通俗點說: 類的靜態變量在內存中只有一個,java虛擬機在加

原创 Kettle使用教程

1、下載並解壓:https://community.hitachivantara.com/docs/DOC-1009855 windows啓動雙擊Spoon.bat 2、點擊作業,新建DB連接,測試。 若報: org.pent

原创 Centos7安裝配置實操

之前由於centos7不太穩定,一直使用centos6.5,現在各服務器生產環境已經正式使用7,所以自己手動實踐下。 下載 去官網或國內鏡像站下載centos7鏡像: 此版本CentOS-7-x86_64-DVD-1908.iso

原创 CDH6.3修改主機IP

這裏寫自定義目錄標題修改ip停服務進入mysql修改元數據ip修改各主機的ip(分別修改各主機的ip)修改所有hadoop集羣機器中的cloudera-scm-agent的配置文件重啓服務 修改ip 開始是在公司使用橋接模式,回到

原创 hive加載數據權限報錯

前提: 上傳數據至hdfs 的/user/root/下,創建了hive的orc表,準備load數據,創建了臨時的ordertmp的textfile格式表,後面用insert overwrite進目標表。 執行load data 從

原创 檢查HDFS塊狀態

hadoop集羣運行過程中,節點的塊狀態或者上下線節點時集羣都會受影響。 如何查看當前的hdfs的塊的狀態 hadoop1.x時候的命令,hadoop2.x也可使用: hadoop fsck / 在hadoop2.0之後,可以使

原创 SQL中的case when 和 decode

case when 和 decode(oracle獨有) 兩者都可以作爲條件判斷 同一個需求: select id,decode(kurst,'中間價','中','平均匯率','平') KURST from EX_RATE_CON

原创 SparkStreaming控制消費速率(反壓機制)

反壓機制: spark1.5以後,通過動態收集系統的一些數據來自動的適配集羣數據處理能力 在默認情況下,Spark Streaming 通過 receivers (或者是 Direct 方式) 以生產者生產數據的速率接收數據。當