原创 flink 使用問題彙總

羅列一下bug,備註一下,後續不斷完善 註冊表時,請勿使用result tableEnv.registerTable("result_agg", talbe); 如上,如果你寫爲 tableEnv.registerTable(

原创 flink 多表join的例子

今天寫了一個稍微複雜的例子, 實現了類似mysql group_concat 功能,記錄一下MapToString 參考bug 那篇博客 public static void main(String[] arg) throws Excep

原创 MITIE 實體抽取例子

嘗試使用mitie進行實體抽取,先記錄一下,後續改爲java版本的。 import mitiemodel_file='/home/test/rasa_nlu_chi/data/total_word_feature_extractor_z

原创 spark-xgboost8.1 java 例子

第一個xgb的例子,還算順利 public class Xgb2 implements Serializable{ /** * */ private static final long serialV

原创 邏輯迴歸損失函數爲何取負數

這樣y與^y, 差值最小,因此使用其作爲損失函數。 參考: https://www.zhihu.com/question/272058718

原创 alink java 版 ftrl 例子

官方只有python版的,先把代碼貼一下,後續分析此例子 package com.ziroom.ml2; import com.alibaba.alink.operator.batch.BatchOperator; import com

原创 歸一化 vs 標準化

作者:myazi鏈接:https://www.zhihu.com/question/20467170/answer/222792995來源:知乎著作權歸作者所有。商業轉載請聯繫作者獲得授權,非商業轉載請註明出處。 1歸一化特點 對不同

原创 大數據結點角色

yarnhttps://www.jianshu.com/p/4df273c74b9c hdfshttps://www.cnblogs.com/wxplmm/p/7239342.html sparkhttps://www.jianshu.co

原创 spark 表關聯

發現用spark寫表join比flink 簡單很多,至少schema 可以省了,下面是一個例子 public static void main(String[] args) { SparkSession

原创 flink 讀取hive的數據

flink1.8 對hive 的支持不夠好,造成300W的數據,居然讀了2個小時,打算將程序遷移至spark。 先把代碼貼上 maven <dependency> <groupId>org.apache.hive<

原创 基於flink的協同過濾

最近flink較火,嘗試使用flink做推薦功能試試,說幹就幹,話說flink-ml確實比較水,包含的算法較少,且只支持scala版本,以至flink1.9已經將flink-ml移除,看來是準備有大動作,但後期的實時推薦,flink能派上大

原创 flink 擴容

因需要,再擴3臺flink, 遇到各種報錯,折騰了3個小時,最終找到了一種簡單可行的方式,該方式,需要清空checkpoint, 暫時沒有找到更好的方案。 rm -rf /tmprm -rf /data/hadoop/* (checkpo

原创 flink 優秀文章集合

說明:爲了避免博客被封,*代表c,s,d和n,請自行替換. 水印 https://blog.****.net/lmalds/article/details/52704170

原创 利用flink統計消息回覆情況

其中用到了滑動窗口函數大小30秒,間隔15秒,且大於窗口10秒的數據,被丟棄。(實際業務這三個值 應爲是 10 分鐘,1分鐘,5分鐘)。代碼先記錄一下 public static void main(String[] arg) throws

原创 flink sql-clent MATCH_RECOGNIZE kafka 例子

環境 flink1.7.2 增加flink1.7.2 的lib 中的jar, 否則會報類找不到 avro-1.8.2.jar flink-connector-kafka-0.10_2.12-1.7.2.jar