原创 機器學習的一些基本知識

代價函數 https://blog.csdn.net/sd9110110/article/details/52863390

原创 flink yarn 部署指南

主要分成兩部分,yarn的安裝與flink的安裝, 共3臺機器 10.10.10.12510.10.10.126 10.10.10.127 ------------------------------------------------

原创 flink 聚合的例子

今天寫了一個稍微複雜的例子, 實現了類似mysql group_concat 功能,記錄一下MapToString 參考bug 那篇博客 public static void main(String[] arg) throws Excep

原创 flink bug

羅列一下bug,備註一下,後續不斷完善 註冊表時,請勿使用result tableEnv.registerTable("result_agg", talbe); 如上,如果你寫爲 tableEnv.registerTable(

原创 flink 從mysql 讀取數據 放入kafka中 用於搜索全量

接着上一篇,將mysql的數據導入kafka中 public static void main(String[] arg) throws Exception { TypeInformation[] fieldTypes =

原创 flink例子-讀取數據庫

private final static Logger logger = LoggerFactory.getLogger(GetData.class); public static void main(String[] arg)

原创 推薦算法--基於物品的協同過濾算法

發現基於物品的協同過濾簡單,實用,而ALS算法計算不易,所以記錄一下。 https://blog.csdn.net/u011630575/article/details/78649331

原创 ES集羣故障排查記錄

這兩天線上的ES集羣總是有問題,開始查找原因發現這段時間各個機器的負載都很高,本來希望通過jstack找到一些信息,但居然提示‘Unable to open socket file: target process not respondin

原创 搜索引擎優化

今天找搜索專家聊了一下大廠的搜索引擎 1 如果數據量很大,可以擴大分片,比如建立32個分片,merge的時候可能耗時2 如果倒排拉鍊很長,可以建一個bitmap(ES貌似不支持)3 如果召回很大,比如只差status=1,可能有100w個o

原创 lucene 面試問到的

跳錶, 求交集如何做到logn的複雜度 https://www.cnblogs.com/bonelee/p/6394451.html

原创 有用的linux命令

1 統計日誌中某個字段的情況 grep "productId" 1.csv | awk '{print $8}' | awk -F ':' '{print $11}' | awk -F ',' '{print $1}' | uniq -c

原创 rockermq & kafka 消費限制

kafka topic下的一個分區只能被同一個consumer group下的一個consumer線程來消費,但反之並不成立,即一個consumer線程可以消費多個分區的數據,比如Kafka提供的ConsoleConsumer,默認就只是一

原创 收錄深度學習文章(lstm embedding)

情感預測 https://blog.csdn.net/William_2015/article/details/72978387和他類似的還有一篇文章https://machinelearningmastery.com/use-word

原创 JAVA 基礎知識集合

ConcurrentHashMap https://mp.weixin.qq.com/s?__biz=MjM5NzMyMjAwMA==&mid=2651478868&idx=1&sn=1aa298b9ba67ab33ea8af9c7627

原创 elasticsearch 近義詞 遠程配置

以前寫的一遍文章,被刪除了,現在補回來。首先安裝插件 dynamic-synonym,curl -XPOST "http://localhost:9200/*/" -d '{         "analysis": {