原创 elasticsearch——字段截取
參考鏈接https://blog.csdn.net/u013613428/article/details/78135258 可以通過/pattern/.matcher(text).replaceAll的方式來實現提取與轉換
原创 elasticsearch——多個屬性確定一個唯一鍵
es唯一鍵_id有512個字節限制,當需要有多個字段共同控制一個主鍵的時候,拼接起來很容易超過限制 可以通過hash.hexdigest()生成唯一鍵,通過唯一鍵做數據更新,不會插入重複的記錄 from hashlib import m
原创 elasticsearch——判斷字段是否匹配上
有一個字段的匹配不做過濾來用,條件滿足就返回1不滿足就返回2,其他邏輯在代碼中處理,所以匹配怎麼來返回呢? 我現在用的兩個方法都是很傻的,但是還沒找到更好的辦法 1.script_field返回一個自己建的字段 { "query":
原创 elasticsearch——reindex部分數據複製
reindex複製索引數據時,最基礎的是做全量複製,有些時候想要根據時間戳做增量複製,這種情況可以加搜索條件 1.reindex部分數據 POST _reindex { "source": { "index": "inde
原创 python_分組函數
在做搜索員工的服務時,用戶會輸出英文名和工號,例如emma0012,這個時候使用jiaba分詞不能把名字和工號分開,不能匹配不同的字段,所以在分詞後使用分組函數特殊處理一下 from itertools import groupby w
原创 elasticsearch——嵌套聚合(日誌分析)
1.十月每天各用戶訪問量 { "size": 0, "query": { "match_all":{} }, "aggs": { "group_time": { "date_histogram
原创 elasticsearch字段值等於某字符串時排序靠前【高併發問題】
比如讓type爲male的排在前面,則使用script { "query": { "match_all": {} }, "sort": [ { "_script": { "type
原创 地理位置查詢——elasticsearch
1.含地理位置索引創建 https://es.xiaoleilu.com/310_Geopoints/20_Geopoints.html 2.按經緯度距離排序 https://es.xiaoleilu.com/310_Geopoints/
原创 實現and與or查詢——elasticsearch
{ "query": { "bool": { "must": [{ "match_phrase": { "name": "a" } }], "should": [{ "match
原创 minimum_should_match做匹配度過濾——elasticsearch
minimum_should_match:當operator參數設置爲or時,該參數用來控制應該匹配的分詞的最少數量; {"query":{ "match":{ "字段名":{
原创 python接口獲取上傳的文件,動態生成文件並下載
一直在寫接收JSON參數的接口,這次寫從數據的參數,記錄下 1.接收上傳的文件 user_id = request.form.get("user_id", "") # text參數獲取 file = request.files['fi
原创 雜——elasticsearch
平時一般都用kibana,一般的搜索都有聯想,然後有幾個不給聯想的但經常用的,記錄一下 最愛用的文檔:https://elasticsearch-py.readthedocs.io/en/master/api.html#indices 1
原创 jieba分詞 自定義詞典熱加載——elasticsearch
信息安全問題不貼代碼 1.jieba插件https://github.com/hongfuli/elasticsearch-analysis-jieba 2.ik插件https://github.com/medcl/elasticsear
原创 統計學習方法——實踐
看書結合python實現的博客學習: 李航《統計學習方法》第二章——用Python實現感知器模型(MNIST數據集) 李航《統計學習方法》第三章——用Python實現KNN算法(MNIST數據集) 李航《統計學習方法》第四章—
原创 elasticsearch——跨集羣數據遷移
網上有工具做數據遷移:https://github.com/medcl/esm 可copy mapping ,copy setting等,操作方便 目前發現的問題有: 1.long型超過16位會精度丟失,數據中有此類型數據時要注意