原创 elasticsearch——字段截取

參考鏈接https://blog.csdn.net/u013613428/article/details/78135258   可以通過/pattern/.matcher(text).replaceAll的方式來實現提取與轉換

原创 elasticsearch——多個屬性確定一個唯一鍵

es唯一鍵_id有512個字節限制,當需要有多個字段共同控制一個主鍵的時候,拼接起來很容易超過限制 可以通過hash.hexdigest()生成唯一鍵,通過唯一鍵做數據更新,不會插入重複的記錄 from hashlib import m

原创 elasticsearch——判斷字段是否匹配上

有一個字段的匹配不做過濾來用,條件滿足就返回1不滿足就返回2,其他邏輯在代碼中處理,所以匹配怎麼來返回呢? 我現在用的兩個方法都是很傻的,但是還沒找到更好的辦法 1.script_field返回一個自己建的字段 { "query":

原创 elasticsearch——reindex部分數據複製

reindex複製索引數據時,最基礎的是做全量複製,有些時候想要根據時間戳做增量複製,這種情況可以加搜索條件 1.reindex部分數據 POST _reindex { "source": { "index": "inde

原创 python_分組函數

在做搜索員工的服務時,用戶會輸出英文名和工號,例如emma0012,這個時候使用jiaba分詞不能把名字和工號分開,不能匹配不同的字段,所以在分詞後使用分組函數特殊處理一下 from itertools import groupby w

原创 elasticsearch——嵌套聚合(日誌分析)

1.十月每天各用戶訪問量 { "size": 0, "query": { "match_all":{} }, "aggs": { "group_time": { "date_histogram

原创 elasticsearch字段值等於某字符串時排序靠前【高併發問題】

比如讓type爲male的排在前面,則使用script { "query": { "match_all": {} }, "sort": [ { "_script": { "type

原创 地理位置查詢——elasticsearch

1.含地理位置索引創建 https://es.xiaoleilu.com/310_Geopoints/20_Geopoints.html 2.按經緯度距離排序 https://es.xiaoleilu.com/310_Geopoints/

原创 實現and與or查詢——elasticsearch

{ "query": { "bool": { "must": [{ "match_phrase": { "name": "a" } }], "should": [{ "match

原创 minimum_should_match做匹配度過濾——elasticsearch

minimum_should_match:當operator參數設置爲or時,該參數用來控制應該匹配的分詞的最少數量; {"query":{         "match":{            "字段名":{            

原创 python接口獲取上傳的文件,動態生成文件並下載

一直在寫接收JSON參數的接口,這次寫從數據的參數,記錄下 1.接收上傳的文件 user_id = request.form.get("user_id", "") # text參數獲取 file = request.files['fi

原创 雜——elasticsearch

平時一般都用kibana,一般的搜索都有聯想,然後有幾個不給聯想的但經常用的,記錄一下 最愛用的文檔:https://elasticsearch-py.readthedocs.io/en/master/api.html#indices 1

原创 jieba分詞 自定義詞典熱加載——elasticsearch

信息安全問題不貼代碼 1.jieba插件https://github.com/hongfuli/elasticsearch-analysis-jieba 2.ik插件https://github.com/medcl/elasticsear

原创 統計學習方法——實踐

看書結合python實現的博客學習: 李航《統計學習方法》第二章——用Python實現感知器模型(MNIST數據集) 李航《統計學習方法》第三章——用Python實現KNN算法(MNIST數據集) 李航《統計學習方法》第四章—

原创 elasticsearch——跨集羣數據遷移

網上有工具做數據遷移:https://github.com/medcl/esm 可copy mapping ,copy setting等,操作方便 目前發現的問題有: 1.long型超過16位會精度丟失,數據中有此類型數據時要注意