原创 集成學習方法

這篇博文的記錄思路:1、說明集成學習的定義即什麼是集成學習。2、說明集成學習的分類。3、按照分類介紹。4、其他相關概念和經驗的羅列。 集成學習的定義 集成學習的一般結構:先產生一組“個體學習器”,再用某種策略將他們結合起來。(“個體學習器

原创 elasticsearch中版本號(version)的問題

    今天在分析ES的索引的創建過程中看到了些和version相關的變量(例如:versionForIndexing)。這些個變量是幹什麼的呢?    答:用於衝突處理的。    在ES的應用場景中,使用index API更新文檔,可以

原创 推薦相關的觀點、典型例子記錄

1、廣告、搜索、推薦相關人員與技術和業務產品之間的關係,想將廣告和搜索做好更多的從廣告系統(技術)和搜索系統(技術)的角度出發即可,但是想把推薦做好需要從推薦產品的角度出發,而不僅僅是推薦系統(技術)的角度。基於此一個懂算法的產品經理或是

原创 IntelliJ IDEA中Elasticsearch 6.1.0調試環境搭建

環境:Windows(注:很多ES調試環境的搭建都是Mac,可惜沒錢買macbook pro)1、我的目的:閱讀分析ES的源碼。2、搭建debug環境需要的軟件爲:2.1、git2.2、IntelliJ IDEA2.3、gradle2.4

原创 ES創建索引的過程

                                                                                    ES中創建索引的詳細分析總覽ES 創建索引最終都會調用 org/ela

原创 ELK系統系列 2——Logstash的安裝使用&性能調優

Logstash的安裝&使用 總: 官網鏈接下載已經編譯好的Logstash。 到bin目錄下: 執行./logstash -f ../config/xxx.conf 即可使用logstash。 分-1: 上述命令中xxx.conf

原创 點到平面的距離公式的推導

點到平面的距離公式 準備知識 平面的一般式方程 Ax +By +Cz + D = 0 其中n = (A, B, C)是平面的法向量,D是將平面平移到座標原點所需距離(所以D=0時,平面過原點) 向量的模(長度) 給定一個向量V

原创 一種神奇的數據結構—小波樹

本文轉載自:http://chuansong.me/n/2035229 Succinct簡潔數據結構是一種來自生物信息學的研究成果,根據Wiki百科的定義是在數據壓縮存儲達到接近信息熵下界時仍然保持高效的查詢性能的一類數據結

原创 elasticsearch 分析器

一、Elasticsearch的分析器(analyzer)包括三部分:    1、字符過濾器:他們的任務是在分詞前整理字符串。一個字符過濾器可以用來去掉HTML,或者將 & 轉化成 `and`等。    2、分詞器:簡單的分詞器遇到空格或

原创 面試中memcopy函數實現中的陷阱!

先看下標準memcopy。其函數原型爲 void memcopy(void *dst, const void *src, size_t n); // if copying takes place between objects that

原创 Linux環境變量的區分

Linux環境變量的區分 Linux和windows一樣,分爲用戶環境變量和系統環境變量!配置用戶的環境變量只需要編輯用戶住文件夾下面的 .bashrc 文件即可。還有一個文件裏的環境變量是在這個文件之前讀取的,這樣我們就可以設置這個

原创 Logstash的使用

現在有一個“用戶畫像”的項目;前期需要搭建一個ElasticSearch的集羣用來存儲用戶的行爲數據;在搭建好ES的集羣后,導入數據到ES是一個問題,採用的是Logstash進行數據導入;現將Logstash使用過程中碰到的問題記錄如下:

原创 圖解Python深拷貝和淺拷貝

參見連接:http://www.cnblogs.com/wilber2013/p/4645353.html 總結: Python中對象的賦值都是進行對象引用(內存地址)傳遞使用copy.copy(),可以進行對象的淺拷貝,它複製了對象,

原创 ELK系統系列 1 ——ElasticSearch集羣搭建

ElasticSearch集羣搭建 背景: 我們要搭建一個ELK系統,目標是用於檢索系統和用戶畫像系統。選用的版本是elasticsearch5.5.0+logstash5.5.0+kibana5.5.0。 ElasticSearch集羣

原创 分詞算法

1.正向最大匹配算法 基於詞典的正向最大匹配算法(最長詞優先匹配),算法會根據詞典文件自動調整最大長度,分詞的好壞完全取決於詞典。   算法流程圖如下: 以上內容參見:http://yangshangchuan.iteye.