原创 Lucene隨筆-LogMergePolicy

lucene版本:6.5.4 當IW索引中的數據發生任何變化時,都會觸發merge檢測,即找出可以合併的merge的segment集合;並且判斷是否需要合併,如果需要合併則返回一組OneMerge,一個OneMerge對應的時

原创 Lucene隨筆-ThreadState

Lucene 6.5.4 ThreadState在lucene的curd扮演者非常重要的角色。首先,DocumentsWriterPerThreadPool是一個邏輯上的線程池,它實現了類似Java線程池的功能, 在Java的

原创 ElasticSearch源碼 - GeoPoint

elasticsearch 5.4.3 最近在研究es 地理信息相關的接口,目前來說es提供倆種geo相關的類型:GeoPoint 和GeoShape兩種。這裏我只研究一下GeoPoint。該類型在V_5_0_0_alpha1

原创 如何在elsaticsearch上使用Java Flight Recorder

Java Flight Recorder 研發人員在遇到線上報警或需要優化系統性能時,常常需要分析程序運行行爲和性能瓶頸。而Java Flight Recorder(JFR)是一種監視工具,可在應用程序執行期間收集有關Java虛擬

原创 可調參的K-means算法

選自:《Unifying Dependent Clustering and Disparate Clustering for Non-homogeneous Data 》 傳統的K-means的算法如下: 這個表示的是聚類的簇,i代表的

原创 jvm學習-GC策略

什麼是GC Garbage Collection,簡稱GC,本質上就是內存管理回收技術(主要指的是heap),在具體探究問題前,我們需要帶着一些問題來亞就這個機制: 哪些內存需要回收 什麼時候回收 如何回收 爲什麼GC不需要

原创 cloudera 添加Kafka服務

cloudera給我們提供了非常方便的服務,同時也埋下了n多個坑,現在我先填一個坑,關於如何添加Kafka的問題 對於像我這樣的新手來說,在安裝過程中你會很容易遇到一個問題: 安裝kafka時你會直接在add service點擊kafka

原创 數據挖掘學習筆記-入門基礎篇

1、什麼是數據挖掘 數據挖掘時在大型數據存儲庫中,自動的發現有用信息的過程。數據挖掘技術用來探查大型大數據,發現先前位置的有用模式。 2、KDD -konwledge discovery in database 數據挖掘時KDD中不可或

原创 jvm學習-Java內存模型

Java 內存模型 程序計數器 程序計算器爲一塊很小的內存空間,同事爲線程私有的,可以認爲當前程序的行號指示器。 線程私有的 是java虛擬機規範裏面, 唯一 一個 沒有規定任何 OutOfMemoryError 情況的區域

原创 NDCG評價指標講解

Normalized Discounted Cumulative Gain,即NDCG,常用於作爲對rank的評價指標,當我們通過模型得出某些元素的ranking的時候,便可以通過NDCG來測評這個rank的準確度,同樣的算法還包括MAP

原创 Lunece源碼-Analyzer

分詞器的核心類Analyzer,TokenStream,Tokenizer,TokenFilter. Analyzer Lucene中的分詞器有StandardAnalyzer,StopAnalyzer,SimpleAnalyze

原创 Elasticsearch+java 實例

# Elasticsearch+java 實例 樓主剛剛踏入職場,主攻ES,爲此寫了這個文章主要教初學者一些知識,希望對你有用。 如何在idea上構建一個ES項目 首先構建一個Maven項目,編輯pox.xml如下: <de

原创 教你如何在centos7服務器中屏蔽掉那些高流量ip

首先,告訴你在centos7中沒有iptables,取而代之的是firewall,因此你要想屏蔽那些噁心的高流量,對不起iptables不行,命令如下 祝你好運。如果要剔除規則請吧add改成remove,然後重載防火牆。 # fire

原创 初識tensorflow架構

初識tensorflow架構 tensorflow是目前非常流行的以一款大規模機器學習框架,其前身爲DisBelief。今天跟大家一起學習一下tensorflow的整體架構,作爲這個專欄的開端,如下圖所示便是整個tensorflow的架構

原创 Tensorflow代碼目錄組織

今天瞭解一下tensorflow的項目組織結構,其github鏈接如下:https://github.com/tensorflow/tensorflow   Tensorflow/core目錄包含了TF核心模塊代碼。         p