原创 基於JGibbLDA lda topic主題模型

最近在做基於LDA(Latent Dirichlet Allocation)的文本分類處理,開始學習和接觸了LDA,因爲代碼採用的是Java,所以我選擇的LDA開源工具是JGibbLDA,這個是LDA的Java版本實現,下載地址爲:ht

原创 SVM 分類算法

SVM尋找分兩類的超平面(hyper plane),使邊際(margin)最大 優點:      1.1 訓練好的模型的算法複雜度是由支持向量的個數決定的,而不是由數據的維度決定的。所以SVM不太容易產生overfitting    

原创 HashMap的優化與實踐

HashMap的優化與實踐 本文是基於作者在github上的Android 問題交流討論壇提問而產生的一篇文章,也是自己早打算開坑的一篇文章。文章首先介紹了hashMap的一些基本知識,然後介紹了它在JDK8下的實現原理,最後着重

原创 一致性哈希

    一致性哈希算法在1997年由麻省理工學院提出的一種分佈式哈希(DHT)實現算法,設計目標是爲了解決因特網中的熱點(Hot spot)問題,初衷和CARP十分類似。一致性哈希修正了CARP使用的簡 單哈希算法帶來的問題,使得分佈式

原创 HanLP自然語言處理包開源

支持中文分詞(N-最短路分詞、CRF分詞、索引分詞、用戶自定義詞典、詞性標註),命名實體識別(中國人名、音譯人名、日本人名、地名、實體機構名識別),關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析(MaxEn

原创 每秒處理10萬訂單樂視集團支付架構

作者 樑陽鶴,樂視網boss平臺技術部架構師,主要負責樂視集團支付,樂視會員系統,商業運營平臺等系統架構工作。開源數據訪問層框架mango作者。 隨着樂視硬件搶購的不斷升級,樂視集團支付面臨的請求壓力百倍乃至千倍的暴增。作爲商品購買的

原创 搜索推薦系統評價指標

Precision和Recall 首先我們來看看下面這個混淆矩陣: pred_label/true_label Positive Negative Positive TP FP Negtive FN TN 如

原创 分佈式服務化系統一致性的“最佳實幹”

轉載同事的blog。 1 背景 一致性是一個抽象的、具有多重含義的計算機術語,在不同應用場景下,有不同的定義和含義。在傳統的IT時代,一致性通常指強一致性,強一致性通常體現在你中有我、我中有你、渾然一體;而在互聯網時代,一致性的含義

原创 elasticsearch 分詞過程

我們常常會遇到問題,爲什麼指定的文檔沒有被搜索到。很多情況下, 這都歸因於映射的定義和分析例程配置存在問題。 一:分詞流程 整個流程大概是:單詞 ====》Character Filter 預處理 =====》tokenizer分詞 =

原创 35 個 Java 代碼性能優化總結

前言   代碼優化,一個很重要的課題。可能有些人覺得沒用,一些細小的地方有什麼好修改的,改與不改對於代碼的運行效率有什麼影響呢?這個問題我是這麼考慮的,就像大海里面的鯨魚一樣,它吃一條小蝦米有用嗎?沒用,但是,吃的小蝦米一多之後,鯨魚

原创 java基礎知識彙總

淺談Java中的hashcode方法 探祕Java中String、StringBuilder以及StringBuffer Java垃圾回收機制 Java內部類詳解 深入理解Java的接口和抽象類  Java多線程基礎:進程和線

原创 elasticsearch控制match執行過程的低級查詢處理規則

本篇文章主要說明match執行過程中的低級查詢(bool term)以及涉及到評分規則(包括同義詞)。elasticsearch一些較複雜業 務查詢中 match 多詞和同義詞搜索可能會遇到的問題。 match或者query_string

原创 Java9都快發佈了,Java8的十大新特性你瞭解多少呢?

Java 9預計將於今年9月份發佈,這是否會是一次里程碑式的版本,我們拭目以待。今天,我們先來複習一下2014年發佈的Java 8的十大新特性。 id="iframe_0.7763637211173773" src="https:/

原创 JAVA 互聯網面試

1:java和算法基礎 ---(常用的類hashMap等數據結構、java8特效、快速排序等++)  2:服務框架 ---(rpc:dubbo,REST框架:Spring Web MVC,Spring Boot、Jersey,

原创 logistic regression VS decision tree VS support vector machine

分類是我們在工業界經常遇到的場景,本文探討了3種常用的分類器,邏輯迴歸LR,決策樹DT和支持向量機SVM。 這三個算法都被廣泛應用於分類(當然LR,DT和SVR也可以用於迴歸,但是本文先不討論)。我經常看到人們會問,這個問題我該使用L