原创 ElasticSearch配置ik中文分詞器

一、Versions ES Version: 2.1.1 IK Version: 1.6.2 說明:ES和IK的版本一定要相互兼容,具體兼容性可以查看下面的git說明   二、Install IK的下載:https://git

原创 微服務架構有用麼?

     很久很久之前我聽說了SOA,我不知道這是幹嘛的;很久之前我聽說了微服務架構,我又不知道這是幹嘛的。我就一直在問我自己現在的項目架構很落伍麼,我怎麼感覺它還是能滿足我的需求的呢;新的架構能解決我的什麼痛點,他們提到的現有的架構的缺

原创 SOA下的MOCK接口

現在都在講SOA,很多公司也是這麼做的,這樣做的好處我就不再這裏重複了。SOA帶來這些優點的同時也帶來了很大的困擾,特別是在開發環境下,接口不穩定、頻頻掛掉,有時開發環境不如線上的數據那麼豐富,想要的數據要不到,嚴重影響開發的進程。這種痛

原创 hive 小文件合併

Hive 支持在 MR 任務結束之後,再另起一輪 MR 作業進行小文件的合併。這輪作業只會有 mapper, 沒有 reducer. 每個 mapper 根據參數讀入若干文件並輸出成一個文件,從而達到文件合併的效果   與 merg

原创 hive分區處理注意點

在優化一個使用4W個map的job的時候,發現了一個使用hive的注意點,跟大家分享下。 hive表中一般都有分區,在程序裏我們會動態取某個分區裏的數據,這時分區值就是一個函數。這個函數的選擇就是關鍵了。 優化前的分區函數是: dt =

原创 ElasticSearch集羣配置及問題

ES客戶端安裝起來後,就需要用到ES的優點集羣,下面是關於ES集羣安裝遇到問題的記錄。 elasticsearch.yml 的常用說明:http://bigbo.github.io/pages/2015/04/10/elasticse

原创 Spark初識

參考:http://blog.sciencenet.cn/blog-425672-520947.html  一、與Hadoop的淵源         沒接觸Spark之前,覺得這是一個高深的學問,今天大致看了一下簡介發現它和ha

原创 mongodb之分頁與索引

mongodb作爲nosql數據庫的一個優勢便是大數據量下的查詢速度,說起查詢,分頁就呼之欲出;查詢有一個伴生物,那便是索引。 優化如下: 1. 棄用skip: 官方解釋如下: The cursor.skip() method is o

原创 break label 用法

今天在看別人代碼的時候看到一個之前沒注意到的break 用法:break label。 我們都知道break的用法,是用來跳出所在的循環,處理代碼如下:public class BreakTest { public static

原创 項目進化進程縮影(1)

工作一年多了,眼看着項目分分合合,修修改改,成了現在這個樣子,心中還是有許多的感慨的。今天在看《淘寶技術這十年》,想想也該對我這一年多的項目的進化做一次縮影總結了!    版本1.0 :我剛來公司的時候,這個項目也是剛剛出生,而那

原创 分頁的一些想法

現狀: 1. 每次分頁都需要查出記錄的總數,耗性能 2. 分頁中每項內容是否必須,是否可以後加載 3. 對於系統類網站,用戶一般不關心業務的數字,他們主要的聚集點是“上一頁”和“下一頁”兩個按鈕(待調研) 4. 絕大部分的用戶不關心總數量

原创 mongo使用進程-副本集(Replica Sets)

副本集的介紹和搭建我這裏就不說了,谷歌一下,還是很多的,可以參考一下的情況: 搭建高可用mongodb集羣(二)—— 副本集 這裏主要是介紹我在搭建的時候遇到的兩個問題: 1:{ "ok" : 0, "errmsg" : "couldn

原创 JVM之垃圾回收的判斷及策略

本文總結自:《深入理解Java虛擬機》,本文用於幫助記憶,如果想要詳細準確的描述,請閱讀此書 如何判斷對象已死: 1. 引用計數器法:當一個地方引用它時,就+1;當引用失效時,就-1;GC會回收那些計數爲0的對象。 優點:簡單,快捷 缺點

原创 IntelliJ IDEA中文的若干問題及其解決方案

今天是個好日子,因爲困擾我idea漢字問題終於統統都解決了。 主要問題有以下幾個: 1. String literal is not properly closed by a double-quote 2. 插件亂碼 原因只有一