原创 solr searching 過程解析

翻譯自 Apache Solr Reference Guide    solr提供了一個十分靈活,可拓展的搜索特性,當我們發送一個請求的時候,一個search query 被一個叫做requst handler處理,solr提供許多類型

原创 Thread 狀態詳解

原文:http://www.cnblogs.com/DreamSea/archive/2012/01/11/JavaThread.html  不廢話直接上圖: 1)優先級(priority) 每個類都有自己的優先級,一般propert

原创 理解solr中的 Analyzer,Tokenizer,Filter

翻譯自 Apache Solr Reference Guide   Analyzer: analyzer負責檢查這個field,然後生成一個token流,一般作爲fieldType的一個字節點存在,比如: <analyzer type=

原创 awk and hadoop之mapper

1.  在awk 中mapper的時候我們經常會合並不同的文件,取我們想要的不同的字段。   awk -F "\t" ' { filename = ENVIRON["mapreduce_map_input_file"]; if

原创 awk join操作

有沒有遇到場景,要把兩個集合做一個join操作,用awk我們可以很方便的實現這個效果,設計到awk如何從兩個文件中讀取內容. 直接上代碼: awk -F ',' 'BEGIN{

原创 solr admin UI

翻譯自 Apache Solr Reference Guide     如果用solr自帶的jetty來運行程序,http://hostname:8983/solr/  是主界面。 左邊是logo和菜單, 以此作用是,看一些系統信息,系

原创 java在命令行中加入從classpath加載resource

有很多時間需要將 resource 加入到 classpath中 如一些配置文件,如果寫死配置文件的路徑,不方便遷移,不夠優雅,所以我們必須在代碼中寫相對路徑,我一般通過    getClass().getResourceAsStrea

原创 linux 重命名 rename

廢話不說 直接上腳本 ,本人親測好使。   #!/bin/bash

原创 shell stdin 變 參數

有時候我們想讓一個標準輸入流變成下一個腳本的參數,就可以使用 xargs echo ok | xargs  sh  ok.sh  這個時候  ok.sh 的參數就是 ok 同理,find 也是一樣 find / -type f -pri

原创 solr 跑起來

一個項目要求,需要做一個站內搜索,由於偏愛apache 的東西,由於喜歡他們的wiki,所以選擇了solr,所以選擇了tomcat 作爲容器。 我們的數據一般都放在db中, 所以在初始化的時候,我們必須從數據庫中倒入數據,作爲原始的積累

原创 awk and hadoop 之reducer

配合上面一篇 mapper篇,這篇主要講在reducer的時候怎麼處理兩個文件中的內容,在mapper中我們給每個文件中的內容打了 tag ,在第二個字段,然後就能處理了,只要key一樣,就可以弄到一個文件中去。 awk -F '\t'

原创 正則表達式 元字符備查

將下一個字符標記爲一個特殊字符、或一個原義字符、或一個向後引用、或一個八進制轉義符。例如,“n”匹配字符“n”。“\n”匹配一個換行符。串行“\\”匹配“\”而“\(”則匹配“(”。^  匹配輸入字符串的開始位置。如果設置了RegExp

原创 solr indexing 和基本的數據操作

翻譯自 Apache Solr Reference Guide   indexing: solr的索引能夠接受不同途徑的index,包括XML文件,CSV文件,數據庫裏的表,或者word,PDF中的信息。 有三種方式可以建立solr的索

原创 mahout中LDA簡介以及示例

翻譯自: https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation   簡介: Latent Dirichlet Allocation 

原创 linux java 線上問題排查

轉自:  http://www.myexception.cn/operating-system/415201.html   線上故障問題排查技能記載一 1. pgrep 查詢進程的工具 pgrep 是通過程序的名字來查詢進程的工具,一般