原创 solr searching 過程解析
翻譯自 Apache Solr Reference Guide solr提供了一個十分靈活,可拓展的搜索特性,當我們發送一個請求的時候,一個search query 被一個叫做requst handler處理,solr提供許多類型
原创 Thread 狀態詳解
原文:http://www.cnblogs.com/DreamSea/archive/2012/01/11/JavaThread.html 不廢話直接上圖: 1)優先級(priority) 每個類都有自己的優先級,一般propert
原创 理解solr中的 Analyzer,Tokenizer,Filter
翻譯自 Apache Solr Reference Guide Analyzer: analyzer負責檢查這個field,然後生成一個token流,一般作爲fieldType的一個字節點存在,比如: <analyzer type=
原创 awk and hadoop之mapper
1. 在awk 中mapper的時候我們經常會合並不同的文件,取我們想要的不同的字段。 awk -F "\t" ' { filename = ENVIRON["mapreduce_map_input_file"]; if
原创 awk join操作
有沒有遇到場景,要把兩個集合做一個join操作,用awk我們可以很方便的實現這個效果,設計到awk如何從兩個文件中讀取內容. 直接上代碼: awk -F ',' 'BEGIN{
原创 solr admin UI
翻譯自 Apache Solr Reference Guide 如果用solr自帶的jetty來運行程序,http://hostname:8983/solr/ 是主界面。 左邊是logo和菜單, 以此作用是,看一些系統信息,系
原创 java在命令行中加入從classpath加載resource
有很多時間需要將 resource 加入到 classpath中 如一些配置文件,如果寫死配置文件的路徑,不方便遷移,不夠優雅,所以我們必須在代碼中寫相對路徑,我一般通過 getClass().getResourceAsStrea
原创 linux 重命名 rename
廢話不說 直接上腳本 ,本人親測好使。 #!/bin/bash
原创 shell stdin 變 參數
有時候我們想讓一個標準輸入流變成下一個腳本的參數,就可以使用 xargs echo ok | xargs sh ok.sh 這個時候 ok.sh 的參數就是 ok 同理,find 也是一樣 find / -type f -pri
原创 solr 跑起來
一個項目要求,需要做一個站內搜索,由於偏愛apache 的東西,由於喜歡他們的wiki,所以選擇了solr,所以選擇了tomcat 作爲容器。 我們的數據一般都放在db中, 所以在初始化的時候,我們必須從數據庫中倒入數據,作爲原始的積累
原创 awk and hadoop 之reducer
配合上面一篇 mapper篇,這篇主要講在reducer的時候怎麼處理兩個文件中的內容,在mapper中我們給每個文件中的內容打了 tag ,在第二個字段,然後就能處理了,只要key一樣,就可以弄到一個文件中去。 awk -F '\t'
原创 正則表達式 元字符備查
將下一個字符標記爲一個特殊字符、或一個原義字符、或一個向後引用、或一個八進制轉義符。例如,“n”匹配字符“n”。“\n”匹配一個換行符。串行“\\”匹配“\”而“\(”則匹配“(”。^ 匹配輸入字符串的開始位置。如果設置了RegExp
原创 solr indexing 和基本的數據操作
翻譯自 Apache Solr Reference Guide indexing: solr的索引能夠接受不同途徑的index,包括XML文件,CSV文件,數據庫裏的表,或者word,PDF中的信息。 有三種方式可以建立solr的索
原创 mahout中LDA簡介以及示例
翻譯自: https://cwiki.apache.org/confluence/display/MAHOUT/Latent+Dirichlet+Allocation 簡介: Latent Dirichlet Allocation
原创 linux java 線上問題排查
轉自: http://www.myexception.cn/operating-system/415201.html 線上故障問題排查技能記載一 1. pgrep 查詢進程的工具 pgrep 是通過程序的名字來查詢進程的工具,一般