原创 myeclipse導入nutch1.6的配置和若干問題

有兩年沒整過nutch了,趕上公司需要,又重新理了下思路。我以前寫過一篇關於“myeclipse導入nutch1.2源碼”的博文,網址   爲http://hi.baidu.com/erliang20088/item/a1099948c0

原创 向量空間模型(vsm) 簡介

 一直在做自然語言處理相關的應用開發工作,一直沒能抽時間做相關的系統組件或是算法分析工作,最近有時間,將自然語言處量相關的分詞、 搜索、各種計算統計分析模型都看了下,收穫不少,因時間關係,就以自己的見解來解釋下好像挺複雜的vsm吧,其實超

原创 JNI調用時so鏈接庫文件的路徑設置

最近在做JNI程序時,用到了相當於windows環境下的dll--動態鏈接庫的so庫,即linux環境下,程序執行時所需要函數鏈接庫。 一般來說的so庫路徑尋找包括編譯時和運行時,因爲前邊提到的是JNI調用,則此處說的路徑尋找爲運行時候的

原创 tomcat中文亂碼的解決方法

     早上本來想寫這個問題的解決方法,結果由於要上神勝的黨課,結果推到了下午才抽出時間,言歸正傳了~         現在學習jsp以及應用jsp的人越來越多,那用tomcat也必然的越來越多,不可避免的就出現了中文亂碼。分爲客戶端亂

原创 關於java web開發中亂碼問題的解決思路

  最近有幾個朋友又問了些關於亂碼的問題,這是經典的開發問題,令很多開發者都很苦惱,其實只要稍微花些時間搞清的話,這個問題是非常好解決的。下面就java web開發的亂碼情況,解決思路如下: 一、總體原則:    1、保證前臺、後臺、we

原创 騰訊微博抓取--細節(2)

今天在進一步做騰訊微博內容抓取的時候,如何循環抓取多頁的內容是個小難點。新浪的內容分頁主要是三頁式異步加載,而騰訊的分爲兩種方式:一種是常規的1,2,3,4,....下一頁的方式,二種是,類似於新浪分頁的三段式分頁加載。在此主要說下騰訊微

原创 中文分詞之trie樹機械分詞簡介

 由於要做微博短文本情感分析方向的畢設,而中文分詞是NLP方面的基礎,也是核心,從一定程度上決定了NLP的水平。現在就近期所學的中文分詞做個基本介紹。        當下的中文分詞,主要有3種方式,一是基於字符串匹配的機械分詞,二是基於句

原创 hadoop、hbase、hive版本匹配問題

由於近來又開始學習hadoop方面知識,又重溫和進一步整合了下hadoop、hbase、hive,對於版本的匹配做個如下小結。1、hadoop由於快速發展,版本更新很快,已經由hadoop0.x發展到hadoop2.x,目前hadoop2

原创 微博模擬登陸之驗證碼的解決方法

近兩週有很多在qq羣中有很多羣友討論關於微博類爬蟲時出現驗證碼時的解決方法,解決思路很明顯,一是人工打碼,二是OCR智能識別來解決,前者較簡單,後者較難只有大公司才能搞定80%,所以我們一般暫採取人工打碼的方式。    但人工打碼,並這裏

原创 新浪微博爬蟲模擬登陸-最新版-2014-01-14

近來由於畢設需要,重新修改了新浪微博爬蟲廢了不少勁,希望下邊的總結能夠幫助後來的同學們。      現行版的模擬登陸與以前相比,最大的改動在於cookie獲取時候的模擬url的請求過程,其難點之一的密碼加密並沒有任何改動,因爲此次的改動主

原创 程序員筆試面試注意事項-1

 近一年來,由於公司需要,也經常做Java程序面試官的工作,和很多中小型公司一樣,只要技術面不過,就直接pass了。在此簡單分享下我面的大概100人左右的求職者的筆試和麪試的注意事項。 一、筆試    1、不可遲到,早到20-30分鐘爲宜

原创 雲計算之hadoop生態圈簡介

  早在2011年9月份就開始用了3個月時間學習hadoop、hbase、hive、nutch等東西,但當時沒有明確的想法和充足的時間,後來就沒有繼續深入下去。有幸在今年春節之前的1個月的時間,做了hadoop、hbase相結合的簡單開發

原创 linux搭建nutch1.2單機環境

1、所用環境:oracle enterprise linux+nutch1.2+jdk1.6+tomcat6.0 2、這四個資源備齊之後,並且安裝完畢,這些工作就不細說了,網上查一下很多的。 3、根據自己的環境配置,nutch1.2下的c

原创 Hadoop之WordCount之己見

   這兩天有些空閒時間,看了些關於hadoop的相關資料,對hadoop有了更加深刻的認識,趁熱打鐵吧,讓想學hadoop的同志們,從此程序開始揭開hadoop的神祕面紗。 1、關於hadoop的一些介紹已經氾濫了,我就不綴述了,以其經

原创 用IKAnalyzer替換nutch分詞組件

都知道,nutch是基於lucene搜索的,而lucene是基於標準分詞StandardAnalyzer的(當然還有其它自帶的,效果都和StandardAnalyzer差不多),而它們的中文分詞效果都不理想,也就導致索引不理想,也就導致搜