台部落erliang20088

有兩年沒整過nutch了，趕上公司需要，又重新理了下思路。我以前寫過一篇關於“myeclipse導入nutch1.2源碼”的博文，網址爲http://hi.baidu.com/erliang20088/item/a1099948c0

2020-06-19 09:34:20

一直在做自然語言處理相關的應用開發工作，一直沒能抽時間做相關的系統組件或是算法分析工作，最近有時間，將自然語言處量相關的分詞、搜索、各種計算統計分析模型都看了下，收穫不少，因時間關係，就以自己的見解來解釋下好像挺複雜的vsm吧，其實超

2020-06-19 02:21:23

最近在做JNI程序時，用到了相當於windows環境下的dll--動態鏈接庫的so庫，即linux環境下，程序執行時所需要函數鏈接庫。一般來說的so庫路徑尋找包括編譯時和運行時，因爲前邊提到的是JNI調用，則此處說的路徑尋找爲運行時候的

2020-06-19 02:21:23

早上本來想寫這個問題的解決方法，結果由於要上神勝的黨課，結果推到了下午才抽出時間，言歸正傳了~ 現在學習jsp以及應用jsp的人越來越多，那用tomcat也必然的越來越多，不可避免的就出現了中文亂碼。分爲客戶端亂

2020-06-19 00:52:50

最近有幾個朋友又問了些關於亂碼的問題，這是經典的開發問題，令很多開發者都很苦惱，其實只要稍微花些時間搞清的話，這個問題是非常好解決的。下面就java web開發的亂碼情況，解決思路如下：一、總體原則： 1、保證前臺、後臺、we

2020-06-19 00:52:50

今天在進一步做騰訊微博內容抓取的時候，如何循環抓取多頁的內容是個小難點。新浪的內容分頁主要是三頁式異步加載，而騰訊的分爲兩種方式：一種是常規的1，2，3，4，....下一頁的方式，二種是，類似於新浪分頁的三段式分頁加載。在此主要說下騰訊微

2020-06-19 00:52:50

由於要做微博短文本情感分析方向的畢設，而中文分詞是NLP方面的基礎，也是核心，從一定程度上決定了NLP的水平。現在就近期所學的中文分詞做個基本介紹。當下的中文分詞，主要有3種方式，一是基於字符串匹配的機械分詞，二是基於句

2020-06-19 00:52:50

由於近來又開始學習hadoop方面知識，又重溫和進一步整合了下hadoop、hbase、hive，對於版本的匹配做個如下小結。1、hadoop由於快速發展，版本更新很快，已經由hadoop0.x發展到hadoop2.x，目前hadoop2

2020-06-19 00:52:50

近兩週有很多在qq羣中有很多羣友討論關於微博類爬蟲時出現驗證碼時的解決方法，解決思路很明顯，一是人工打碼，二是OCR智能識別來解決，前者較簡單，後者較難只有大公司才能搞定80%，所以我們一般暫採取人工打碼的方式。但人工打碼，並這裏

2020-06-19 00:52:40

近來由於畢設需要，重新修改了新浪微博爬蟲廢了不少勁，希望下邊的總結能夠幫助後來的同學們。現行版的模擬登陸與以前相比，最大的改動在於cookie獲取時候的模擬url的請求過程，其難點之一的密碼加密並沒有任何改動，因爲此次的改動主

2020-06-19 00:52:40

近一年來，由於公司需要，也經常做Java程序面試官的工作，和很多中小型公司一樣，只要技術面不過，就直接pass了。在此簡單分享下我面的大概100人左右的求職者的筆試和麪試的注意事項。一、筆試 1、不可遲到，早到20-30分鐘爲宜

2020-06-19 00:52:40

早在2011年9月份就開始用了3個月時間學習hadoop、hbase、hive、nutch等東西，但當時沒有明確的想法和充足的時間，後來就沒有繼續深入下去。有幸在今年春節之前的1個月的時間，做了hadoop、hbase相結合的簡單開發

2020-06-19 00:52:40

1、所用環境：oracle enterprise linux+nutch1.2+jdk1.6+tomcat6.0 2、這四個資源備齊之後，並且安裝完畢，這些工作就不細說了，網上查一下很多的。 3、根據自己的環境配置,nutch1.2下的c

2020-03-04 23:58:14

這兩天有些空閒時間，看了些關於hadoop的相關資料，對hadoop有了更加深刻的認識，趁熱打鐵吧，讓想學hadoop的同志們，從此程序開始揭開hadoop的神祕面紗。 1、關於hadoop的一些介紹已經氾濫了，我就不綴述了，以其經

2020-03-04 23:58:14

都知道，nutch是基於lucene搜索的，而lucene是基於標準分詞StandardAnalyzer的（當然還有其它自帶的，效果都和StandardAnalyzer差不多），而它們的中文分詞效果都不理想，也就導致索引不理想，也就導致搜

2020-03-04 23:58:14