原创 Lucene2.0中使用基於詞典的中文分詞器建立索引

  前一陣的分詞器寫好了,想用它建立索引,下面是具體代碼 package org.iceshirley.index;import java.sql.*;import java.io.*;import org.apache.lucene.

原创 加入網頁評估算法

面向主題的爬蟲設計,很重要的一步就是評估算法.   對於給定的關鍵字集合及其權重,考慮某個網頁的相關度可以使用向量空間模型來分析。 關鍵字權值的集合,我們用向量a來表示,其中 a=(a1,a2,...an) n爲關鍵字個數 對於每個關鍵字

原创 learn to crawl:比較分類模式

        基於分類器的聚焦爬蟲 ,是主體爬蟲的一個熱點研究方向,主流的分類器有naive bayes classification,neural network,support vector machine,svm是90年代出現的名

原创 中科院分詞包ICTCLAS

在eclipse裏面調用這個包,需要在創建項目的時候選擇src和bin這樣的結構,否則會出錯 在着 默認情況下ictclas的構造函數是private的,如果要使用它,要改成public ictclas構造函數默認情況下 init(0,2

原创 weka中Saving and loading Trained models

最近使用weka的一些分類器訓練了一些樣本,樣本集很小,時間也就短,如果樣本集很大,訓練時間長的話,不可能每次都訓練一次,於是便想把訓練好的模型保存到硬盤上。做了個實驗,已通過。 訓練集使用的weka自帶的數據集weather.nomin

原创 使用swing自帶的html解析器來解析html

使用java自帶的swing解析html,用起來簡單,速度也很快。首先要導入javax.swing.text.*和javax.swing.text.html.*兩個包。然後定義一個parser的類,繼承了javax.swing.text.

原创 自己用LUCENE建立索引

   在spider搜索的網頁基礎上作的,依然連接mysql數據庫 class LinkToDb ...{ protected Connection con; protected PreparedStatement preCount; 

原创 非阻塞套接字(Nonblocking Sockets) 概述

非阻塞套接字(Nonblocking sockets),自J2SE 1.4版引入,它允許網絡通信在應用程序和沒有阻塞的進程中使用套接字。在這篇文章中,

原创 增強bot.jar包中htmlpage類

最近使用在sourceforce上html的分析包,覺得有些麻煩,後來把bot1.4包的htmlpage的源代碼看了看,發現是用swing來解析html的,但是這個類僅僅實現了發現form link image,並沒有實現太多的功能,出於

原创 Analysis包中的源碼詳解

  Analyzer.java 上文已經講過。 CharTokenizer.java 此類爲簡單一個抽象類,用來對基於字符的進行簡單分詞(tokeni

原创 聚焦爬蟲的工作原理

聚焦爬蟲的工作流程比較複雜,需要根據一定的網頁分析算法過濾與主題無關的網頁,保存有用的連接並且添加到等待抓取得url對列中,並根據一定的搜索策略從等待隊列中選擇下一步要抓取的連接。重複着一個過程,直到滿足一定條件爲止。 主要解決問題有:對

原创 java正則表達式

現在JDK1.4裏終於有了自己的正則表達式API包,JAVA程序員可以免去找第三方提供的正則表達式庫的周折了,我們現在就馬上來了解一下這個SUN提供的

原创 逆向最大區配算法

一、定義 逆向mm算法:假設詞典裏面中最長的詞條所包含的字數爲L,則從待分析的字符串中取出L個詞,比較詞典,如果不存在,則去掉最後一個字,在與詞典比較,如此反覆循環。直到滿足條件爲止。 二、實現過程 構造一個MMChineseAnalyz

原创 java1.4中的新I/O:存儲器映射文件

 在jdk1.4種,sun引入了一種新I/O,目的是提升速度。實現的機制更接近操作系統操作i/o的機制:緩衝器和通道。舊的I/O 已經之用新的nio包

原创 utf8網頁的問題

在myeclipse中建立java項目,目的看看我那個爬蟲亂麻現象的原因; 在數據庫中找到亂麻的數據項,然後再ie中輸入其url,發現網頁的編碼是utf-8的格式 bot包中http類有個getbody方法,作用是得到當前網頁的源文件,h