台部落iceshirley

前一陣的分詞器寫好了，想用它建立索引，下面是具體代碼 package org.iceshirley.index;import java.sql.*;import java.io.*;import org.apache.lucene.

2020-06-16 12:35:02

面向主題的爬蟲設計，很重要的一步就是評估算法. 對於給定的關鍵字集合及其權重，考慮某個網頁的相關度可以使用向量空間模型來分析。關鍵字權值的集合，我們用向量a來表示，其中 a=(a1,a2,...an) n爲關鍵字個數對於每個關鍵字

2020-06-16 12:35:02

基於分類器的聚焦爬蟲 ,是主體爬蟲的一個熱點研究方向,主流的分類器有naive bayes classification,neural network,support vector machine,svm是90年代出現的名

2020-06-16 12:35:02

在eclipse裏面調用這個包，需要在創建項目的時候選擇src和bin這樣的結構，否則會出錯在着默認情況下ictclas的構造函數是private的，如果要使用它，要改成public ictclas構造函數默認情況下 init(0,2

2020-06-16 12:35:02

最近使用weka的一些分類器訓練了一些樣本，樣本集很小，時間也就短，如果樣本集很大，訓練時間長的話，不可能每次都訓練一次，於是便想把訓練好的模型保存到硬盤上。做了個實驗，已通過。訓練集使用的weka自帶的數據集weather.nomin

2020-06-16 12:35:02

使用java自帶的swing解析html，用起來簡單，速度也很快。首先要導入javax.swing.text.*和javax.swing.text.html.*兩個包。然後定義一個parser的類，繼承了javax.swing.text.

2020-02-21 07:46:49

在spider搜索的網頁基礎上作的，依然連接mysql數據庫 class LinkToDb ...{ protected Connection con; protected PreparedStatement preCount;

2020-02-21 07:46:49

非阻塞套接字（Nonblocking sockets）,自J2SE 1.4版引入，它允許網絡通信在應用程序和沒有阻塞的進程中使用套接字。在這篇文章中，

2020-02-21 07:46:49

最近使用在sourceforce上html的分析包，覺得有些麻煩，後來把bot1.4包的htmlpage的源代碼看了看，發現是用swing來解析html的，但是這個類僅僅實現了發現form link image，並沒有實現太多的功能，出於

2020-02-21 07:46:49

Analyzer.java 上文已經講過。 CharTokenizer.java 此類爲簡單一個抽象類，用來對基於字符的進行簡單分詞（tokeni

2020-02-21 07:46:49

聚焦爬蟲的工作流程比較複雜，需要根據一定的網頁分析算法過濾與主題無關的網頁，保存有用的連接並且添加到等待抓取得url對列中，並根據一定的搜索策略從等待隊列中選擇下一步要抓取的連接。重複着一個過程，直到滿足一定條件爲止。主要解決問題有：對

2020-02-21 07:46:49

現在JDK1.4裏終於有了自己的正則表達式API包，JAVA程序員可以免去找第三方提供的正則表達式庫的周折了，我們現在就馬上來了解一下這個SUN提供的

2020-02-21 07:46:48

一、定義逆向mm算法：假設詞典裏面中最長的詞條所包含的字數爲L，則從待分析的字符串中取出L個詞，比較詞典，如果不存在，則去掉最後一個字，在與詞典比較，如此反覆循環。直到滿足條件爲止。二、實現過程構造一個MMChineseAnalyz

2020-02-21 07:46:48

在jdk1.4種，sun引入了一種新I/O，目的是提升速度。實現的機制更接近操作系統操作i/o的機制：緩衝器和通道。舊的I/O 已經之用新的nio包

2020-02-21 07:46:48

在myeclipse中建立java項目，目的看看我那個爬蟲亂麻現象的原因；在數據庫中找到亂麻的數據項，然後再ie中輸入其url，發現網頁的編碼是utf-8的格式 bot包中http類有個getbody方法，作用是得到當前網頁的源文件，h

2020-02-21 07:46:47