原创 TSE的中文分詞

TSE的字典用的是STL 中的MAP.關於英文字母的trie字典樹,是一個26 叉樹,查找效率0(logn). 現在,要把一篇網頁內容分割成一個一個的關鍵詞.TSE用的是最大正向減字法分詞. 先用一個很大的數組接受html裏,除了<>這些

原创 TSE從正向索引到反向索引

分詞的代碼在HzSeg.cpp中。 對raw格式的網頁內容 進行分割的代碼在DocSegment.cpp中 前面已經建立好2個表,一個是url對應着記錄號,一個是記錄號對應的偏移。 現在開始對網頁進行處理,實際上只用到第2張表。 遍歷這張

原创 TSE中提取HTML中鏈接的方法

TSE中提取html中鏈接 uri 採用的是Lex分析 TSE中和lex相關的是hlink.l和uri.l   其中 uri.l是用來處理一個提取出的uri ,hlink.l是用來提取html中鏈接的。 代碼流程:   在Crawl類

原创 zernike代碼

#include <stdio.h>#include <string.h>#include <math.h>#include "cv.h"#include "highgui.h" #define MaxP(x,y) (float)(x>

原创 TSE代碼爬取流程分析

開始是main函數,在main.cpp 如果控制檯參數是1個,就進行搜索: CSearch iSearch;   iSearch.DoSearch();   如果控制檯參數是2個,就運行網絡爬蟲: CCrawl iCrawl(argv[2

原创 TSE的網頁索引

全部過程是這樣的. 根據駐留在內存裏的set集合,取出沒有爬取的網頁連接,然後就去把它下載下來. 比如,下載了1000個網頁,然後把這1000個HTML都放到一個文件裏去,這個文件可能叫TianWang.raw.8415 意思就是線程號爲