台部落wilbur8415

TSE的字典用的是STL 中的MAP.關於英文字母的trie字典樹,是一個26 叉樹,查找效率0(logn). 現在,要把一篇網頁內容分割成一個一個的關鍵詞.TSE用的是最大正向減字法分詞. 先用一個很大的數組接受html裏,除了<>這些

2018-09-05 21:19:11

分詞的代碼在HzSeg.cpp中。對raw格式的網頁內容進行分割的代碼在DocSegment.cpp中前面已經建立好2個表，一個是url對應着記錄號，一個是記錄號對應的偏移。現在開始對網頁進行處理，實際上只用到第2張表。遍歷這張

2018-09-05 21:19:00

TSE中提取html中鏈接 uri 採用的是Lex分析 TSE中和lex相關的是hlink.l和uri.l 其中 uri.l是用來處理一個提取出的uri ，hlink.l是用來提取html中鏈接的。代碼流程：在Crawl類

2018-09-05 21:19:00

#include <stdio.h>#include <string.h>#include <math.h>#include "cv.h"#include "highgui.h" #define MaxP(x,y) (float)(x>

2018-09-05 21:19:00

開始是main函數,在main.cpp 如果控制檯參數是1個,就進行搜索: CSearch iSearch; iSearch.DoSearch(); 如果控制檯參數是2個,就運行網絡爬蟲: CCrawl iCrawl(argv[2

2018-09-05 21:19:00

全部過程是這樣的. 根據駐留在內存裏的set集合,取出沒有爬取的網頁連接,然後就去把它下載下來. 比如,下載了1000個網頁,然後把這1000個HTML都放到一個文件裏去,這個文件可能叫TianWang.raw.8415 意思就是線程號爲

2018-09-05 21:18:59