抓取網頁內容的程序或代碼(兩層或更多,delphi)

抓取網頁內容,通常大家以爲到網上偷數據,然後把到收集到的數據掛到自己網上去。其實也可以將採集到的數據做爲公司的參考,或把收集的數據跟自己公司的業務做對比等。
目前網頁採集多爲3P代碼爲多(3P即ASP、PHP 、JSP)。用得最有代表的就動易科技公司BBS中新聞採集系統,和網上流傳的新浪新聞採集系統等都是用ASP程序來使用,但速度從理論上來說不是很好。如果嘗試用其它軟件的多線程採集是不是更快?答案是肯定的。用DELPHI、VC、VB、JB都可以,PB似乎比較不好做。以下用DELPHI來解釋採集網頁數據。
一、 簡單的新聞採集
新聞採集是最簡單的,只要識別標題、副題、作者、出處、日期、新聞主體、分頁就可以了。在採集之前肯定要取得網頁的內容,所以在DELPHI里加入idHTTP控件(在indy Clients面板),然後用idHTTP1.GET 方法取得網頁的內容,聲明如下:
function Get(AURL: string): string; overload;
AURL參數,是string類型,指定一個URL地址字符串。函數返回也是string類型,返回網頁的HTML源文件。比如我們可以這樣調用:
tmpStr:= idHTTP1.Get(‘http://www.163.com’);
調用成功後,tmpstr變量裏存儲的就是網易主頁的代碼了。
接下來,講一下數據的截取,這裏,我定義了這麼一個函數:
function TForm1.GetStr(StrSource,StrBegin,StrEnd:string):string;
var
in_star,in_end:integer;
begin
in_star:=AnsiPos(strbegin,strsource)+length(strbegin);
in_end:=AnsiPos(strend,strsource);
result:=copy(strsource,in_sta,in_end-in_star);
end;
StrSource:string類型,表示HTML源文件。
StrBegin:string類型,表示截取開始的標記。
StrEnd:string,表示截取結束的標記。
函數返回字符串StrSource中從StrSource到StrBegin之間的一段文本。
比如:
strtmp:=TForm1.GetStr(‘A123BCD’,‘A’,‘BC’);
運行後,strtmp的值爲:’123’。
關於函數裏用到的AnsiPos和copy,都是系統定義的,可以從delphi的幫助文件裏找到相關說明,我在這裏也簡單羅嗦一下:
function AnsiPos(const Substr, S: string): Integer
返回Substr在S中第一次出現的位置。
function copy(strsource,in_sta,in_end-in_star): string;
返回字符串strsource中,從in_sta(整型數據)開始到in_end-in_star(整型數據)結束的字符串。
有了以上函數,我們就可以通過設置各種標記,來截取想要的文章內容了。在程序中,比較麻煩的是我們需要設置許多標記,要定位某一項內容,必須設置它的開始和結束標誌。比如要取得網頁上的文章標題,必須事先查看網頁代碼,查看出文章標題前邊和後邊的一些特徵代碼,通過這些特徵代碼,來截取文章的標題。
下面我們來實際演示一下,假設要採集的文章地址爲http://www.xxx.com/test.htm
代碼爲:
<html>
<head>
<meta http-equiv="Content-Language" content="zh-cn">
<meta name="GENERATOR" content="Microsoft FrontPage 5.0">
<meta name="ProgId" content="FrontPage.Editor.Document">
<meta http-equiv="Content-Type" content="text/html; charset=gb2312">
<title>新建網頁 1</title>
</head>
<body>
<p align="center"><b>文章標題</b></p>
<table border="1" cellpadding="0" cellspacing="0" style="border-collapse: collapse" bordercolor="#111111" width="100%" id="AutoNumber1">
<tr><td width="60%">作者</td>
<td width="40%">出處</td></tr>
</table>
<p><font size="2">這裏是文章內容正文。</font></p>
<a href='..new_pr.asp'>上一頁</a>  <a href='new_ne.asp'>下一頁</a>
</body>
</html>
第一步,我們用StrSource:= idHTTP1.Get(‘http://www.xxx.com/test.htm ’);將網頁代碼保存在strsource變量中。
然後定義strTitle、strAuthor、strCopyFrom、strContent:
strTitle:= GetStr(StrSource,’ <p align="center"><b>’,’ </b></p>’):
strAuthor:= GetStr(StrSource,’ <tr><td width="60%">’,’ </td>’):
strCopyFrom:= GetStr(StrSource,’ <td width="40%">’,’ </td></tr>’):
strContent:= GetStr(StrSource,’ <p><font size="2">,’ </font></p>’):
這樣,就能把文章的標題、副題、作者、出處、日期、內容和分頁分別存儲在以上變量中。
第二步,用循環的辦法,打開下一頁,並取得內容,加到strContent變量中。
StrSource:= idHTTP1.Get(‘new_ne.asp’);
strContent:= strContent +GetStr(StrSource,’ <p><font size="2">,’ </font></p>’):
然後再判斷有沒有下一頁,如果還有就接着取得下一頁的內容。
這樣就完成了一個簡單的截取過程。從以上的程序代碼可以看到,我們使用的截取辦法都是找截取內容的頭部和尾部的,如果遇到這個頭部和尾部有多個怎麼辦?似乎沒辦法,只會找到第一個,所以在找之前應該驗證一下是不是隻有一處有這個截取的內容的前後部。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章