一個簡單PHP採集器

<?php
 
//****************************************************************
$url = "http://book.sina.com.cn/nzt/lit/zhuxian2/index.shtml";// 圖書地址
$ver = "old"; //新舊版本
//****************************************************************
 
$r = file_get_contents($url); //用file_get_contents將網址打開並讀取所打開的頁面的內容
preg_match("/<meta name=\"description\" content=\"(.*?)\">/is",$r,$booktitle);//匹配此頁面的標題
$bookname = $booktitle[1];//取第二層數組
$preg = '/<li><a href=(.*).shtml target=_blank class=a03>/isU';
preg_match_all($preg, $r, $zj); //將此頁面的章節連接匹配出來
$bookzj = count($zj[1]);// 計算章節標題數量
if ($ver=="new"){
$content_start = "<!--正文內容開始-->";
$content_end = "<!--正文內容結束-->";
}
if ($ver=="old"){
$content_start = "<\/table><!--NEWSZW_HZH_END-->";
$content_end = "<br>";
}
 
header("Content-Type:text/html;charset=gb2312");
 
writer($bookname." 共".$bookzj."節\r\n帥哥劉並於".date("D M j G:i:s T Y")."爲了畢業而設計小說整理收集\r\n", "./ailaopo/".$bookname.".txt","w+");
for ($i=0;$i<$bookzj;$i++) {
//echo "http://book.sina.com.cn".$zj[1][$i]".shtml";die();
//用file_get_contents將章節連接打開並讀取所打開的頁面的內容
$str = file_get_contents("http://book.sina.com.cn".$zj[1][$i].".shtml");
preg_match("/(<title>)(.*?)(<\/title>)/is",$str,$title);//匹配此連接頁面的標題
$title = str_replace("_讀書頻道_新浪網","",$title[2]);//把$title[2]裏面有_讀書頻道_新浪網的換成空
preg_match("/(".$content_start.")(.*?)(".$content_end.")/is",$str,$content);//匹配此連接頁面的內容
$content = preg_replace("/<(.*?)>/s","",str_replace("</p>","\r\n",$content[2]));//用str_replace把$content[2]裏有</p> 的換成\r\n
print_r($content);
exit;
//把第".($i+1)."節和標題與內容連接在一起放在變量
$result = " \r\n第".($i+1)."節--------".$title."_汪老師就是帥 --------- \r\n".$content;
writer($result, "./ailaopo/".$bookname.".txt","a+");//調用函數把$result
echo "小說".$bookname."共".$bookzj."節,現在整理到第".$i."節 _".$title."<br>";
}
echo "小說".$bookname."共".$bookzj."節 已全部整理完成!";
 
function writer($content,$url,$mode)//定義函數名 writer 參數$content,$url,$mode
{
$fp = fopen($url, $mode);//打開文件$url
fwrite($fp, $content);//把$content放入到$fp
fclose($fp); //關閉$fp
}
?>


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章