php採集程序構建基本步驟:
採集程序是什麼?獲取遠程數據(文字、圖片、圖片)並快速保存到本地或指定地址。
如天氣預報(小偷程序):
遠程獲取--》替換內容--》展示給用戶
如實時更新的新聞(採集內容):
遠程獲取--》提取內容--》分類存儲--》讀取內容---》展示內容
*************************
設計PHP採集入庫UML
列表正則:
終端正則:
**************************
file_get_contents()獲取遠程頁面內容
preg_match_all()匹配列表
preg_match()匹配終端
preg_replace() :過濾終端
**************************
新建一個列表文件:lb.php
echo $con=file_get_cotents($_GET[url]);
$preg ="#<h1><a href='(.*)' target='_blank'>(.*)</a><span>#iUs";
pg_match_all($preg,$conn,$arr);
foreach($arr[1] as $id=>$v){
echo $v." "arr[2][$id]."<br>";
}
新建vi。php獲取標題
vi.php
$con=file_get_contents();
$preg="<title>(.*)</title>/iUs";//大小寫不敏感,防止貪婪匹配,防止換行
echo zz($preg,$con);
function zz($preg,$con,$num=1){
preg_match($preg,$con,$arr);
return $arr[$num];
}
echo $arr[1];//獲取標題
echo "<a href=vi.php?url=".$v.">".arr[2][$id]."<br>";
======================================
php100:83:採集程序
lb.php
<?php
if($_GET[id]){
$con=file_get_cotents($_GET[url].$_GET[id]."shtml");
$preg ="/<h1><a href='(.*)' target='_blank'>(.*)</a><span>/iUs";
perg_match_all($preg,$conn,$arr);
foreach($arr[1] as $id=>$v){
echo $v." "arr[2][$id]."<br>";
}
$_GET[id]++;
echo "<script>location.href='lb.php?id='.$_GET[id]."</script>";
}
?>
http://www.xinhuanet.com/finance/tzxx.htm
===============================================================
操作步驟:
1.新建一個數據庫caiji,tep_url表,id,title,content,11 ,100,150
2.新建一個conn.php,插入的語句可以通過phpmyadmin插入一個語句簡單的獲得
3.新建一個vi.php
4.單條入庫獲取下一條。
臨時的路徑列表:
完善我的入庫表。
假設刪刪除了其中的一條Id值,怎麼辦?刪除了第9條!
多加一條語句
$sql2="select * from tmp_url where id>'$gid'order by id asc limit 1