--------------------------------------------採集---------------------------------------------
一:普通採集
①方法:
file_get_contents("一參");//獲取頁面全部內容;3
//一參:參數可爲'路徑'或者'靜態頁面的名'
preg_match_all(一參,二參,三參);//通過正則匹配獲取的內容(匹配全部);
//一參:正則; 二參:內容; 三參:變量名
preg_match(一參,二參,三參);//通過正則匹配獲取的內容(匹配一次);
//一參:正則; 二參:內容; 三參:變量名
strip_tags(一參);//去除HTML,XML和PHP中的各種標籤
//一參:要去除標籤的變量名
②,開啓php.ini中的配置:allow_url_fopen=On
③,範例:
$url=file_get_contents("路徑");
$path='匹配正則';
preg_match_all($path,$url,$ul);
$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";
preg_match_all($pathg,implode($ul[1],""),$qq);
foreach($qq[0] as $k=>$v){
//獲取詳細內容
}
二:Snoopy採集
①方法:
fetch(一參);//獲取網頁的內容
//一參:要採集頁面的路徑
fetchtext(一參);//只獲取網頁中的文字內容
//一參:要採集頁面的路徑
fetchlinks(一參);//返回鏈接
//一參:要採集頁面的路徑
submit(一參,二參);//僞登錄(俗稱假登錄)
//一參:網頁的地址;二參:數組名(登錄所需要的一些值)
②步驟:
require_once(一參)/include_once(一參);//引入'Snoopy.class.php'類
$snoopy=new Snoopy();//實例化snoopy
$snoopy->fetch(一參);//獲取頁面全部內容
//一參:要採集頁面的路徑
preg_match_all(一參,二參,三參);//通過正則匹配獲取的內容(匹配全部);
//一參:正則; 二參:內容; 三參:變量名
foreach(){}//做出相應的循環
$snoopy->results//Snoopy採集完成後存儲在其中
③範例:
require_once("Snoopy.class.php");
$snoopy=new Snoopy();
$snoopy->fetch("採集的路徑");
$path='匹配正則';
preg_match_all($path,$snoopy->results,$qq);
foreach($qq[0] as $k=>$v){
//獲取詳細內容
}