採集

--------------------------------------------採集---------------------------------------------

一:普通採集

 

方法

file_get_contents("一參");//獲取頁面全部內容;3

//一參:參數可爲'路徑'或者'靜態頁面的名'

 

preg_match_all(一參,二參,三參);//通過正則匹配獲取的內容(匹配全部);

//一參:正則;    二參:內容;     三參:變量名

 

preg_match(一參,二參,三參);//通過正則匹配獲取的內容(匹配一次);

//一參:正則;    二參:內容;     三參:變量名

 

strip_tags(一參);//去除HTML,XMLPHP中的各種標籤

//一參:要去除標籤的變量名

 

,開啓php.ini中的配置:allow_url_fopen=On

 

③,範例

$url=file_get_contents("路徑");

$path='匹配正則';

preg_match_all($path,$url,$ul);

$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";

preg_match_all($pathg,implode($ul[1],""),$qq);

foreach($qq[0] as $k=>$v){

//獲取詳細內容

}

 

二:Snoopy採集

 

方法

fetch(一參);//獲取網頁的內容

//一參:要採集頁面的路徑

 

fetchtext(一參);//只獲取網頁中的文字內容

//一參:要採集頁面的路徑

 

fetchlinks(一參);//返回鏈接

//一參:要採集頁面的路徑

 

submit(一參,二參);//僞登錄(俗稱假登錄)

//一參:網頁的地址;二參:數組名(登錄所需要的一些值)

 

步驟

require_once(一參)/include_once(一參);//引入'Snoopy.class.php'

 

$snoopy=new Snoopy();//實例化snoopy

 

$snoopy->fetch(一參);//獲取頁面全部內容

//一參:要採集頁面的路徑

 

preg_match_all(一參,二參,三參);//通過正則匹配獲取的內容(匹配全部);

//一參:正則;   二參:內容;  三參:變量名

 

foreach(){}//做出相應的循環

 

$snoopy->results//Snoopy採集完成後存儲在其中

 

範例

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

$snoopy->fetch("採集的路徑");

$path='匹配正則';

preg_match_all($path,$snoopy->results,$qq);

foreach($qq[0] as $k=>$v){

//獲取詳細內容

}

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章