采集

--------------------------------------------采集---------------------------------------------

一:普通采集

 

方法

file_get_contents("一参");//获取页面全部内容;3

//一参:参数可为'路径'或者'静态页面的名'

 

preg_match_all(一参,二参,三参);//通过正则匹配获取的内容(匹配全部);

//一参:正则;    二参:内容;     三参:变量名

 

preg_match(一参,二参,三参);//通过正则匹配获取的内容(匹配一次);

//一参:正则;    二参:内容;     三参:变量名

 

strip_tags(一参);//去除HTML,XMLPHP中的各种标签

//一参:要去除标签的变量名

 

,开启php.ini中的配置:allow_url_fopen=On

 

③,范例

$url=file_get_contents("路径");

$path='匹配正则';

preg_match_all($path,$url,$ul);

$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";

preg_match_all($pathg,implode($ul[1],""),$qq);

foreach($qq[0] as $k=>$v){

//获取详细内容

}

 

二:Snoopy采集

 

方法

fetch(一参);//获取网页的内容

//一参:要采集页面的路径

 

fetchtext(一参);//只获取网页中的文字内容

//一参:要采集页面的路径

 

fetchlinks(一参);//返回链接

//一参:要采集页面的路径

 

submit(一参,二参);//伪登录(俗称假登录)

//一参:网页的地址;二参:数组名(登录所需要的一些值)

 

步骤

require_once(一参)/include_once(一参);//引入'Snoopy.class.php'

 

$snoopy=new Snoopy();//实例化snoopy

 

$snoopy->fetch(一参);//获取页面全部内容

//一参:要采集页面的路径

 

preg_match_all(一参,二参,三参);//通过正则匹配获取的内容(匹配全部);

//一参:正则;   二参:内容;  三参:变量名

 

foreach(){}//做出相应的循环

 

$snoopy->results//Snoopy采集完成后存储在其中

 

范例

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

$snoopy->fetch("采集的路径");

$path='匹配正则';

preg_match_all($path,$snoopy->results,$qq);

foreach($qq[0] as $k=>$v){

//获取详细内容

}

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章