採集 - 台部落

採集

原創

zhangrui_123

2019-02-23 00:38

--------------------------------------------採集---------------------------------------------

一：普通採集

①方法：

file_get_contents("一參");//獲取頁面全部內容；3

//一參：參數可爲'路徑'或者'靜態頁面的名'

preg_match_all(一參，二參，三參);//通過正則匹配獲取的內容(匹配全部);

//一參:正則；二參:內容；三參：變量名

preg_match(一參，二參，三參);//通過正則匹配獲取的內容(匹配一次);

//一參:正則；二參:內容；三參：變量名

strip_tags(一參);//去除HTML,XML和PHP中的各種標籤

//一參:要去除標籤的變量名

②，開啓php.ini中的配置:allow_url_fopen=On

③，範例：

$url=file_get_contents("路徑");

$path='匹配正則';

preg_match_all($path,$url,$ul);

$pathg="/http:\/\/www\.yanxuening\.com\/0902\/demo\d{1}\.htm/s";

preg_match_all($pathg,implode($ul[1],""),$qq);

foreach($qq[0] as $k=>$v){

//獲取詳細內容

}

二：Snoopy採集

①方法：

fetch(一參);//獲取網頁的內容

//一參：要採集頁面的路徑

fetchtext(一參);//只獲取網頁中的文字內容

//一參：要採集頁面的路徑

fetchlinks(一參);//返回鏈接

//一參：要採集頁面的路徑

submit(一參，二參);//僞登錄（俗稱假登錄）

//一參:網頁的地址；二參:數組名(登錄所需要的一些值）

②步驟：

require_once(一參)/include_once(一參);//引入'Snoopy.class.php'類

$snoopy=new Snoopy();//實例化snoopy

$snoopy->fetch(一參);//獲取頁面全部內容

//一參：要採集頁面的路徑

preg_match_all(一參，二參，三參);//通過正則匹配獲取的內容(匹配全部);

//一參:正則；二參:內容；三參：變量名

foreach(){}//做出相應的循環

$snoopy->results//Snoopy採集完成後存儲在其中

③範例：

require_once("Snoopy.class.php");

$snoopy=new Snoopy();

$snoopy->fetch("採集的路徑");

$path='匹配正則';

preg_match_all($path,$snoopy->results,$qq);

foreach($qq[0] as $k=>$v){

//獲取詳細內容

}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

採集

使用c#強大的表達式樹實現對象的深克隆之解決循環引用的問題

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU啓動那些事（12.A）- uSDHC eMMC啓動時間(RT1170)

linux安裝cuda和cudnn

Mellanox網卡開啓SR-IOV

模擬手機設備：使用 Playwright 實現移動端自動化測試

HTML 00 Tutorial

全面系統的AI學習路徑，幫助普通人也能玩轉AI

從零開始：使用 Playwright 腳本錄製實現自動化測試

uni-app實現上拉加載

Linux下php安裝Redis擴展

我的友情鏈接

分佈式memcached服務器代理magent安裝配置（CentOS6.6）

採集

採集

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結