抓取靜態頁面的信息

原創

2018-08-31 06:05

任務要求：
抓取上述書單的信息，製作成xls文檔。
過程分析：
由於只是抓取靜態頁面的信息，不需要模擬登陸網站，任務被簡化——每一個頁面生成一個以專業名稱爲文檔名的xls文檔。
第一步、在開發者工具中分析頁面源碼，找到我們需要的書籍信息的位置。
第二步、截取對應信息，一部分str1作爲文檔名，一部分str2作爲文檔內容。
第三步、新建一個xls文檔，將str2存入文檔，將文檔名改爲str1。
實際操作：
第一步：
1、文檔名所在源碼

2、文檔內容所在源碼

第二步：
1、通過截取函數，將對應信息從頁面源碼中截取出來。

2、將截取的文檔內容中我們需要的內容提取出來

第三步、新建xls文檔，將需要內容存入文檔，並改文檔名

PS:在重命名文檔時，有一個轉碼過程，不然重命名的文檔名會出現亂碼。因爲Windows不支持utf-8格式，只支持gb2312格式。

結果展示：

後期改進一：
鑑於一個一個的複製URL太麻煩了，我使用文件和循環來一次進行。
第一步：將所有URL存入Excel文檔
代碼圖片如下：

循環部分：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PHP 代碼行數統計

<?php // 行數 $line = 0; // 需要統計的文件類型 $arr = array("php", "html", "css", "js"); // 過濾的文件夾 $filtering = array("ui", "dist

2020-07-08 12:38:08

慎用PHP $_REQUEST數組

我平時總是喜歡用$_REQUEST這個數組，不是因爲別的，簡單，而且想用GET時候就用GET直接測試即可。還可以把URL打出來，很是方便。從而很少用$_GET和$_POST超全局變量。不過，從今以後我會盡量不再使用$_REQUEST

2020-07-08 12:16:43

php函數名前面加@是何意

一、、、、@ 運算符只對表達式有效。對新手來說一個簡單的規則就是：如果能從某處得到值，就能在它前面加上 @ 運算符。例如，可以把它放在變量，函數和 include() 調用，常量，等等之前。不能把它放在函數或類的定義之前，也不能用於條件

2020-07-08 12:16:42

PHP和Javascript的JSON交互（處理一個二維數組）(轉)

2020-07-08 12:00:47

php,checkbox多選框上傳失敗

用慣java和其他語言的時候，表單上傳只需要checkbox的name相同的時候就可以上傳了 <input type="checkbox" name="checkbox" value="1"> 選項1 <input type="c

2020-07-08 11:48:15

php中的&&運算符

今天看discuz源碼，在一個函數裏發現這麼個語句: http:// $output && print($ret); 其中$output是這個函數的一個參數，值爲true或false;$ret是一個字符串. 測試了一下，如果$output

2020-07-08 11:45:39

php+mysql存儲html文件

$fileContent = trim($fileContent); $fileContent=$queueList->characet($fileContent);

2020-07-08 11:15:53

php+go實現grpc

1.先安裝編譯器:https://github.com/google/protobuf/releases把bin下的exe放到環境PATH目錄。做成環境變量. 2.獲取go支持庫的插件: // gRPC運行時接口編解碼支持庫 g

2020-07-08 11:15:42

Linux中PHP鏈接擴展.so動態庫

前幾天的一個實驗中涉及到使用PHP將本地文件部署到雲端，但是具體的實現卻還是需要費一番手腳，在網上找到的資料很多都沒辦法解決我自己遇到的實際困難，因此記錄下來僅供參考。 1、初始我使用的雲端服務器是CentOS7.6，PHP版本是PHP

2020-07-08 11:14:55

PHP之TRUE與FALSE總結

以下代碼主要用於測試PHP中進行條件判斷時各種情況。 <?php /** * the file use to test all kinds of true and false. */ class Sample { public f

taotaoyouarebaby

2020-07-08 11:05:39

PHP配置使PHP在頁面中支持輸出內容

解決辦法：找到系統中php.ini文件編輯，查找short_open_tag關鍵字，並將其設置爲：short_open_tag = On 注：需要找到short_open_tag = xx片段，可能會找到描述片段，修改並不起

2020-07-08 11:00:42

php操作xml最快的速度學習

做分享做總結不多嗶嗶，直接上代碼：掌握php如何通過dom對象創建xml文件，php如何讀取xml及如何讀取xml文件，獲取到讀取的xml對象就可以直接操作了 <?php /** * Created by PhpStorm. *

2020-07-08 10:52:26

wordpress數據字典

1.wordpress數據字典： 1.wp_categories: 用於保存分類相關信息的表。包括了5個字段，分別是: cat_ID – 每個分類唯一的ID號，爲一個bigint(20)值，且帶有附加屬性au

2020-07-08 10:22:11

linux下面安裝php xdebug擴展

1.在框架裏經常會遇到debug模式！開啓選項就可以通過日誌文件快速的定位到問題在win下面通過集成的開發包比如phpstudy就可以很容易的安裝xdebug的擴展 2.在linux下面就要通過編譯安裝來實現xde

2020-07-08 10:22:10

wordpress rest api插件使用

1.wordpress rest api 插件下載： https://wordpress.org/plugins/rest-api/ 2.將下載的包解壓到wp-content/plugins目錄下 3.刷新後

2020-07-08 10:22:10

24小時熱門文章

最新文章

最新評論文章