抓取静态页面的信息

原創

2018-08-31 06:05

任务要求：
抓取上述书单的信息，制作成xls文档。
过程分析：
由于只是抓取静态页面的信息，不需要模拟登陆网站，任务被简化——每一个页面生成一个以专业名称为文档名的xls文档。
第一步、在开发者工具中分析页面源码，找到我们需要的书籍信息的位置。
第二步、截取对应信息，一部分str1作为文档名，一部分str2作为文档内容。
第三步、新建一个xls文档，将str2存入文档，将文档名改为str1。
实际操作：
第一步：
1、文档名所在源码

2、文档内容所在源码

第二步：
1、通过截取函数，将对应信息从页面源码中截取出来。

2、将截取的文档内容中我们需要的内容提取出来

第三步、新建xls文档，将需要内容存入文档，并改文档名

PS:在重命名文档时，有一个转码过程，不然重命名的文档名会出现乱码。因为Windows不支持utf-8格式，只支持gb2312格式。

结果展示：

后期改进一：
鉴于一个一个的复制URL太麻烦了，我使用文件和循环来一次进行。
第一步：将所有URL存入Excel文档
代码图片如下：

循环部分：

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

PHP 代码行数统计

<?php // 行數 $line = 0; // 需要統計的文件類型 $arr = array("php", "html", "css", "js"); // 過濾的文件夾 $filtering = array("ui", "dist

2020-07-08 12:38:08

慎用PHP $_REQUEST数组

我平時總是喜歡用$_REQUEST這個數組，不是因爲別的，簡單，而且想用GET時候就用GET直接測試即可。還可以把URL打出來，很是方便。從而很少用$_GET和$_POST超全局變量。不過，從今以後我會盡量不再使用$_REQUEST

2020-07-08 12:16:43

php函数名前面加@是何意

一、、、、@ 運算符只對表達式有效。對新手來說一個簡單的規則就是：如果能從某處得到值，就能在它前面加上 @ 運算符。例如，可以把它放在變量，函數和 include() 調用，常量，等等之前。不能把它放在函數或類的定義之前，也不能用於條件

2020-07-08 12:16:42

PHP和Javascript的JSON交互（处理一个二维数组）(转)

2020-07-08 12:00:47

php,checkbox多选框上传失败

用慣java和其他語言的時候，表單上傳只需要checkbox的name相同的時候就可以上傳了 <input type="checkbox" name="checkbox" value="1"> 選項1 <input type="c

2020-07-08 11:48:15

php中的&&运算符

今天看discuz源碼，在一個函數裏發現這麼個語句: http:// $output && print($ret); 其中$output是這個函數的一個參數，值爲true或false;$ret是一個字符串. 測試了一下，如果$output

2020-07-08 11:45:39

php+mysql存储html文件

$fileContent = trim($fileContent); $fileContent=$queueList->characet($fileContent);

2020-07-08 11:15:53

php+go实现grpc

1.先安裝編譯器:https://github.com/google/protobuf/releases把bin下的exe放到環境PATH目錄。做成環境變量. 2.獲取go支持庫的插件: // gRPC運行時接口編解碼支持庫 g

2020-07-08 11:15:42

Linux中PHP链接扩展.so动态库

前幾天的一個實驗中涉及到使用PHP將本地文件部署到雲端，但是具體的實現卻還是需要費一番手腳，在網上找到的資料很多都沒辦法解決我自己遇到的實際困難，因此記錄下來僅供參考。 1、初始我使用的雲端服務器是CentOS7.6，PHP版本是PHP

2020-07-08 11:14:55

PHP之TRUE与FALSE总结

以下代碼主要用於測試PHP中進行條件判斷時各種情況。 <?php /** * the file use to test all kinds of true and false. */ class Sample { public f

taotaoyouarebaby

2020-07-08 11:05:39

PHP配置使PHP在页面中支持输出内容

解決辦法：找到系統中php.ini文件編輯，查找short_open_tag關鍵字，並將其設置爲：short_open_tag = On 注：需要找到short_open_tag = xx片段，可能會找到描述片段，修改並不起

2020-07-08 11:00:42

php操作xml最快的速度学习

做分享做總結不多嗶嗶，直接上代碼：掌握php如何通過dom對象創建xml文件，php如何讀取xml及如何讀取xml文件，獲取到讀取的xml對象就可以直接操作了 <?php /** * Created by PhpStorm. *

2020-07-08 10:52:26

wordpress数据字典

1.wordpress數據字典： 1.wp_categories: 用於保存分類相關信息的表。包括了5個字段，分別是: cat_ID – 每個分類唯一的ID號，爲一個bigint(20)值，且帶有附加屬性au

2020-07-08 10:22:11

linux下面安装php xdebug扩展

1.在框架裏經常會遇到debug模式！開啓選項就可以通過日誌文件快速的定位到問題在win下面通過集成的開發包比如phpstudy就可以很容易的安裝xdebug的擴展 2.在linux下面就要通過編譯安裝來實現xde

2020-07-08 10:22:10

wordpress rest api插件使用

1.wordpress rest api 插件下載： https://wordpress.org/plugins/rest-api/ 2.將下載的包解壓到wp-content/plugins目錄下 3.刷新後

2020-07-08 10:22:10

24小時熱門文章

最新文章

最新評論文章