Python开源网络爬虫或网络蜘蛛scrapy入门遇到问题

原創

csupengu

2018-08-25 16:52

踏过千山万水，峰回路转，终于装上了scrapy爬虫构架。接着参照网上写一个demo。

中文demo：http://www.cnblogs.com/txw1958/archive/2012/07/16/scrapy-tutorial.html

英文原创demo：http://doc.scrapy.org/en/0.16/intro/tutorial.html

由于疏忽，在spider目录下的蜘蛛程序中，有那么一段代码：

filename = response.url.split("/")[-2]

敲入时少了后面的 [-2]，于是

filename = response.url.split("/")

然后运行，问题就来了

一下子被吓倒了，貌似问题出现在Twisted模块，是不是装Twisted版本不对导致的。Google一下，找到有类似的问题，按网上做，还是没解决。此时已经严重怀疑是Twisted版本问题导致的，不过这时还不想重装Twisted，毕竟太麻烦了。于是到英文scrapy.org网站找scrapy demo例子。照搬下来，居然可以正常运行了！！！此时证明不是Twisted版本问题，发现自己代码少了[-2]的缘故。分析一下，可能是open（）这个函数是继承Twisted的open（），从而错误提示指向Twisted模块。这种错误提示没什么价值，反而有很大的误导性。

所以啊，有时候程序的错误提示并不是问题的真正所在。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python开源网络爬虫或网络蜘蛛scrapy入门遇到问题

使用c#强大的表达式树实现对象的深克隆之解决循环引用的问题

GPT-4o 引领人机交互新风向，向量数据库赛道沸腾了

free AI online tools All In One

痞子衡嵌入式：恩智浦i.MX RT1xxx系列MCU启动那些事（12.A）- uSDHC eMMC启动时间(RT1170)

基于Ubuntu-22.04安装K8s-v1.28.2实验（二）使用kube-vip实现集群VIP访问

企业大模型如何成为自己数据的“百科全书”？

本地SSL证书过期输入命令在IIS自动生成

.NET周刊【5月第2期 2024-05-12】

基于Ubuntu-22.04安装K8s-v1.28.2实验（一）部署K8s

基于Ubuntu-22.04安装K8s-v1.28.2实验（三）数据卷挂载NFS（网络文件系统）

Unicode 與utf編碼

認識全局標識符

java知識點

自動化測試robot framework學習筆記

LoadRunner 自動登錄163郵箱

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結