[方法篇](禁止YisouSpider|EasouSpider|EtaoSpider)搜索引擎蜘蛛給網站帶來的危害,有效指引爬蟲對應的措施

搜索引擎蜘蛛給網站帶來的危害,有效指引爬蟲對應的措施[方法篇](禁止YisouSpider|EasouSpider|EtaoSpider)

上一遍文章《搜索引擎蜘蛛給網站帶來的危害,有效指引爬蟲對應的措施(最準確搜索引擎蜘蛛名稱)》
下一篇“如何更高效發現&屏蔽搜索引擎蜘蛛”實例篇。

 

   現在接着詳細介紹該方法,包括如何發現蜘蛛,從網站的日誌裏統計蜘蛛,發現未知的蜘蛛。針對不同的蜘蛛,屏蔽蜘蛛、禁止爬蟲怎麼樣更高效,更快捷。並且通過實例來介紹。

收集最新最準確搜索引擎蜘蛛IP

信息來源線上:最新最準確
根據線上空間的訪問日誌來整理常見的蜘蛛名稱,不求最全,但力求爬蟲信息資料最新最準確。以下搜索引擎蜘蛛名稱都是根據線上空間日誌親手提取。
各種搜索引擎的蜘蛛爬蟲會不斷地訪問抓取我們站點的內容,也會消耗站點的一定流量,有時候就需要屏蔽某些蜘蛛訪問我們的站點。
其實有效常用的搜索引擎就那麼幾個,只要在robots.txt文件裏把常用的幾個搜索引擎蜘蛛允許放行就好了,其它的爬蟲統統通過通配符(*)禁止掉,屏蔽某些蜘蛛。


YisouSpider,這貨是哪個的蜘蛛?怎麼封掉它?
答案:國內最瘋狂的蜘蛛,能讓你的網站掛掉。VPS、小內存虛擬機就別說了,它來十遭殃。

直接來有質量的內容
1.怎麼抓住這個YisouSpider爬蟲?
2.直接封YisouSpider方法。
3.檢測配置有效性

1.怎麼抓住這個YisouSpider爬蟲?

Nginx爲例,日誌文件爲

access.log
cat grep access.log
命令
cat access.log | grep -i "YisouSpider" | awk '{print $1}' > iplog.txt

將他的抓取ip日誌保存起來。
分析統計,連續的IP,C段IP計算,這蜘蛛它的IP資源挺多啊!

cat iplog.txt | awk -F'.' '{print $1"."$2"."$3".0"}' | sort | uniq -c | sort -r -n > stat_ip.log

以下是搜索引擎蜘蛛爬蟲IP地址,這裏只是部分蜘蛛IP,不完整。

YisouSpider搜索引擎蜘蛛
iplog.txt

實例IP統計:
15370 110.75.176.51
15310 110.75.176.52
15100 110.75.176.53
15050 110.75.176.50
15040 110.75.176.54
14880 110.75.176.49
14810 118.195.65.244
14310 118.195.65.245
13560 118.195.65.242
13460 125.39.66.149
12760 125.39.66.148
12670 125.39.66.150
11300 211.138.121.37
10790 211.138.121.38
10610 125.39.66.146
10100 211.138.121.36
8880 221.176.88.90
8810 125.39.66.147
8470 118.195.65.246
6730 211.162.121.246
5560 221.176.14.6
4880 221.176.88.87
4540 118.195.65.243
2730 122.228.66.130
2560 122.228.66.134
2410 122.228.66.132
2370 221.176.88.106
2250 122.228.66.133
2030 221.176.88.78
1980 110.75.172.81
1960 221.176.88.104
1910 221.176.88.82
1880 221.176.88.86
1850 110.75.172.80
1840 122.228.66.135
1770 110.75.172.82
1650 221.176.88.89
1640 221.176.88.101
1640 110.75.172.77
1620 110.75.172.78
1600 221.176.88.81
1570 110.75.172.79
1560 221.176.88.98
1560 221.176.88.100
1540 221.176.88.88
1430 221.176.88.79
1110 119.233.255.60
1000 122.198.80.12
790 183.129.198.78
710 183.129.198.79
640 27.24.158.140
630 27.24.158.139
580 122.228.66.165
530 183.129.198.69
480 183.129.198.77
480 122.228.66.162
460 110.75.173.195
450 27.24.158.156
450 122.228.66.167
420 183.129.198.80
420 122.228.66.166
410 122.228.66.164
390 67.55.71.208
390 27.24.158.152
390 122.228.66.163
340 221.130.18.152
310 221.130.18.148
290 202.171.253.105
270 110.75.173.196
250 202.171.253.104
200 110.75.173.199
190 110.75.173.197
180 221.130.18.121
170 202.171.253.108
170 110.75.176.19
170 110.75.173.200
170 110.75.173.198
160 221.181.192.23
160 110.75.176.20
150 202.171.253.103
150 173.208.185.2
150 110.75.174.227
150 110.75.174.185
130 110.75.174.186
130 110.75.174.184
130 110.75.173.7
130 110.75.173.201
120 221.130.18.122
120 120.203.215.10
120 110.75.175.24
120 110.75.174.228
110 221.130.18.120
110 120.203.214.129
110 110.75.174.230
110 110.75.174.225
110 110.75.173.204
110 110.75.172.109
100 120.203.215.8
100 118.244.165.184
100 110.75.176.27
100 110.75.176.23
100 110.75.174.55
100 110.75.174.244
100 110.75.174.243
100 110.75.174.226
100 110.75.173.221
100 110.75.173.175
90 67.210.103.46
90 110.75.175.23
90 110.75.175.19
90 110.75.174.248
90 110.75.174.229
90 110.75.174.183
90 110.75.173.51
90 110.75.173.206
90 110.75.173.203
90 110.75.173.202
80 221.130.18.123
80 110.75.176.22
80 110.75.175.45
80 110.75.174.59
80 110.75.174.245
80 110.75.173.222
80 110.75.173.10
80 110.75.172.107
70 221.130.18.155
70 110.75.176.29
70 110.75.176.21
70 110.75.175.13
70 110.75.174.57
70 110.75.174.56
70 110.75.174.170
70 110.75.174.162
70 110.75.173.9
60 120.203.215.18
60 120.203.214.130
60 110.75.175.15
60 110.75.174.187
60 110.75.174.164
60 110.75.174.160
60 110.75.173.8
60 110.75.173.60
60 110.75.173.52
60 110.75.173.40
60 110.75.173.29
60 110.75.173.224
60 110.75.173.219
60 110.75.173.205
60 110.75.173.19
60 110.75.173.146
50 124.83.190.64
50 124.83.190.62
50 110.75.176.60
50 110.75.176.30
50 110.75.176.26
50 110.75.175.20
50 110.75.175.14
50 110.75.174.246
50 110.75.174.169
50 110.75.174.166
50 110.75.174.165
50 110.75.174.161
50 110.75.173.58
50 110.75.173.54
50 110.75.173.50
50 110.75.173.220
50 110.75.173.164
50 110.75.173.11
40 221.130.18.88
40 110.75.176.57
40 110.75.176.25
40 110.75.175.30
40 110.75.175.21
40 110.75.174.60
40 110.75.174.58
40 110.75.174.233
40 110.75.174.195
40 110.75.174.188
40 110.75.174.167
40 110.75.174.159
40 110.75.173.59
40 110.75.173.57
40 110.75.173.56
40 110.75.173.42
40 110.75.173.41
40 110.75.173.39
40 110.75.173.38
40 110.75.173.163
40 110.75.173.129
40 110.75.173.12
40 110.75.172.110
30 124.83.190.63
30 120.203.215.9
30 110.75.176.55
30 110.75.175.27
30 110.75.175.17
30 110.75.175.16
30 110.75.174.247
30 110.75.174.231
30 110.75.174.168
30 110.75.173.55
30 110.75.173.37
30 110.75.173.25
30 110.75.173.24
30 110.75.173.161
30 110.75.172.97
30 110.75.172.85
30 110.75.172.84
30 110.75.172.83
30 110.75.172.108
20 221.130.18.89
20 221.130.18.119
20 120.203.215.15
20 110.75.176.59
20 110.75.176.28
20 110.75.176.24
20 110.75.175.46
20 110.75.175.29
20 110.75.175.28
20 110.75.175.26
20 110.75.175.25
20 110.75.175.22
20 110.75.175.18
20 110.75.174.236
20 110.75.174.234
20 110.75.174.163
20 110.75.173.49
20 110.75.173.30
20 110.75.173.28
20 110.75.173.23
20 110.75.173.223
20 110.75.173.162
20 110.75.173.160
20 110.75.173.141
20 110.75.172.88
20 110.75.172.87
20 110.75.172.86
20 110.75.172.113
20 110.75.172.111
20 110.75.171.96
20 110.75.171.81
10 60.223.237.167
10 58.22.138.18
10 110.75.176.58
10 110.75.176.56
10 110.75.176.5
10 110.75.176.36
10 110.75.176.2
10 110.75.176.17
10 110.75.176.1
10 110.75.175.58
10 110.75.175.47
10 110.75.175.33
10 110.75.174.53
10 110.75.174.50
10 110.75.174.235
10 110.75.174.22
10 110.75.174.200
10 110.75.174.20
10 110.75.174.199
10 110.75.174.197
10 110.75.174.178
10 110.75.174.136
10 110.75.174.10
10 110.75.173.27
10 110.75.173.26
10 110.75.173.21
10 110.75.173.20
10 110.75.173.193
10 110.75.173.159
10 110.75.173.158
10 110.75.173.145
10 110.75.173.144
10 110.75.173.143
10 110.75.173.142
10 110.75.173.134
10 110.75.173.130
10 110.75.172.98
10 110.75.172.95
10 110.75.172.93
10 110.75.172.74
10 110.75.172.73
10 110.75.172.72
10 110.75.172.118
10 110.75.172.115
10 110.75.172.112
10 110.75.171.99
10 110.75.171.97
10 110.75.171.77
10 110.75.171.124
10 110.75.171.120
10 110.75.171.119
1 110.75.171.100
stat_ip.log
按照C段排列:
70 110.75.173.0
52 110.75.174.0
29 110.75.176.0
28 110.75.172.0
23 110.75.175.0
14 221.176.88.0
11 122.228.66.0
10 221.130.18.0
9 110.75.171.0
5 183.129.198.0
5 125.39.66.0
5 120.203.215.0
5 118.195.65.0
4 27.24.158.0
4 202.171.253.0
3 211.138.121.0
3 124.83.190.0
2 120.203.214.0
1 67.55.71.0
1 67.210.103.0
1 60.223.237.0
1 58.22.138.0
1 221.181.192.0
1 221.176.14.0
1 211.162.121.0
1 173.208.185.0
1 122.198.80.0
1 119.233.255.0
1 118.244.165.0
EtaoSpider搜索引擎蜘蛛
iplog.txt
實例IP統計:
10081 110.75.17.71
10206 110.75.17.47
10015 110.75.17.21
10010 110.75.17.55
10000 110.75.17.46
9099 110.75.17.74
9099 110.75.17.24
9095 110.75.17.72
9087 110.75.17.23
9804 110.75.17.5
9707 110.75.17.73
9704 110.75.17.49
9701 110.75.17.19
9609 110.75.17.67
9606 110.75.17.15
9603 110.75.17.70
9603 110.75.17.22
9602 110.75.17.20
9508 110.75.17.65
9503 110.75.17.30
9052 110.75.17.1
9051 110.75.17.62
9500 110.75.17.40
9404 110.75.17.42
9404 110.75.17.17
9309 110.75.17.48
9308 110.75.17.44
9290 110.75.17.51
9260 110.75.17.45
9206 110.75.17.27
9205 110.75.17.64
9022 110.75.17.37
9016 110.75.17.39
9014 110.75.17.14
9012 110.75.17.59
9009 110.75.17.69
9009 110.75.17.12
9007 110.75.17.26
9006 110.75.17.52
8906 110.75.17.18
8905 110.75.17.2
8902 110.75.17.57
8804 110.75.17.34
8801 110.75.17.32
8703 110.75.17.63
8609 110.75.17.3
8604 110.75.17.7
8602 110.75.17.43
8506 110.75.17.9
8502 110.75.17.68
8502 110.75.17.66
8501 110.75.17.6
8408 110.75.17.8
8309 110.75.17.53
8304 110.75.17.13
8302 110.75.17.31
8209 110.75.17.25
8108 110.75.17.56
8107 110.75.17.38
8107 110.75.17.33
8105 110.75.17.50
8104 110.75.17.28
8103 110.75.17.61
8101 110.75.17.75
8008 110.75.17.11
7909 110.75.17.54
7908 110.75.17.41
7907 110.75.17.16
7906 110.75.17.36
7900 110.75.17.58
7840 110.75.17.29
7801 110.75.17.60
7708 110.75.17.35
7609 110.75.17.4
7600 110.75.17.10
10 110.75.17.79

可見EtaoSpider搜索引擎蜘蛛全部IP是110.75.17.0網段。

 

有興趣的網友可以按照以上同樣方法從網站日誌中統計出“EasouSpider”搜索引擎蜘蛛全部IP,其他類推。


2.直接封YisouSpider爬蟲方法

使用防火牆直接將IP或者IP段封了,例如linux的iptable策略。並且iptable命令在CentOS/RadHat、Debian/Ubuntu 系統下都通用的。Windows系統可以使用防火牆策略,或者TCP/IP組策略。

方法一:

Windows2008/2012添加防火牆新規則,如圖示:


Windows防火牆->>新建規則->>選擇“自定義規則”->>指定“程序”(Apache)或者選擇“端口”(80)->>作用域->>IP地址範圍(110.75.171.1-到110.75.176.1)->>完成

linux的iptable策略,實例:
iptable命令:禁止"YisouSpider"蜘蛛

  1. # iptables -I RH-Firewall-1-INPUT-s 110.75.171.0/24 -j DROP

  2. # iptables -I RH-Firewall-1-INPUT-s 110.75.172.0/22 -j DROP

  3. # iptables -I RH-Firewall-1-INPUT-s 110.75.17.0/24 -j DROP

以上命令直接操作插入規則iptables,立即生效。

 

iptables_rules.alc

  1. # Generated by iptables-save v1.4.8 on Sun Apr 14 10:19:40 2013

  2. *filter

  3. :INPUTACCEPT[0:0]

  4. :FORWARD ACCEPT[0:0]

  5. :OUTPUT ACCEPT[19690:39552262]

  6. :RH-Firewall-1-INPUT-[0:0]

  7. -AINPUT-j RH-Firewall-1-INPUT

  8. -A FORWARD -j RH-Firewall-1-INPUT

  9. -A RH-Firewall-1-INPUT-s 110.75.171.0/24 -j DROP 

  10. -A RH-Firewall-1-INPUT-s 110.75.172.0/22 -j DROP 

  11. -A RH-Firewall-1-INPUT-s 110.75.17.0/24 -j DROP 

  12. ……中間省略其他規則……

  13. -A RH-Firewall-1-INPUT-p tcp -m state --state NEW -m tcp --dport 80 -ACCEPT

  14. -A RH-Firewall-1-INPUT-p tcp -m state --state NEW -m tcp --dport 22 -ACCEPT

  15. COMMIT

  16. # Completed on Sun Apr 14 10:19:40 2013

 

讓iptables_rules.alc規則即時生效,命令:

  1. # iptables-restore < iptables_rules.alc

在Debian/Ubuntu系統使用以上命令。

 

如果是CentOS/RadHat,打開iptables的配置文件:“vi /etc/sysconfig/iptables”內容參考上面。
全部修改完之後重啓iptables:“ service iptables restart”,你可以驗證一下是否規則都已經生效:“iptables -L”
如果iptables爲空,則顯示

  1. Chain INPUT (policy ACCEPT)

  2. target     prot opt source               destination

  3.  

  4. Chain FORWARD (policy ACCEPT)

  5. target     prot opt source               destination

  6.  

  7. Chain OUTPUT (policy ACCEPT)

  8. target     prot opt source               destination

 

搜索引擎YisouSpider爬蟲的IP範圍可能還有如下:

'110.75.164.x', '110.75.167.x', '110.75.168.x', 
'110.75.171.x', '110.75.172.x', '110.75.173.x', '110.75.174.x', '110.75.175.x', '110.75.176.x'
知道IP段後,可以使用iptables屏蔽。

若您是使用iptables屏蔽的,可採用如下步驟查詢是否已經添加,以110.75.164.x網段爲例:

iptables -L INPUT --line-numbers |  grep 110.75.164. |  grep -P "DROP|REJECT"

若返回規則不爲空,並且有相關規則,表示已經添加規則。


上面這麼多IP,如果用防火牆的方法,iptable也可以直接將IP封了。不過比較繁瑣啊,下面更簡單快捷的方法解決。

方法二:

下面以Nginx爲例,
可以加在 server段 或者location

server
……
if ($http_user_agent ~* "(YisouSpider|EasouSpider|EtaoSpider)") {
   return 403;
}
……

通過Web Server的屏蔽User-Agent限制,以下Apache爲例

方法一,在配置文件(Apache默認httpd.conf)尋找關鍵字SetEnvIfNoCase,並且添加一行如下內容:

“SetEnvIfNoCase User-Agent "YisouSpider" getout”

添加完成後需要重啓Apache。

方法二,在網站根目錄中檢查是否有.htacces文件,若有,在 ./htaccess文件查找關鍵字Yisou,如果有:

“SetEnvIfNoCase User-Agent "^Yisou" bad_bot 
Deny from env=bad_bot”

則按照原有htaccess規則的那一行,添加上面相應內容。

 

建議站長遇到類似問題的話,影響系統正常訪問,消耗過度流量資源,就封了它,節省帶寬資源,提高系統資源有效的利用率。
另外,其他類似的搜索引擎蜘蛛爬蟲問題也可以按照本方法解決。

3.檢測配置有效性

使用Nginx 用 User-Agrent 禁止部分訪問

爲節省流量,禁止部分流氓爬蟲或不重要的爬蟲。nginx 用 if 和 $http_user_agent。

如:

location / {
 root   /home/www/;

 if ($http_user_agent ~* "YisouSpider") {
  return 403;
 }
 #...
}

然後重啓 nginx

  1. kill -HUP `cat logs/nginx.pid`

 

可以用 curl 測試一下

  1. curl --"YisouSpider" localhost

 

看到返回 403 就正常了,表示配置正確生效了。

 

附錄:

robots協議抓取限制

爲了讓搜索引擎爬蟲能獲取到你的網站內容,更好的爲你提供推薦服務,需要修改一下網站的robots.txt配置。
robots.txt放置在網站的根目錄下,例如您的站點是http://www.xxx.com/,則通過http://www.xxx.com/robots.txt可以獲得。

(禁止YisouSpider|EasouSpider|EtaoSpider)robots.txt配置方法
添加如下內容,如果網站設置了robots協議,請檢查一下協議裏的內容:

例如: 
User-agent: YisouSpider
Disallow: /

User-agent: EasouSpider
Disallow: /

User-agent: EtaoSpider
Disallow: /

上面行代表不允許YisouSpider|EasouSpider|EtaoSpider爬蟲抓取您的網站內容。禁止規則,不是即刻生效(你也不知道它生效不生效,robots文件只不過是一個聲明)。要即可生效需通過本文其他兩個方法,掌握主動權。

 

 

小結: http://jimmyli.blog.51cto.com/blog/3190309/1209336
方法篇介紹瞭如何收集最新最準確搜索引擎蜘蛛IP。並且通過實例來,從網站的日誌裏統計蜘蛛,發現未知的蜘蛛。針對不同的蜘蛛,屏蔽蜘蛛、禁止爬蟲怎麼樣更高效,更快捷。文章原出處 

支持與交流網址:http://jimmyli.jimmyli.blog.51cto.com/【End】

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章