python2
爬蟲:從網頁上採取數據
爬蟲模塊:urllib,urllib2,re,bs4,requests,scrapy,xlml
1.urllib
2.request
3.bs4
4.正則re
5種數據類型
(1)數字Number
(2)字符串String
(3)列表List[] 中文在可迭代對象就是unicode對象
(4)元組Tuple()
(5)字典Set{}
爬蟲思路:
1.靜態 urlopen打開網頁------獲取源碼read
2.requests(模塊) get/post請求----獲取源碼 text()方法 content()方法(建議)
3.bs4 能夠解析HTML和XML
#-- coding:utf-8 --
from bs4 import BeautifulSoup
#1
#html="<div>2018.1.8 14:03</div>"
#soup=BeautifulSoup(html,'html.parser') #解析網頁
#print soup.div
#2從文件中讀取
html=''
soup=BeautifulSoup(open('index.html'),'html.parser')
print soup.prettify()
4.獲取所需信息
python爬蟲思路
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章
使用python寫糗事百科的爬蟲
qiufozhe
2019-02-23 13:37:36
用 Python 抓網頁?你想問的都幫答好了,你還有不懂的嗎?
Dawning666
2019-02-23 00:17:01
Python神器!爬取京東手機上萬的商品數據
Dawning666
2019-02-23 00:17:01
用 Python 抓網頁?你想問的都幫答好了,你還有不懂的嗎?
Dawning666
2019-02-23 00:17:01
利用Python爬取幾百萬github數據!這些源碼都是我的囊中之物!
Dawning666
2019-02-23 00:17:01
如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分佈式爬蟲項目
my8100
2019-02-23 00:16:58
【數據分析】python分析百度搜索關鍵詞的頻率
老張的技術
2019-02-23 00:11:55
python爬蟲抓取51cto博客大牛的文章保存到本地excel文件
yujianglei
2019-02-23 00:08:29
Python網絡爬蟲實戰案例之:7000本電子書下載(1)
數據饕餮
2019-02-22 23:45:35
Python網絡爬蟲實戰案例之:7000本電子書下載(4)
數據饕餮
2019-02-22 23:45:35
Python網絡爬蟲實戰案例之:7000本電子書下載(3)
數據饕餮
2019-02-22 23:45:35
python 抓取"一個"網站文章信息放入數據庫
IT阿飛
2019-02-22 23:34:57
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
圓方圓PYTHON
2019-02-22 23:26:43
Python爬蟲 --- 2.5 Scrapy之汽車之家爬蟲實踐
圓方圓PYTHON
2019-02-22 23:26:43