原创 爬取菜鳥教程python100例並利用pandas中方法直接存入exel表格

代碼一: from lxml import etree import requests#導入請求庫 import pandas as pd #導入pandas庫直接存爲exel文件 #菜鳥教程python100例url recomme

原创 爬蟲數據儲存於mysql數據庫

代碼一:(爬取博客園儲存於mysql數據庫) from lxml import etree import requests import pandas as pd #建立mysql數據庫連接 import pymysql conn =

原创 爬蟲url去重策略&&字符串編碼

 爬蟲url去重策略: 將訪問過的url保存到數據庫中; 將訪問過得url保存到set中,只需要o(1)的代價就可以查詢url url 經過md5的編碼等方法哈希後保存到set中(scrapy採用此方法) 用bitmap方法,將訪問過的u

原创 css選擇器:

css選擇器: #container:選擇id爲container的節點 .container:選取所有class包含container的節點 Li a : 選取所有li下的所有a節點 Ul + p :選擇ul 後面的第一個p元素 Div

原创 xpath語法簡介

 Xpath 是一門在XML或者html文檔中導航查找信息的語法,對HTML有很好的支持 xpath 是一個w3c的標準;xpath 包含標準庫; 1.節點關係 (層次關係) 2.節點選擇      01.節點選擇      表達式:no