原创 python爬蟲基礎知識之選擇器

1          選擇器 ID 1.1         Class 屬性選擇器:可以指定值來選擇 後代選擇器(包含選擇器) 子選擇器     1.2         Xpath 使用路徑表達式在xml中進行導航     1.3    

原创 python爬蟲基礎知識之requests,讀取圖片的兩隻方式,cookies,beautifulsoup

Requests 1.         o  發送請求 o  傳遞URL參數 o  讀取響應內容(文本/二進制/Json) o  定製請求頭部 o  Post請求 o  響應狀態碼 o  重定向和歷史 o  超時   2.       處

原创 python爬蟲selenium爬取開開貸黑名單

第一次用selenium爬取黑名單數據,但是不夠自動化,頁面總長和每頁有多少條記錄都是手動設置變量添加的,很不智能。 這次代碼改進了一下內容: (1)把頁碼有關的信息切出來,自動獲取頁數 (2)查找每頁有多少記錄 (3)利用兩個list保

原创 python數據分析--導入數據

1、讀取指定路徑的數據 讀取json類型數據,注意python2和python3的路徑表示不一樣,我使用的python3中使用  \\ ,而python2中使用反斜槓 / import json path='E:\\DataAnalysi

原创 【hi,elsa,sql】查詢sql中每月的數據,並按月顯示

錯誤嘗試:之前直接用MONTH 截取datatime的月份,不成功 正確:改用EXTRACT函數完成月份的提取,其中count可以換成sum之類計算總和 select EXTRACT(MONTH FROM datetime時間字段),CO

原创 python爬蟲筆記之三要點

python爬蟲的三個要點:1,獲取種子url。獲取的方式很多,css,xml等,處理的方式有dom,需要全部讀取內容,再進行篩選,寫起來容易讀,適合數據量不大的爬蟲,Sax流處理模式,一遍讀一遍處理,代碼不太易讀,但是處理效率高,獲取

原创 python爬蟲框架scarpy之AttributeError: module 'scrapy' has no attribute 'spider'

用scrapy的spider做爬蟲,發現運行有問題。 源碼: import scrapy class PpdSpider(scrapy.spider): name='PpdSpider' start_url=['http://w

原创 python爬取新浪財經的股票信息

import requests import threading def display_info(code): url = 'http://hq.sinajs.cn/list=' + code response = r