原创 2018-8-14 人人網——2

from day02.tuozhan_all2 import session import json # url url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTim

原创 Scrapy的文件結構 以及 幾個文件之間的聯繫

(!!!————本篇博客以 ” 伯樂在線 “ 網站爲例————!!!) 幾個文件之間的聯繫 1. name.py(例如:a58tc.py) (以 58同城 爲例) (1)通過一系列的 xpath 匹配獲取

原创 2018-8-14 人人網——1

導包 from day02.tuozhan_all2 import post, get import json from urllib import request, parse from http import cookieja

原创 2018-8-14 人人網

from day02.tuozhan_all2 import get # 0. url # 1. 構造headers # 2. 調用get函數 # 3. 保存頁面 url = 'http://www.renren.com/96

原创 58同城——爬取步驟

以下這幾個文件的構造: scrapy_ljw scrapy_ljw spiders a58tc.py items.py pipelines.py

原创 Scrapy的文件結構

(!!!————本篇博客以 ” 伯樂在線 “ 網站爲例————!!!) Scrapy的文件結構 1. items.py ———(是定義scrapy內部數據的文件 ) # (1) items.py 裏的類都是繼承 scrapy.item,

原创 selenium 自動化檢測 —— 1

from selenium import webdriver import time url = 'http://www.baidu.com' 1. 獲取一個谷歌瀏覽器的操作對象 driver = webdriver.Chrome()

原创 requests_baidufanyi(用requests 實現的百度翻譯)

import requests import json url = 'http://fanyi.baidu.com/sug' # sug是打開f12以後 重新輸入需要翻譯的詞即可從Network中找到 def translate(k

原创 xueqiu_mysql (雪球數據存到數據庫)

import json from urllib import request import pymysql db = pymysql.connect(host='127.0.0.1', user='root', password='123

原创 2018-8-14 下午 人人網——2

from day02.tuozhan_all2 import session import json # url url = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimesta

原创 tuozhan_all(拓展__all)

from urllib import request, parse from urllib.error import HTTPError, URLError #a. get(url, headers=None) def get(url

原创 selenium 自動化檢測——2

from selenuim import webdriver import time # 獲取一個瀏覽器操作對象 driver = webdriver.Chrome() url = 'http://www.baidu.com' #

原创 cookie和session的區別

 cookie和session的區別 關鍵詞 cookie session 存儲機制 cookie 保存在客戶端瀏覽器上 session 保存在服務器上 是否安全 相對不安全 相對安全(存放登陸信息等重要信息) 保存格

原创 進程、線程以及它們之間的區別

進程   程序並不能單獨運行,只有將程序裝載到內存中,系統爲它分配資源才能運行,而這種執行的程序就稱之爲進程。程序和進程的區別就在於:程序是指令的集合,它是進程運行的靜態描述文本;進程是程序的一次執行活動,屬於動態概念。 進程只能在一個

原创 正則練習 re_my

import re # 1. 以 h 開頭 # 2. 以h開頭後面跟着一個字符 # 3. 以h開頭後面跟着任意數量的數字 # 4. 以3結尾 # 5. 以h開頭,以3結尾,中間只有一個字符串 # 6. 以h開頭,以3結尾,中間可以存在任