原创 [python爬蟲]爬蟲西刺ip代理
西刺代理網頁是:http://www.xicidaili.com/nn 注意: 1.西刺代理千萬別用代理爬取,目前我使用66代理和西刺代理是無法爬取的西刺網頁的 2.一定要加User-Agent報頭 1.從網頁爬取到csv文件代碼
原创 [Python爬蟲]使用Scrapy框架爬取淘寶
說明: 這裏我們只爬取了淘寶的列表頁和寶貝的鏈接,名稱,價格,銷量,圖片地址。如果有需求爬取內容頁,自行添加 啓動文件mian.py taobao_wang是我自己建的執行文件名 from scrapy.cmdline import ex
原创 [Python爬蟲]Scrapy框架爬取bilibili個人信息
啓動文件main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 執行spider下的爬取文件 # -*- coding:
原创 Scrapy架構下載及安裝
Scrapy架構下載 pip install scrapy 下載安裝成功查看:會顯示版本號 scrapy 圖片: 如果安裝失敗 1.缺少什麼文件執行下面: pip install wheel 2.在windows環境,python下使
原创 SPSS Modeler 和spss statistics有什麼不同
Modeler是數據挖掘 statistics是統計分析 Modeler是數據挖掘 statistics是統計分析 兩者的區別 表面的直接區別是在處理數據的量上有區別,statistics的處理數據量有限,而modeler處理數據的量
原创 [python爬蟲]Scrapy架構的使用
創建一個Scrapy項目 我是在PyCharm的命令行執行,創建項目文件之前可以自定義文件地址 創建scrapy項目文件夾(目錄) scrapy startproject 文件夾名稱 建立項目文件時需要在scrapy項目文件夾下建立,文件
原创 [python爬蟲] 使用多進程爬取妹子圖
導包 import re,os,time from piaot import * from multiprocessing import Pool 獲得網頁頁數數量 def mnshoye(): # 主頁 url='h
原创 [python爬蟲]多進程爬取喜馬拉雅音樂
導包 import json,os from piaot import * from multiprocessing import Pool def pqxs(shu=1): # 循環頁數 for i in range
原创 Python線程和進程的區別
Python進程 進程優點: 它提供了多道編程,讓我們感覺我們每個人都擁有自己的CPU和其他資源,可以提高計算機的利用率。 進程是具有一定獨立功能的程序關於某個數據集合上的一次運行活動,進程是系統進行資源分配和調度的一個獨立單位。 進
原创 cookie的存儲及獲取
導包 from urllib import request from http import cookiejar #聲明一個CookieJar對象實例來保存cookie cookie = cookiejar.CookieJar
原创 [python爬蟲]爬取我愛我家租房信息
導包 import re,chardet,pymysql from piaot import * from urllib import parse 主函數,輸入值ye是頁數 def woaijia(name,ye): # 將n
原创 [python爬蟲]爬取電影天堂連接
導包 import requests,re,chardet,pymysql from piaot import * 獲取首頁一共有多少個分類 def shoye(): url='http://www.dytt8.net/html
原创 [python爬蟲]喜馬拉雅音樂
導包 import json,os,time from piaot import * def pqxs(shu=1): # 循環頁數 for i in range(1,shu+1): # 需要查詢手動
原创 有道翻譯的接口
import time import random import json from piaot import post 這個包是僞裝和post、get的自定義包 from piaot import post def md5_m
原创 [python爬蟲]爬取妹子圖
導包 import re,os,time from piaot import * 獲得網頁的頁數和連接 def mnshoye(): # 主頁 url='http://www.mzitu.com/' # 自定