原创 二.python 多進程總結

一.多進程 def 1. import time import multiprocessing def run(data): print time.ctime(time.time()) print data if __n

原创 三.獲取登陸cookie,並且利用cookie訪問登陸後的界面

一.urllib2方法 #coding:utf-8 import cookielib import urllib2 import urllib import requests url='http://bbs.chinaunix.net/

原创 五.scrapy CSVFeedSpider

一.何時用到 數據格式爲csv時,抓取數據需要用到 如http://yum.iqianyue.com/weisuenbook/pyspd/part12/mydata.csv 二.如何玩 打開網站是csv下載文件,下載後爲 用記事本打開後

原创 二.lxml用法大全

#coding:utf-8 from lxml import etree text = ''' <div> <ul> <li class="item-0"><a href="link1.html">first i

原创 二.selenium爬取51job任意職位信息

#coding:utf-8 import HTMLParser from selenium import webdriver import time,os,requests,xlwt,xlrd from lxml import etree

原创 Python爬蟲入門三之Urllib庫的基本使用

那麼接下來,小夥伴們就一起和我真正邁向我們的爬蟲之路吧。 1.分分鐘扒一個網頁下來 怎樣扒網頁呢?其實就是根據URL來獲取它的網頁信息,雖然我們在瀏覽器中看到的是一幅幅優美的畫面,但是其實是由瀏覽器解釋才呈現出來的,實質它是一

原创 五.python requests ip僞裝,cookie登陸獲取,利用cookie進行登陸

#coding:utf-8 #requests ip僞裝,cookie登陸獲取,利用cookie進行登陸 #ip僞裝 import requests from bs4 import BeautifulSoup header={ 'User

原创 四.BeautifulSoup爬取51job任意職位並且存儲到mongodb

#coding:utf-8 import requests import re import urllib2 from pymongo import MongoClient from bs4 import BeautifulSoup #抓

原创 Python爬蟲入門二之爬蟲基礎瞭解

1.什麼是爬蟲 爬蟲,即網絡爬蟲,大家可以理解爲在網絡上爬行的一直蜘蛛,互聯網就比作一張大網,而爬蟲便是在這張網上爬來爬去的蜘蛛咯,如果它遇到資源,那麼它就會抓取下來。想抓取什麼?這個由你來控制它咯。 比如它在抓取一個網頁,在這個網

原创 三.BeautifulSoup用法大全

#coding:utf-8 import HTMLParser from selenium import webdriver import time,os,requests,xlwt,xlrd from lxml import etre

原创 五.BeautifulSoup大衆點評爬取店鋪信息,存儲到mongodb

#coding:utf-8 from pymongo import MongoClient import requests,re from multiprocessing import Pool from bs4 import Beaut

原创 四.scrapy XMLFeedSpider用法

一:在何時纔會使用到XMLFeedSpider  處理RSS訂閱信息,RSS是一種信息聚合技術,是基於XML 二:舉例 新浪微博 http://blog.sina.com.cn/u/1649020634 點擊訂閱後  複製鏈接http

原创 一.python 常見面試題11題

問題1 到底什麼是Python?你可以在回答中與其他技術進行對比(也鼓勵這樣做)。 答案 下面是一些關鍵點: Python是一種解釋型語言。這就是說,與C語言和C的衍生語言不同,Python代碼在運行之前不需要編譯。其他解釋型語言

原创 三.python threading多線程總結

threading用於提供線程相關的操作,線程是應用程序中工作的最小單元。python當前版本的多線程庫沒有實現優先級、線程組,線程也不能被停止、暫停、恢復、中斷。 threading模塊提供的類:  Thread, Lock, Rl

原创 四.python urllib2 ip僞裝,cookie登陸獲取,利用cookie進行登陸

#coding:utf-8 #urllib2 ip僞裝,cookie登陸獲取,利用cookie進行登陸 #urllib2 ip僞裝 import urllib2,socket from bs4 import BeautifulSoup p