原创 查看已登錄網站cookie信息

最近在學習爬蟲模擬登錄方面的知識。需要用到cookie信息,所以簡要說明一下從瀏覽器獲取網頁cookie信息的方法。 chrome瀏覽器: 方法一: 1.打開設置選項,鏈接爲:chrome://settings/conten

原创 常用瀏覽器User-Agent

1,爲什麼需要修改UserAgent 在寫python網絡爬蟲程序的時候,經常需要修改UserAgent,有很多原因,羅列幾個如下: 不同Agent下看到的內容不一樣,比如,京東網站上的手機版網頁和pc版網頁上的商品優惠不一樣

原创 linux中文件數目統計

1) 統計當前文件夾下文件的個數 ls -l |grep "^-"|wc -l 2) 統計當前文件夾下目錄的個數 ls -l |grep "^d"|wc -l 3) 統計當前文件夾下文件的個數,包括子文件夾裏的 ls -lR|g

原创 python函數編程SyntaxError: non-default argument follows default argument

SyntaxError: non-default argument follows default argument 解決辦法:如果一個函數的參數中含有默認參數,則這個默認參數後的所有參數都必須是默認參數 。 def run(na

原创 Http協議詳解

HTTP簡介 HTTP協議是Hyper Text Transfer Protocol(超文本傳輸協議)的縮寫,是用於從萬維網(WWW:World Wide Web )服務器傳輸超文本到本地瀏覽器的傳送協議。 HTTP是一個基於T

原创 python使用cookie模擬登陸

最近在學習爬蟲過程中,要用到模擬登陸,本文對模擬登陸做一個簡單的介紹,一方面是爲以後的查找,也爲初學者模擬登陸一個網站提供些參考。 #-*-coding:utf-8-*- import requests #此處爲用戶所要登陸的網站

原创 linux基本命令

由於最近在使用linux系統,好多的命令特別容易忘記,故而總結如下。 系統信息  arch 顯示機器的處理器架構(1) uname -m 顯示機器的處理器架構(2) uname -r 顯示正在使用的內核版本 dmidecode -q 顯

原创 浮躁的年輕人

轉載 原文鏈接:http://blog.csdn.net/gneveek/article/details/8690657 【1】 年齡,那是一種對時間的焦慮。張愛玲一句“出名要趁早”,害了不知多少人。人是靠價值相互認同的,而不是

原创 python測試代碼報錯:Ran 0 test in 0.00s

最近在學習selenium時,使用unittest框架進行代碼測試時,發現報以下錯誤: Ran 0 test in 0.00s OK 原因: unittest提供了全局的main()方法,使得一個單元測試模塊變成可以直接運行的

原创 python中range和xrange的區別

在python中range返回的是一個包含所有元素的列表,xrange返回的是一個生成器,生成器是一個可迭代對象,在對生成器進行迭代時,元素是逐個被創建的。一般來看,在對大序列進行迭代的時候,因爲xrange的特性,所以它會比較節約內存

原创 requests模塊的安裝與應用

requests是python的一個HTTP客戶端庫,跟urllib,urllib2類似,那爲什麼要用requests而不用urllib2呢?官方文檔中是這樣說明的: python的標準庫urllib2提供了大部分需要的HTTP功

原创 python中去掉字符串中的空格

我們想去除字符串中不必要的空格時可以使用如下方法: 在這裏以str作爲例子來演示。在str中前中後三處都有空格。 函數原型: 聲明:str爲字符串,rm爲要刪除的字符序列 str.strip(rm) : 刪除s字符串中開頭、結尾

原创 搜索引擎爬蟲原理

搜索引擎的處理對象是互聯網網頁,日前網頁數量以百億計,所以搜索引擎首先面臨的問題就是:如何能夠設計出高效的下載系統,以將如此海量的網頁數據傳送到本地,在本地形成互聯網網頁的鏡像備份。 網絡爬蟲即起此作用,它是搜索引擎系統中很關鍵也

原创 map&reduce&filter

map:map()函數接收兩個參數,一個是函數,一個是Iterable(迭代器),map將傳入的函數依次作用到序列的每個元素,並把結果作爲新的Iterator返回。 list = [1,2,3,4] def sum(x): re

原创 python過濾html文檔中的Tag標籤

最近在練習爬蟲時需提取HTML文檔正文內容,現總結如下方法。 方法一: 模塊 lxml.html.clean 提供 一個Cleaner 類來清理 HTML 頁。它支持刪除嵌入或腳本內容、 特殊標記、 CSS 樣式註釋或者更多。   注