原创 我的友情鏈接

董小洋

原创 Requests詳解

#--Name: Requests庫詳解0x00 什麼是Requests?    Request是用Python語音編寫,基於urllib,採用Apache2 Licensed開源協議的HTTP庫.    比urllib更方便,節省大量的工

原创 正則

#--Name: 正則0x00 什麼是正則表達式?    正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符,    以及這些特定字符的組合,組成一個  "規則字符串",這個  "規則字符串"用來    表達對字符串的一

原创 初識爬蟲

url-scheduler-downloader-spider-pipelinespider----需要進一步抓取的鏈接,例如之前分析的“下一頁”的鏈接,這些東西會被傳回 Scheduler(循環上述步驟)      ----需要保存的數據

原创 linux常用命令

Linux簡介及Ubuntu安裝更名 mv (原文件名) (新文件名)常見指令系統管理命令打包壓縮相關命令關機/重啓機器Linux管道Linux軟件包管理vim使用用戶及用戶組管理文件權限管理Linux簡介及Ubuntu安裝Linux,免費

原创 socket

Socket-C/SSocket又稱"套接字",應用程序通常通過"套接字"向網絡發出請求或者應答網絡請求,使主機間或者一臺計算機上的進程間可以通訊。socket起源於UNIX,在Unix一切皆文件哲學的思想下,socket是一種"打開—讀/

原创 爬蟲利器-PyQuery詳解(個人喜好)

#--Name: PyQuery 詳解0x00 什麼是PyQuery?    這是一個強大又靈活的網頁解析庫。    如果你覺得寫正則太麻煩,    如果你覺得BeautifulSoup語法太難記,    如果你熟悉jQuery,    那

原创 爬蟲-繞過瀏覽器防爬機制的小方法

爬蟲-繞過瀏覽器防爬機制的小方法1.設置Headers調試瀏覽器F12,用的是Chrome,打開網絡監聽請求的頁面包含了許許多多的內容,這些內容也不是一次性就加載完成的,實質上是執行了好多次請求,一般是首先請求HTML文 件,然後加載JS,

原创 簡單爬蟲思路

1、預期獲取的資源的url2、下載url的html源文件(文本形式)3、從已下載的html源文件裏獲取標籤或內容(bs4函數(python3)) soup=BeautifulSoup #創建對象 body=soup.body  #html基

原创 正則

#--Name: 正則0x00 什麼是正則表達式?    正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符,    以及這些特定字符的組合,組成一個  "規則字符串",這個  "規則字符串"用來    表達對字符串的一

原创 socket

Socket-C/SSocket又稱"套接字",應用程序通常通過"套接字"向網絡發出請求或者應答網絡請求,使主機間或者一臺計算機上的進程間可以通訊。socket起源於UNIX,在Unix一切皆文件哲學的思想下,socket是一種"打開—讀/

原创 我的友情鏈接

董小洋

原创 Urllib 詳解

問題:1、urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadefault=False,context=None)內部參數解釋     2、

原创 初識爬蟲

url-scheduler-downloader-spider-pipelinespider----需要進一步抓取的鏈接,例如之前分析的“下一頁”的鏈接,這些東西會被傳回 Scheduler(循環上述步驟)      ----需要保存的數據

原创 linux常用命令

Linux簡介及Ubuntu安裝更名 mv (原文件名) (新文件名)常見指令系統管理命令打包壓縮相關命令關機/重啓機器Linux管道Linux軟件包管理vim使用用戶及用戶組管理文件權限管理Linux簡介及Ubuntu安裝Linux,免費